Menota TVB

 

Prosjektmøte 17.01.2003

 

 

Sted: HIT-senteret, lunsjrom 1. etasje og møterom 3. etasje.

 

Til stede: Odd Einar Haugen, Gjert Kristoffersen (til lunsj), Kristine Breivik (til lunsj), Jo Rune Ugulen, Christian-Emil Ore, Karl Gunnar Johansson, Johan Utne Poppe, Daniel Ridings, Jon Gunnar Jørgensen (til 14.30), Rune Kyrkjebø, Paul Meurer (delvis) og Vemund Olstad.

 

Referent: Vemund Olstad.

 

Bakgrunnen for møtet er at det 18/12 2002 ble gitt tilslag på prosjektsøknaden ”Tekst og verktøybase for Medieval Nordic Text Archive: kodingsstandard, ordbankbygging og Heimskringla-edisjon” (heretter omtalt som ”Menota TVB”) fra Norges Forskningsråd (NFR). Dette prosjektet er et treårig prosjekt og må skilles fra Medieval Nordic Text Archive (Menota), som er et eget prosjekt med en egen organisasjon. Formålet med dette møtet var å få samlet alle de involverte parter og få lagt en framdriftsplan for Menota TVB.

 

 

Punkt 1. Introduksjon

 

Odd Einar ønsket velkommen og åpnet møtet. Etter en kort introduksjonsrunde der alle som var til stede, introduserte seg selv, fortalte Odd Einar i korte trekk om bakgrunnen for prosjektsøknaden.

 

 

Punkt 2. Orientering om HIT/Aksis

 

Forskningsdirektør i Aksis, Gjert Kristoffersen, gav en kort orientering om Aksis. Aksis (Avdelig for Kultur, Samfunn og Informasjon) er en avdeling i Unifob, der HIT-senteret inngår som en av tre forskergrupper. HIT-Senteret har sin opprinnelse i NAVFs EDB-Senter for humanistisk forskning tidlig på 1970-tallet og har lange tradisjoner innenfor områdene tekstkoding og korpuslingvistikk.

 

 

Punkt 3. Driftsformer og rutiner ved HIT/Aksis

 

Administrasjonssjef i Aksis, Kristine Breivik, orienterte om den praktiske siden av driften ved Aksis. Menota TVB er definert som et prosjekt ved HIT-senteret med et eget budsjett og eget internt prosjektnummer, men med selvstendig økonomisk styring. Fordelen ved dette er at Aksis-administrasjonen tar seg av alt det praktiske vedrørende regnskapsføring og budsjetter, samt den administrative kontakten med NFR.

 

Det er satt av ressurser til reiser/konferanser i Menota TVB. Praktiske spørsmål vedrørende reiseregninger rettes til økonomikonsulent Torill Revheim (torill.revheim@aksis.uib.no) og ferdig utfylte reiseregninger sendes til:

 

Aksis/HIT-senteret

v/Torill Revheim

Allégaten 27

5007 Bergen

 

Vedtak: Det opprettes en elektronisk post-liste for prosjektet Menota TVB.

 

Vedtak: Kristine Breivik sender ut en e-post til menota-tvb listen med informasjon om rutiner for reiser/opphold. Dette er spesielt viktig for de prosjektmedarbeiderene som ikke er ansatt ved UiB/Unifob.

 

 

Punkt 4. Generell drøfting

 

Generelt spørsmål fra Karl Gunnar Johansson: Han har vært involvert i to søknader til Sveriges Riksbank angående tekstkoding av Vadstena-samlingene. Begge disse søknadene gikk inn i fjor høst, og ettersom prosjektene vil satse på å følge Menotas standard for tekstkoding. kan det være aktuelt å drive kurs/opplæring.

 

Vedtak: Menota vil kunne arrangere kurs når versjon 1.0 av Menota Handbook er klar. Foreløpig frist for ferdigstillelse av håndboken er satt til 1. april 2003.

 

Christian-Emil Ore tok opp rettigheter til materiale. Dette er en problemstilling som er aktuell i både Menota og Menota TVB. Rettighetsproblemene knytter seg til materiale som blir tilført Menota fra andre prosjekter/enheter. Dette dreier seg i første rekke om tre hovedmiljøer ved Universitetet i Oslo:

 

1.     Gammelnorsk ordboksverk

2.     Heimskringla-prosjektet.

3.     Tekstlaboratoriets tagger-utvikling

 

I tillegg må institusjoner som yter en viss egeninnsats, som for eksempel Universitetsbiblioteket i Bergen (UBB), krediteres for sine bidrag.

 

De nevnte prosjektene har lang historie og tradisjon og det er viktig at disse prosjektenes innsats blir dokumentert og synliggjort, slik at det går helt klart frem hvem som er faglig ansvarlig. Det er også viktig å påpeke at Menota i utgangspunktet skal være et offentlig arkiv uten kostnader for brukerene. Man bør allikevel utforme en avtale som tar vare på leverandørenes rettigheter hvis deler av arkivet skulle komme til å bli brukt i kommersiell sammenheng.

 

Vedtak: Kristine Breivik tar kontakt med de forskjellige miljøene og setter opp en skisse til en kontrakt som ivaretar alle de involverte parters interesser. Denne kontrakten bør være klar i løpet av første kvartal 2003.

 

 

Punkt 5. Delprosjekt 1: Kodingsstandard og tekstvisning

 

Odd Einar Hagen ønsket innspill angående web-presentasjon av prosjektet. Det er viktig at prosjektet presenterer seg på en skikkelig måte, og nettsiden danner det avgjørende førsteinntrykket.

 

Odd Einar Haugen og Vemund Olstad orienterte om presentasjonen av de Menota-kodede tekstene og om status på arbeidet med stilark og fonter. Det som gjenstår her er å fremskaffe en font som muliggjør diplomatarisk visning av norrøne tekster.

 

 

Punkt 6. Delprosjekt 3: Heimskringla-edisjon

 

Dette delprosjektet består av to hovedpunkter:

 

  1. Konvertering av Heimskringla til Menota-standard
  2. Det filologiske arbeidet med del 1 av Heimskringla (skriftprofiler)

 

1. Konvertering av Heimskringla

 

Jon Gunnar Jørgensen orienterte kort om status for transkripsjonen av Heimskringla. Dette verket blir vanligvis delt i tre om lag like store deler: Hkr I, som går fram til Óláfs saga ins helga, Hkr II som omfatter Óláfs saga ins helga, og Hkr. III, som omfatter resten av verket. To av de viktigste håndskriftene, Kringla og Jofraskinna, ble ødelagt i brann på 1700-tallet. Transkripsjonen baserer seg derfor på en rekke yngre avskrifter, som tradisjonelt deles inn i en x- og y-klasse ut fra hvilket originalmanuskript de er basert på:

 

            x-klassen: representert ved Kringla-avskrifter

            y-klassen: representert ved Jofraskinna-avskrifter

 

Status for Kringla-transkripsjonene er at Hkr II og III (AM 36 fol. og AM 63 fol.) er ferdig avskrevet og kollasjonert mot andre avskrifter. Hkr I (AM 35 fol.) er ikke tilstrekkelig korrekturlest eller kollasjonert, med unntak av den aller første delen, Ynglinga saga. Felles for alle delene er at de er lagret i WordPerfect 4.2, så de må konverteres til ”Menota-format” fra dette formatet.

 

Vedtak: Jon Gunnar Jørgensen fullfører korrekturlesningen av Hkr I. Mesteparten av dette bør kunne gjøres i forbindelse med hans opphold på Island våren 2004 og den resterende delen vil kunne ferdigstilles i løpet av høstsemesteret 2004. Dette avhenger selvsagt av Jon Gunnars andre arbeidsoppgaver i samme tidsrom.

 

Vedtak: Ettersom korrekturlesningen på Hkr II og III i prinsippet er ferdig, kan konverteringsarbeidet begynne så snart kodestandarden er klar. Det er imidlertid en del forhold knyttet til rettigheter/godkjenning for bruk som må avklares først, så dette arbeidet vil ikke bli satt i gang før prosjektets tredje år (2005).

 

Når det gjelder arbeidet med avskriftene fra Jofraskinna, har Rune Kyrkjebø arbeidet med å skrive av Hkr I etter AM 37 fol.. Denne avskriften er gjort i SGML på diplomatarisk nivå, men må ”pusses opp” slik at den følger Menota-standard.

 

Vedtak: Rune Kyrkjebø begynner på dette arbeidet i vårsemesteret 2003, da dette er forenelig med hans stillingsprosent (15% for Menota TVB) inneværende år.

 

Opplysning: Jo Rune Ugulen har utført en transkripsjon av begynnelsen av Hkr III etter AM 39 fol. Denne vil også kunne konverteres til Menota-standard relativt snart.

 

2. Utforskning av skriftprofiler:

 

Denne delen av prosjektbeskrivelsen ble satt opp med tanke på Rune Kyrkjebøs arbeid med skriftprofiler i Jofraskinna-manuskriptene.

 

Vedtak: Dette arbeidet blir utsatt til 2004 i håp om at Rune Kyrkjebø kan frikjøpes med en større stillingsandel fra sin jobb ved Manuskriptsamlingen ved UBB, eller at denne delen kan defineres inn i hans jobb-beskrivelse ved UBB.

 

 

Punkt 7. Delprosjekt 2: Ordbank og lemmatisering

 

1) Overføring av tekster i DOK-gruppen til Menota-standard

 

Målet for denne delen av prosjektet er å få konvertert enkelte av tekstene fra Gammelnorsk ordboksverks seddelarkiv til ”Menota-standard. Det er i første rekke snakk om fem tekster som vil gi arkivet en tekstmengde på omtrent 500.000 løpende ord. Disse tekstene er ferdig lemmatisert og vil inneholde ”noen titalls tusen lemma”.

 

Ettersom tekstene rekonstrueres fra ordbokssedler vil korrekturlesning av de konverterte tekstene være viktig.

 

Vedtak: Odd Einar Haugen og Christian-Emil Ore avtaler et møte med Gammelnorsk ordboksverk i Oslo i nær fremtid for å involvere dem i arbeidet med konverteringen.

 

2) Standard for lemmatisering og grammatisk koding av tekster i arkivet 

 

Første steg på veien mot en fullt morfologisk kodet tekst i arkivet å få Barlaams saga ok Josaphats (Holm perg 6 fol.) konvertert til Menota-format med lemmatisering og EAGLES-annotering på ord-nivå. Christian-Emil Ore har allerede konvertert råteksten av Barlaams saga som en første test og Odd Einar Haugen har laget en tabell for konvertering av den eksisterende morfologiske kodingen (lemma og grammatisk form) til EAGLES-standard.

 

Ettersom dette er snakk om en foreløpig testkonvertering må man gå igjennom og kvalitetssikre dette dokumentet. Det er i tillegg visse problemer knyttet til å bruke EAGLES på gammelnordiske tekster som Odd Einar Haugen og Karl Gunnar Johansson må se nærmere på i forbindelse med Menota Handbook. Det vil derfor være til stor hjelp at Daniel Ridings, som har vært med på å utvikle denne standarden, nå er knyttet til prosjektet gjennom sitt engasjement ved DOK-gruppen i Oslo.

 

Vedtak: Daniel Ridings foretar en kvalitetskontroll på konverteringen av Barlaams saga ok Josaphats.

 

3) Søking i tekst

 

Når det gjelder utvikling av et grensesnitt for søking i tekstmaterialet, er det i tre personer som er aktuelle i forbindelse med dette: Daniel Ridings, Johan Utne Poppe og Paul Meurer. De har alle erfaring med tekstbaser/tekstkorpus og forskjellige typer verktøy. Det vil derfor være viktig at disse tre setter seg ned og ser på hvilke muligheter prosjektet vil kunne ha på dette området.

 

Vedtak: Christian-Emil, Daniel, Johan og Odd Einar møtes i Oslo for å se nærmere på tekniske løsninger, og hvordan utviklingsarbeidet kan fordeles på de to miljøene. Preliminær møtedato er fredag 21. mars.

 

4) Ordbank (komputasjonelt leksikon)

 

Oppbygging av en ordbank ble diskutert, og Karl Gunnar Johansson nevnte at det i Sverige er planer om en felles ordbank for svensk, som refererer til Söderwalls ordbok fram til ca. 1500, og Svenska Akademiens Ordbok deretter. Dette muliggjør en samlet behandling av svensk materiale.

 

En tilsvarende ordbank for norsk støter på det problemet at mellomnorsk (forstått som perioden 1370-1536) ikke er behandlet så grundig som gammelnorsk (dvs. norrønt), og at det dermed er en rekke uavklarte spørsmål knyttet til lemmatisering og grammatisk koding. I første omgang vil det derfor være aktuelt å konsentrere seg om det spesifikt gammelnorske materialet.

 

Det ble videre diskutert om man skulle satse på å utvikle en tagger for dette materialet, noe som Paul Meurer har erfaring med, eller om man skulle satse på en databaseløsning med "mapping" av former - av Christian-Emil Ore omtalt som å utarbeide et morfologisk frimerkealbum. Det var ikke mulig å nå fram til noen sikker konklusjon på dette spørsmålet, så det ble avtalt å drøfte spørsmålet videre i en mindre arbeidsgruppe innenfor prosjektet.

 

Vedtak: Christian-Emil Ore, Daniel Ridings, Paul Meurer og Odd Einar Haugen (eventuelt også Karl Gunnar Johansson) møtes i Oslo for å se nærmere på tekniske løsninger. Om det er praktisk, blir dette møtet koordinert med det ovenfor nevnte møtet, fredag 21. mars.

 

 

Møtet ble avsluttet ca. kl. 16.00.