Referat fra møte om normalisering
København 20.11.2009

Stad: Festsalen, Den Arnamagnæanske Samling, Københavns Universitet

Tid: 13.15-17.00

Til stades:

Haraldur Bernharðsson, Reykjavík
Helle Degnbol, København
Odd Einar Haugen, Bergen
Alex S. Kjeldsen, København
Christian-Emil Ore, Oslo

Sakspapir:

a. Notat frå Andrea de Leeuw van Weenen til Menotas rådsmøte, 27. august 2009.
b. Notat om ONPs ortografiske norm, 1. september 2009.
c. Notat frå Haraldur Bernharðsson, 18. november 2009.
d. Notat frå Helle Degnbol og Alex Kjeldsen, 20. november 2009, revidert 24. november 2009.


1. Val av ordstyrar og referent

Alex Kjeldsen vart vald som ordstyrar, og Odd Einar Haugen som referent.


2. Presentasjon og eventuell justering av dagsorden

Alex Kjeldsen forklarte om bakgrunnen for møtet, som vart fastsett under Menotas rådsmøte 27.08.2009, sak 4. Han la fram utkast til dagsorden og gjekk kort gjennom denne. Møtet slutta seg til denne dagsordenen.


3. Kort opplegg til diskusjon

På bakgrunn av notatet i sakspapir d gav Helle Degnbol ein kort gjennomgang av nokre sentrale punkt:

- Det er viktig å notere seg “kvar skoen trykkjer”, både for dei som normaliserer tekstar i Menota, og for dei som er brukarar av Menotas tekstbase.

- Bak all normalisering ligg det ideologiske val, som ein ikkje må gløyme midt oppe i dei praktiske problema.

- Sjølv om fokuset er den vestnordiske (norrøne) prosaen, skal ein ha det austnordiske språket i bakhovudet. Ein skal også ha eit blikk på poesien, og bør derfor ha kontakt med det internasjonale skaldediktingsprosjektet.

- Ei Menota-normalisert utgåve vil ikkje alltid vere den rette for alle brukarar, men kan danne grunnlag for andre utgåver med andre typar av normalisering.

- Det er viktig å ha gode rutinar for oppdatering av arkivet, herunder versjonskontroll av tekstane, og det må vere mogleg for brukarar å melde om feil på ein enkel måte.

- Det er behov for å standardisere kapittelinndelinga i sagaene, for her er det stor variasjon frå utgåve til utgåve (i motsetnad til i den klassiske litteraturen).


4. Retningslinjer for normalisering av tekst

Alex Kjeldsen opna dette punktet med å slå fast at det var ulike synspunkt på kor streng ei normalisering skal vere, dvs. kor tett den skal følgje ei bestemt norm. I debatten kom desse synspunkta fram:

- For normalisering av norrønt er det no naturleg å følgje ONP (Ordbog over det norrøne prosasprog), som har ein noko meir fellesnordisk normal enn den ein finn i Íslenzk fornrit.

- I dei tekstane som no ligg føre i Menota, er det variasjon ikkje berre på norm-nivået, men også på facs- og dipl-nivået. Det er elles berre for norrøne tekstar ein kan leggje ned ein streng normal; for mellomnorsk og austnordisk (fornsvensk og gammeldansk) er det ikkje tilsvarande normalar, så der må det vere rom for ulike løysingar. Eit døme på dette er den normaliseringa Henrik Williams har gjort av fornsvensk i utgåva av Hærra Ivan (i Norse Romance, utg. Marianne Kalinke, 1999).

- I utgjevinga av danske folkeviser skjer det også ei viss normalisering, men her nyttar ein termen nøytralisering, dvs. at ein reduserer den interne variasjonen i dokumentet. Dette kan ein også gjere for norrøne tekstar, men det er ei veikare form for normalisering, kan hende meir på linje med den som er gjort for fornsvensk i Hærra Ivan.

- Innanfor norrønt er det truleg viktigast å normalisere ortografien, medan ein kan tillate ein viss variasjon i morfologien – t.d. treng ein ikkje normalisere “Ek er Maria” i ei seinmellomalderleg islandsk kjelde til “Ek em Maria”.

- Normaliseringa av eddadikta i GKS 2365 4to i den utgåva som vil bli publisert i 2010, byggjer på norma i handskriftet, dvs. islandsk språk ca. 1270. Dette er avvikande i forhold til norma i f.eks. utgåvene til Jón Helgason i serien Nordisk Filologi, og ikkje alle møtedeltakarane var like glade for dette. Men det vart framheva at arbeidet som er gjort med normaliseringa, er verdifullt frå ein språkvitskapleg synsstad, og at det er med på å vise den faktiske språkutviklinga i islandsk.

- Så lenge ei norrøn tekst er lemmatisert, er det kanskje ikkje så viktig at normaliseringa ligg heilt fast. Men Menota kjem truleg til å få tekstar som er på norm-nivå og som ikkje er lemmatiserte; det understrekar behovet for å gjere normaliseringa fastare.

- Under alle omstende bør ein spesifisere i header korleis ein vik av frå ONP-normalen. Det er elles denne normalen vi rår til bør brukast (jf. pkt. 6.2 nedanfor).

- I norrøne tekstar der normaliseringa vik av frå standarden til ONP, er det mogleg å leggje inn eit fjerde nivå, som følgjer standarden i ONP. Teknisk sett er det lett å gjere i Menota, ettersom det er rom for fleire nivå innanfor <w>-elementet. Men som hovudregel rår vi til at dei tre etablerte nivåa i Menota blir brukte, dvs. facs, dipl og norm.

- Ein skal ikkje gløyme at det er mange brukarar som har bruk for all den hjelp dei kan få i arbeidet med norrøne tekstar, og at ein fast normal vil vere viktig for dei. Dette gjeld både dei som skal normalisere tekstane og dei som skal bruke dei.

- Dersom ein har ein lemmatisert tekst og ein fullform-database, bør det langt på veg vere mogleg å normalisere ein tekst automatisk, sjølv om det nok er behov for ein kontroll og finpussing av interpunksjon og bruk av stor forbokstav.

5. Lemmatisering av norrøn tekst

Det var full semje blant møtedeltakarane om at lemmatiseringa skal følgje ONPs norm, slik det er sagt i kap. 8.6.1 av The Menota Handbook. Diskusjonen tok opp dei praktiske problema med å følgje ONPs norm.

- Det er ein del variasjon i ONP, m.a. ved at det er alternative oppslagsformer. Her må det gjevast klare retningslinjer.

- Sjølv om det blir lagt ned eit stort arbeid i å utarbeide retningslinjer, er det vanskeleg å unngå ein viss variasjon i lemmatiseringa. Dette kan avhjelpast ved at ein gjer det mogleg å laste ned ei liste over alle oppslagsformer (lemmata) i kvar lemmatisert tekst i Menota.

- Dersom ein skal følgje oppslagsformene i ONP, bør ein også følgje ordklasseinndelinga. Det er ein del ord som kan tilordnast meir enn ei ordklasse, t.d. allr, hverr, sumr, einn. Men det er ei lukka liste, som ein kan spesifisere i The Menota Handbook.

- Problemet med "dobbeltmarkering" vart også diskutert, t.d. at "öllu" kan tolkast både som adjektiv (dativ singular nøytrum) og som adverb, utan at møtet kom fram til noka løysing der og då.

- Homografseparering er enkel å utføre der det er skilnad i ordklasse eller bøyingsklasse. Ettersom substantiv er klassifiserte etter genus, er det såleis enkelt å skilje mellom t.d. hlið n. ‘port’ og hlið f. ‘side’, og om verba blir klassifiserte i sterke og svake, kan ein også skilje mellom brenna st.vb. (intransitivt) og brenna sv.vb. (transitivt). Derimot er det vanskeleg å skilje mellom homografar som har (eller kan ha) identisk bøying, t.d. á f. ‘elv’ og á f. ‘søye’. ONP har langt på veg maksimert homonymi, dvs. at det er relativt få homografar av den siste typen. Men for lemmatiseringa er det nødvendig å ha ei liste over slike homografar med tilordna tyding, framfor alt for den delen av ordtilfanget som det enno ikkje er laga noko ordboksband for (etter em-).

- Det vart argumentert for at ein kunne knyte ein ID (identifikasjonsnummer) til kvart oppslag i ONPs ordliste, slik at eventuelle endringar i denne kunne handterast lettare. Dette gjeld endringar av typen eptir > eftir, men også oppslagsord som blir slegne saman, som blir strokne, eller som kjem til. Det er ikkje innlysande at ei slik registrering vil bli lett å få til, så dette er eit punkt som ein må arbeide vidare med.

- Det vil vere ein del lemmata som ikkje finst i ONP, t.d. norsk ordtilfang etter 1370 og propria. Her vil det vere ønskeleg med ei supplering av ONPs ordliste.

- Det vart vist til at Fartein Øverland, Bergen, har utarbeidd ei liste der alle oppslagsformer i Gammalnorsk Ordboksverk er knytte til oppslagsformene i Fritzner; som kjent er det ein del avvik mellom ortografien i desse, t.d. høyra vs. heyra, diofull vs. djöfull, ringr vs. hringr.

- ONP har ei fullstendig ordliste, der ein har registrert for kvart ord om Fritzner har ordet og, om så er, med kva for form. Dermed kan ein støype saman denne med den lista som Fartein Øverland har utarbeidd og få til ein tabell over parallelle oppslagsformer i ONP, Fritzner og Gammalnorsk Ordboksverk.

Endeleg vart dei praktiske sidene ved å harmonisere lemmatiseringa diskutert. Det vart uttrykt ønske om å revidere den lemmatiseringa som no finst i Menota, slik at ein kunne gjennomføre ei felles norm basert på ONP. Men det vart også vist til at dette ville krevje ein ny gjennomgang av alle dei lemmatiserte tekstane (ca 260.000 ord), og at det per i dag ikkje var ressursar til dette.

6. Kva no?

Møtet kom fram til denne framdriftsplanen:

6.1 Lemmatisering av norrøn tekst

Kap. 8 “Lemmatisation” i The Menota handbook blir utvida, først og fremst kap. 8.6. Her må det gjevast meir nøyaktige spesifikasjonar om lemmatisering av norrøn tekst.

Fordeling av arbeidet: Helle Degnbol sender ei liste over alle homografar av typen á f. ‘elv’ og á f. ‘søye’. Christian-Emil Ore hentar inn ei liste over alle avvik i ONP jamført med Fritzner og vurderer om det er mogleg å støype denne lista saman med den som Fartein Øverland har utarbeidd.

Alle deltakarane på møtet les gjennom kap. 8 i The Menota handbook og sender sine kommentarar til Odd Einar Haugen. Han er ansvarleg for å oppdatere kapitlet og leggje det ut på Menotas sider under “Chapters in progress for v. 3.0 of the handbook”. Dette arbeidet skal vere fullført innan 01.04.2010.

6.2 Normalisering av norrøn tekst

Det blir oppretta eit nytt kapittel “Normalisation” i The Menota handbook. Den første delen av dette kapitlet diskuterer dei ulike elementa i normaliseringsprosedyren, ortografi, morfologi og interpunksjon (og eventuelle andre moment). Det blir gjeve fleire korte eksempel på tekstar før og etter normalisering, med kronologisk og regional (norsk og islandsk) spreiing. Vidare blir dei viktigaste normalane presenterte, dvs. ONP, Íslenzk fornrit, og Gammalnorsk Ordboksverk, gjerne også Wimmer/Gordon og Anthony Faulkes (som framståande praktikar). Kapitlet slår fast at ein kan normalisere etter fleire prinsipp, herunder den normalen som det enkelte handskriftet har (slik som det blir gjort i utgåva av eddadikta i GKS 2365 4to), men at Menota rår til at brukarar som hovudregel følgjer ONPs normal for norrøne tekstar. Dei som ikkje gjer det, må notere alle avvik frå ONPs norm i header til den aktuelle filen. Møtet legg til grunn at ONPs normal kan brukast på islandske tekstar fram til ca. 1550 og på norske fram til ca. 1370, og truleg lenger for lovhandskriftene, som gjennomgåande har eit tradisjonelt språk. Problema med å normalisere poetisk litteratur, særleg edda- og skaldedikt, bør også nemnast.

Den andre delen av kapitlet er ein detaljert gjennomgang av ONPs normal, som legg fast hovudprinsippa, på grunnlag av ONPs notat, og dessutan på sikt så langt som mogleg svarar på konkrete spørsmål knytt til normaliseringa, med bakgrunn i spørsmål som ein i seinare tid har motteke frå brukarar.

Fordeling av arbeidet: Odd Einar Haugen opprettar eit nytt kapittel “Normalisation” for The Menota handbook under “Chapters in progress for v. 3.0 of the handbook”, og skaffar passord for Haraldur Bernharðsson og Helle Degnbol, slik at dei kan arbeide med kapitlet i Reykjavík og København.

Tilføying til referatet 10.12.2009: Ein mal for kapitlet er no oppretta på denne sida, og passord er sendt til begge forfattarane.

Christian-Emil Ore skaffar fram normaliseringsreglane for Gammalnorsk Ordboksverk og sender til Haraldur. Odd Einar Haugen finn fram eit nokre døme på normalisering av gammalnorsk tekst og sender til Haraldur. Haraldur skriv utkast til den første delen av kapitlet, medan Helle Degnbol skriv utkast til andre delen av kapitlet. Alex Kjeldsen hjelper til med dette arbeidet.

Arbeidet med den første delen av kapitlet kan ta til relativt snart og skal etter planen vere fullført innan 01.04.2010. Arbeidet med den andre delen av kapitlet kan ikkje ta til før etter 01.02.2010, men også denne delen, i første rekkje ei engelsk omskriving av ONPs reglar, skal etter planen vere fullført til 01.04.2010.

Odd Einar Haugen koordinerer eventuelle problem med XML-redigeringa av kapitlet, m.a. utlegging av grafikk (t.d. tekstprøver i JPG eller PDF).

7. Eventuelt

Christian-Emil Ore peika på at mange forskingsmiljø i Noreg er representerte i CLARIN (Common Language Resources and Technology Infrastructure), men hittil ingen i DARIAH (Digital Research Infrastructure for the Arts and Humanities). Han meinte det ville vere ein fordel å vere medlem i DARIAH, ettersom dette nettverket ligg så nært opp til CLARIN.

Møtet vart avslutta 17.00.

 

Bergen, 09.12.2009
Odd Einar Haugen


Tilbake til hovedsiden

Opprettet 09.12.2009. Sist oppdatert 10.12.2009. Vevsjef.