Menota T V B

Tekst- og verktøybase for Medieval Nordic Text Archive
Kodingsstandard, ordbankbygging og Heimskringla-edisjon


Kodingskollokvium i Oslo, 13. februar 2004

Deltakarar: Maria Arvidsson (Vadstena-prosjektet, Oslo), Nils Dverstorp (Vadstena-prosjektet, Oslo), Mette Gismerøy Ekker (Riksarkivet, Oslo), Florian Grammel (Menota TVB, Bergen), Odd Einar Haugen (prosjektleiar Menota TVB, Bergen), Ingela Hedström (Vadstena-prosjektet, Oslo), Karl G. Johansson (Senter for studiar i vikingtid og nordisk mellomalder, Oslo), Alex Speed Kjeldsen (Den Arnamagnæanske Samling, København) og Christian-Emil Ore (Enhet for digital dokumentasjon, Oslo).

Møtestad: Forskningsparken, møterom 11, Blindern, Universitetet i Oslo.

Tidspunkt: kl. 9.00-16.30.

Referatet er skrive av Odd Einar Haugen.

Møtet vart opna av Karl G. Johansson og vart leia av Odd Einar Haugen og Karl G. Johansson i fellesskap.

 

1. Presentasjon av MUFI character recommendation

Odd Einar Haugen gav ein kort presentasjon av tilrådinga frå Medieval Unicode Font Initiative (MUFI). Versjon 1.0 av denne tilrådinga omfattar 828 teikn, og dekkjer svært mange av dei teikna som trengst for transkripsjon av nordiske mellomaldertekster. Tilrådinga ligg på ein "persistent URL" ved Universitetsbiblioteket i Bergen:

http://www.ub.uib.no/elpub/2003/r/000001/

Nye teikn og/eller teiknvariantar vil bli tekne opp i seinare versjonar. Eit nytt møte i MUFI kjem truleg til å haldast seinare i 2004 eller tidleg i 2005.

Det er no publisert ei nettside med MUFI-kompatbile fontar. Sannsynlegvis vil seks fontar vil bli gjort MUFI-kompatbile i løpet av 2004; hittil er ein font, Alphabetum, publisert med full MUFI-kompatibilitet:

MUFI font page

 

2. Utvikling av inndatametodar

Florian Grammel orienterte om sitt arbeid med å byggje opp ein tastaturlayout tilpassa MUFI-tilrådinga. Han utfører dette arbeidet for Mac OS X, der layouten kan definerast som ein XML-fil (eventuelt som ein såkalla resource-fil). Arbeidet vil bli koordinert med ein tilsvarande layout for Windows, under utvikling av Alec McAllister, Leeds. Den sistnemnde har lagt vekt på å bruke "hot keys" som har mnemoteknisk verdi (t.d. "a" for "accent" / "aksent").

 

3. Nye teikn

Alex S. Kjeldsen peika på at det såkalla rum-teiknet (opphavleg ein rund "r" med skråstrek over halen) ideelt sett skulle kunne løysast opp; for eksempel førekjem det ein kapitél "R" med ein tilsvarande strek. OEH repliserte at denne skråstreken også førekjem i mange andre samanhengar og at det var mogleg å leggje denne inn som ein slags "combining diacritical mark". Erfaring frå tilgjengeleg font-teknologi og praksis innanfor Unicode tyder likevel på at diakritika som kryssar grunnlinjeteikn helst bør definerast som eigne teikn, i alle fall dersom ein ønskjer ei akseptabel vising av dei.

Ingela Hedström fortalde at eit tilsvarande teikn, ein V med skråstrek for "vers(iculum)" svært ofte førekom i dei svenske handskriftene ho arbeidde med. Ein tilsvarande strek førekjem også over "R".

Vers-entitet

Odd Einar Haugen understreka at skiljet mellom teikn og variantar er sentralt for Unicode, som i hovudsak baserer seg på testar med minimale par for å avgjere om noko er ein "character" (teikn) eller ikkje. Så lenge ein held seg innanfor Private Use Area (PUA), kan ein gjere (nesten) kva ein vil. Det er mogleg å leggje inn variantar på eigne kodepunkt i PUA, men det vil vere vanskeleg å få desse aksepterte i Unicode-standarden seinare. Inntil vidare kan ein sjå på PUA som eit slags venterom for teikn som med tida kan få plass i standarden.

Karl G. Johansson heldt fram at teiknvariantar kanskje ikkje bør kodast ved hjelp av entitetar, men heller ved hjelp av element, t.d. <var n="1">g</var> for ein spesifikk variant av "g", osv. Møtet drog ikkje nokon konklusjon i dette spørsmålet. I begge tilfelle - anten ein brukar entitetar eller element - må variasjonen deklarerast.

Tilføying etter møtet (25.02.2004): Det viser seg at dei to teikna V og R med skråstrek allereie finst i Unicode-standarden, nemleg i tabellen Letterlike Symbols, som 2123 VERSICLE og 211E PRESCRIPTION TAKE.

Letterlike Symbols

 

4. Nye element

Nils Dverstorp argumenterte for at interpunksjon bør dekkjast av eit eige element, på linje med <w> (for ord) - for eksempel kalla <intpunc/> (altså slik at det står tomt). Dermed kan ein lettare regulere representasjonen av interpunksjon på dei ulike nivå av transkripsjonen. Han skisserte ei løysing der dette blir dekt ved hjelp av attributt, slik at

... borg. i borgarfirði ...

kunne kodast som

<w>borg</w><intpunc level="facs" type="full stop"/> <w>i</w> <w>borgarfir&eth;i</w>

Florian Grammel peika på at dette også kunne behandlast analogt med koding innanfor <w>, altså:

<w>...</w><intpunc><facs>.</facs><dipl></dipl></intpunc> <w>i</w> <w>borgarfir&eth;i</w>

Møtet slutta seg til tanken om å innføre eit eige element for interpunksjon, og oppmoda redaksjonen i Menota handbook til å ta dette opp på redaksjonsmøtet i København 26.-27 mars 2004. Spørsmålet er drøfta nærmare i eit notat av Nils Dverstorp:

Koding av interpunksjon

Alex S. Kjeldsen gav uttrykk for at ei koding på fleire nivå innanfor <w>-elementet viste seg å vere ei fleksibel løysing, og at det i enkelte prosjekt kunne vere ønskeleg å innføre ekstra nivå, t.d. eit endå meir handskriftsnært nivå, som kunne kallast <pal>.

Edda- og skaldedikt blir behandla som linegroups, <lg>, i Menota-handboka. Det kom framlegg om at ein kunne leggje desse inn i eit særskilt element, <poem>, ettersom <lg> også kunne bli brukt om heilt andre strukturar (t.d. marginalia).

Redaksjonene for Menota handbook vart oppmoda om å arbeide vidare også med desse framlegga.

 

5. Strykingar, tilføyingar og marginalia

Maria Arvidsson la fram utdrag frå ein av dei svenske tekstene, som viste at strykingar, tilføyingar og marginalia ofte kunne vere ganske komplekse, og at det ikkje var enkelt å kode desse etter gjeldande retningslinjer.

Notat om overlappingsproblem

I diskusjonen om desse problema kom det fram at ein måtte gje prioritet til den logiske strukturen i dokumentet, men at ein skulle ta sikte på å kode den grafiske (visuelle) strukturen slik at den var identifiserbar. Ved hjelp av gode stilskjema kan ein nå langt i å vise også den grafiske strukturen (t.d. handskriftssidene linje for linje), men enkelte grafiske strukturar kan vise seg vanskelege å representere og vise på ein fullgod måte.

 

6. Lemmatisering

Alex S. Kjeldsen har arbeidd med den nyaste versjonen av kap. 8 (utlagt til høyring på Menota-sidene 25.03.2003), og hadde ein del kommentarar til denne, m.a.:

(1) Det er behov for xNU (substantiv, uspesifisert) i tillegg til xNC (appellativ) og xNP (propria).

(2) Det første teiknet i ordklassekodinga bør vere unikt, og når "N" er brukt for substantiv (noun) bør ein unngå det for talord (numeral), som no har kodane xNA (kardinal-tal) og xNO (ordinal-tal). Eit alternativ er "T" (for talord), altså xTA og xTO.

(3) Ettersom adjektiv berre har svake (indefinitte) former i komparativ, er det diskutabelt om dei bør kodast for dette trekket.

(4) Skiljet mellom pronomen og determinativ er i strid med dei tradisjonelle grammatikkane, og truleg også ordklassetildelinga i Ordbog over det norrøne prosasprog. Det hadde vore ønskeleg med ei liste over kva slags ord som fell i dei ulike klassane, slik at ein kunne setje opp tilordningstabellar.

(5) Det er ikkje berre kardinal-tala 1-4 som skal kodast for genus.

(6) Enklitiske konstruksjonar førekjem også utanom verb, t.d. at þú > attu, attac ec (negasjon).

(7) Koding av verb kan vere problematisk fordi det er så mange kategoriarr å halde styr på.

(8) Presens partisipp har også refleksive former.

(9) Det bør vurderast å gje eigen kode til supinum.

(10) Etter handboka kan det sjå ut til at styring ved preposisjonar også omfattar nominativ.

Odd Einar Haugen sa at handboksredaksjonen skulle arbeide vidare med desse merknadene.

Det var semje om at lemmatiseringsarbeidet bør førast vidare i ei særskilt arbeidsgruppe, på linje med det som er gjort i MUFI. Aktuelle deltakarar i denne gruppa er Karl G. Johansson, Alex S. Kjeldsen, Christian-Emil Ore, Odd Einar Haugen, Daniel Ridings (Enhet for digital dokumentasjon) og Michael Irlenbusch (mastergradsstudent ved Universitetet i Bergen), gjerne også ein frå ordboksmiljøet på Island. Karl G. Johansson fekk i oppdrag å initiere arbeidet i denne gruppa.

Alex S. Kjeldsen etterlyste ei lemmaliste for Barlaams saga, slik at brukarane med ein gong kunen sjå kva for lemma denne teksten inneheldt. Odd Einar Haugen sa at dette vil bli teke opp i Bergen.

 

7. Demonstrasjon av <Oxygen/>

Florian Grammel og Odd Einar Haugen gav ein demonstrasjon av XML-editoren <Oxygen/>. Denne editoren er basert på JAVA og er tilgjengeleg for alle større plattformer (Windows, Mac, Linux/Unix), og har full Unicode-støtte. Det er dermed nogleg å taste inn tekst med MUFI-kompatible fontar, og først på eit seinare tidspunkt konvertere desse teikna til entitetar. Editoren validerer raskt mot DTD, og kan generere filar i ulike format (HTML, PDF).

Florian Grammel etterlyste eit skript som kan konvertere kodepunkt i Unicode til entitetar (etter MUFIs standard).

Nettside for <oxygen/>

Lisens for ein akademisk brukar er USD 48 - gjeld dei som brukar programmet til ikkje-kommersielle føremål.

 

 


Oppretta 16.02.2004. Sist oppdatert 25.02.2004.