|
|
Menota
T V B Tekst- og
verktøybase for Medieval
Nordic Text Archive Kodingskollokvium i
Oslo, 13. februar 2004 Deltakarar:
Maria Arvidsson (Vadstena-prosjektet, Oslo), Nils
Dverstorp (Vadstena-prosjektet, Oslo), Mette
Gismerøy Ekker (Riksarkivet, Oslo), Florian
Grammel (Menota TVB, Bergen), Odd Einar Haugen
(prosjektleiar Menota TVB, Bergen), Ingela
Hedström (Vadstena-prosjektet, Oslo), Karl G.
Johansson (Senter for studiar i vikingtid og
nordisk mellomalder, Oslo), Alex Speed Kjeldsen
(Den Arnamagnæanske Samling,
København) og Christian-Emil Ore (Enhet for
digital dokumentasjon, Oslo). Møtestad:
Forskningsparken, møterom 11, Blindern,
Universitetet i Oslo. Tidspunkt:
kl. 9.00-16.30. Referatet er
skrive av Odd Einar Haugen. Møtet vart
opna av Karl G. Johansson og vart leia av Odd Einar
Haugen og Karl G. Johansson i
fellesskap. 1. Presentasjon av MUFI
character recommendation Odd Einar Haugen
gav ein kort presentasjon av tilrådinga
frå Medieval Unicode Font Initiative (MUFI).
Versjon 1.0 av denne tilrådinga omfattar 828
teikn, og dekkjer svært mange av dei teikna
som trengst for transkripsjon av nordiske
mellomaldertekster. Tilrådinga ligg på
ein "persistent URL" ved Universitetsbiblioteket i
Bergen: http://www.ub.uib.no/elpub/2003/r/000001/ Nye teikn
og/eller teiknvariantar vil bli tekne opp i seinare
versjonar. Eit nytt møte i MUFI kjem truleg
til å haldast seinare i 2004 eller tidleg i
2005. Det er no
publisert ei nettside med MUFI-kompatbile fontar.
Sannsynlegvis vil seks fontar vil bli gjort
MUFI-kompatbile i løpet av 2004; hittil er
ein font, Alphabetum, publisert med full
MUFI-kompatibilitet: 2. Utvikling av
inndatametodar Florian Grammel
orienterte om sitt arbeid med å byggje opp
ein tastaturlayout tilpassa MUFI-tilrådinga.
Han utfører dette arbeidet for Mac OS X, der
layouten kan definerast som ein XML-fil (eventuelt
som ein såkalla resource-fil). Arbeidet vil
bli koordinert med ein tilsvarande layout for
Windows, under utvikling av Alec McAllister, Leeds.
Den sistnemnde har lagt vekt på å bruke
"hot keys" som har mnemoteknisk verdi (t.d. "a" for
"accent" / "aksent"). 3. Nye
teikn
Alex S. Kjeldsen
peika på at det såkalla
rum-teiknet (opphavleg ein rund "r" med
skråstrek over halen) ideelt sett skulle
kunne løysast opp; for eksempel
førekjem det ein kapitél "R" med ein
tilsvarande strek. OEH repliserte at denne
skråstreken også førekjem i
mange andre samanhengar og at det var mogleg
å leggje denne inn som ein slags "combining
diacritical mark". Erfaring frå tilgjengeleg
font-teknologi og praksis innanfor Unicode tyder
likevel på at diakritika som kryssar
grunnlinjeteikn helst bør definerast som
eigne teikn, i alle fall dersom ein ønskjer
ei akseptabel vising av dei. Ingela
Hedström fortalde at eit tilsvarande teikn,
ein V med skråstrek for "vers(iculum)"
svært ofte førekom i dei svenske
handskriftene ho arbeidde med. Ein tilsvarande
strek førekjem også over
"R". Odd Einar Haugen
understreka at skiljet mellom teikn og variantar er
sentralt for Unicode, som i hovudsak baserer seg
på testar med minimale par for å
avgjere om noko er ein "character" (teikn) eller
ikkje. Så lenge ein held seg innanfor Private
Use Area (PUA), kan ein gjere (nesten) kva ein vil.
Det er mogleg å leggje inn variantar på
eigne kodepunkt i PUA, men det vil vere vanskeleg
å få desse aksepterte i
Unicode-standarden seinare. Inntil vidare kan ein
sjå på PUA som eit slags venterom for
teikn som med tida kan få plass i
standarden. Karl G. Johansson
heldt fram at teiknvariantar kanskje ikkje
bør kodast ved hjelp av entitetar, men
heller ved hjelp av element, t.d. <var
n="1">g</var> for ein spesifikk variant av
"g", osv. Møtet drog ikkje nokon konklusjon
i dette spørsmålet. I begge tilfelle -
anten ein brukar entitetar eller element - må
variasjonen deklarerast. Tilføying
etter møtet (25.02.2004): Det viser seg
at dei to teikna V og R med skråstrek
allereie finst i Unicode-standarden, nemleg i
tabellen Letterlike Symbols, som 2123 VERSICLE og
211E PRESCRIPTION TAKE. 4. Nye
element
Nils Dverstorp
argumenterte for at interpunksjon bør
dekkjast av eit eige element, på linje med
<w> (for ord) - for eksempel kalla
<intpunc/> (altså slik at det
står tomt). Dermed kan ein lettare regulere
representasjonen av interpunksjon på dei
ulike nivå av transkripsjonen. Han skisserte
ei løysing der dette blir dekt ved hjelp av
attributt, slik at ... borg. i
borgarfirði ... kunne kodast
som <w>borg</w><intpunc
level="facs" type="full stop"/>
<w>i</w>
<w>borgarfirði</w> Florian Grammel
peika på at dette også kunne behandlast
analogt med koding innanfor <w>,
altså: <w>...</w><intpunc><facs>.</facs><dipl></dipl></intpunc>
<w>i</w>
<w>borgarfirði</w> Møtet
slutta seg til tanken om å innføre eit
eige element for interpunksjon, og oppmoda
redaksjonen i Menota handbook til å ta
dette opp på redaksjonsmøtet i
København 26.-27 mars 2004.
Spørsmålet er drøfta
nærmare i eit notat av Nils
Dverstorp: Alex S. Kjeldsen
gav uttrykk for at ei koding på fleire
nivå innanfor <w>-elementet
viste seg å vere ei fleksibel løysing,
og at det i enkelte prosjekt kunne vere
ønskeleg å innføre ekstra
nivå, t.d. eit endå meir
handskriftsnært nivå, som kunne kallast
<pal>. Edda- og
skaldedikt blir behandla som linegroups,
<lg>, i Menota-handboka. Det kom
framlegg om at ein kunne leggje desse inn i eit
særskilt element, <poem>,
ettersom <lg> også kunne bli
brukt om heilt andre strukturar (t.d.
marginalia). Redaksjonene for
Menota handbook vart oppmoda om å
arbeide vidare også med desse framlegga.
5. Strykingar,
tilføyingar og
marginalia
Maria Arvidsson
la fram utdrag frå ein av dei svenske
tekstene, som viste at strykingar,
tilføyingar og marginalia ofte kunne vere
ganske komplekse, og at det ikkje var enkelt
å kode desse etter gjeldande
retningslinjer. I diskusjonen om
desse problema kom det fram at ein måtte gje
prioritet til den logiske strukturen i dokumentet,
men at ein skulle ta sikte på å kode
den grafiske (visuelle) strukturen slik at den var
identifiserbar. Ved hjelp av gode stilskjema kan
ein nå langt i å vise også den
grafiske strukturen (t.d. handskriftssidene linje
for linje), men enkelte grafiske strukturar kan
vise seg vanskelege å representere og vise
på ein fullgod måte. 6.
Lemmatisering
Alex S. Kjeldsen
har arbeidd med den nyaste versjonen av kap. 8
(utlagt til høyring på Menota-sidene
25.03.2003), og hadde ein del kommentarar til
denne, m.a.: (1) Det er behov
for xNU (substantiv, uspesifisert) i tillegg til
xNC (appellativ) og xNP (propria). (2) Det
første teiknet i ordklassekodinga bør
vere unikt, og når "N" er brukt for
substantiv (noun) bør ein unngå
det for talord (numeral), som no har kodane
xNA (kardinal-tal) og xNO (ordinal-tal). Eit
alternativ er "T" (for talord), altså xTA og
xTO. (3) Ettersom
adjektiv berre har svake (indefinitte) former i
komparativ, er det diskutabelt om dei bør
kodast for dette trekket. (4) Skiljet
mellom pronomen og determinativ er i strid med dei
tradisjonelle grammatikkane, og truleg også
ordklassetildelinga i Ordbog over det
norrøne prosasprog. Det hadde vore
ønskeleg med ei liste over kva slags ord som
fell i dei ulike klassane, slik at ein kunne setje
opp tilordningstabellar. (5) Det er ikkje
berre kardinal-tala 1-4 som skal kodast for
genus. (6) Enklitiske
konstruksjonar førekjem også utanom
verb, t.d. at þú >
attu, attac ec (negasjon). (7) Koding av
verb kan vere problematisk fordi det er så
mange kategoriarr å halde styr
på. (8) Presens
partisipp har også refleksive
former. (9) Det
bør vurderast å gje eigen kode til
supinum. (10) Etter
handboka kan det sjå ut til at styring ved
preposisjonar også omfattar
nominativ. Odd Einar Haugen
sa at handboksredaksjonen skulle arbeide vidare med
desse merknadene. Det var semje om
at lemmatiseringsarbeidet bør førast
vidare i ei særskilt arbeidsgruppe, på
linje med det som er gjort i MUFI. Aktuelle
deltakarar i denne gruppa er Karl G. Johansson,
Alex S. Kjeldsen, Christian-Emil Ore, Odd Einar
Haugen, Daniel Ridings (Enhet for digital
dokumentasjon) og Michael Irlenbusch
(mastergradsstudent ved Universitetet i Bergen),
gjerne også ein frå
ordboksmiljøet på Island. Karl G.
Johansson fekk i oppdrag å initiere
arbeidet i denne gruppa. Alex S. Kjeldsen
etterlyste ei lemmaliste for Barlaams saga,
slik at brukarane med ein gong kunen sjå kva
for lemma denne teksten inneheldt. Odd Einar Haugen
sa at dette vil bli teke opp i Bergen. 7. Demonstrasjon av
<Oxygen/> Florian Grammel
og Odd Einar Haugen gav ein demonstrasjon av
XML-editoren <Oxygen/>. Denne editoren er
basert på JAVA og er tilgjengeleg for alle
større plattformer (Windows, Mac,
Linux/Unix), og har full Unicode-støtte. Det
er dermed nogleg å taste inn tekst med
MUFI-kompatible fontar, og først på
eit seinare tidspunkt konvertere desse teikna til
entitetar. Editoren validerer raskt mot DTD, og kan
generere filar i ulike format (HTML,
PDF). Florian Grammel
etterlyste eit skript som kan konvertere kodepunkt
i Unicode til entitetar (etter MUFIs
standard). Lisens for ein
akademisk brukar er USD 48 - gjeld dei som
brukar programmet til ikkje-kommersielle
føremål.
|