Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Til fréttastofu RÚV um kynferðisofbeldi og pyntingar Ísraels Ingólfur Gíslason Skoðun Fáheyrðar yfirlýsingar innviðaráðherra Lilja S. Jónsdóttir,Gauti Kristmannsson Skoðun Þarf Icelandair að skipta um nafn? Jón Þór Þorvaldsson Skoðun Hildur. Borgarstjórinn okkar Hildur Sverrisdóttir Skoðun Ábyrgð sveitarfélaga varpað á aðstandendur Jóna Elísabet Ottesen Skoðun Brostnar vonir í Kópavogi Sigrún Ólöf Ingólfsdóttir Skoðun Það á að vera einfalt að búa í Reykjavík Þorvaldur Davíð Kristjánsson Skoðun Takk Hveragerði Njörður Sigurðsson Skoðun Hvar á láglaunafólk að búa? Ábyrgð sveitarfélaga Róbert Farestveit,Jana Eir Víglundsdóttir Skoðun Útborgun í íbúð eða leikskólapláss í Kópavogi? Jóna Þórey Pétursdóttir Skoðun Skoðun Skoðun Falið fagstarf frístundaheimila Hafdís Oddgeirsdóttir,Viktor Orri Þorsteinsson skrifar Skoðun Hvað verður um Ylju neyslurými? Bjartur Hrafn Jóhannsson,Hákon Skúlason skrifar Skoðun Áfram og upp Þorgerður Katrín Gunnarsdóttir skrifar Skoðun Fráleitar tillögur um að einkavæða orkufyrirtækin okkar Jóhann Páll Jóhannsson skrifar Skoðun Kennarar þurfa ekki skammir heldur stuðning okkar Líf Magneudóttir skrifar Skoðun Óvenju mikið í húfi Skúli Helgason skrifar Skoðun Ný Heiðmörk fyrir Reykvíkinga Sara Björg Sigurðardóttir skrifar Skoðun Gerum miðbæ Garðabæjar iðandi af lífi og menningu Vilmar Pétursson skrifar Skoðun Betri Hafnarfjörður Árni Stefán Guðjónsson skrifar Skoðun Ábyrgð sveitarfélaga varpað á aðstandendur Jóna Elísabet Ottesen skrifar Skoðun Takk Hveragerði Njörður Sigurðsson skrifar Skoðun Aukum valfrelsi foreldra í Mosfellsbæ Sóley Sævarsdóttir Meyer skrifar Skoðun Fáheyrðar yfirlýsingar innviðaráðherra Lilja S. Jónsdóttir,Gauti Kristmannsson skrifar Skoðun Heilsársbúseta er hjarta samfélagins Þorgerður Lilja Björnsdóttir skrifar Skoðun Reykjavík verður að styðja við fátæk börn í borginni Guðbjörg Ingunn Magnúsdóttir skrifar Skoðun Sjálfskapaður vandi Evrópu Einar G. Harðarson skrifar Skoðun Það á að vera einfalt að búa í Reykjavík Þorvaldur Davíð Kristjánsson skrifar Skoðun Fyrirmyndir Sigrún Steinarsdóttir skrifar Skoðun Kosningar og leikskólamál Sigríður Clausen skrifar Skoðun Hvar á láglaunafólk að búa? Ábyrgð sveitarfélaga Róbert Farestveit,Jana Eir Víglundsdóttir skrifar Skoðun Þetta gerðum við á 15 mánuðum Heiða Björg Hilmisdóttir skrifar Skoðun Fullveldið er falið í gagnaeign Hjörtur Smárason skrifar Skoðun Borgar menning sig? Jóna Hlíf Halldórsdóttir skrifar Skoðun Brostnar vonir í Kópavogi Sigrún Ólöf Ingólfsdóttir skrifar Skoðun Participation and Local Elections: A reflection from someone who cannot vote yet Gemma Fornell Parra skrifar Skoðun Hildur. Borgarstjórinn okkar Hildur Sverrisdóttir skrifar Skoðun Hvar slær hjarta kjósenda? Ragnar Sigurður Kristjánsson skrifar Skoðun Afþökkum barnaskatt Samfylkingarinnar í Kópavogi Andri Steinn Hilmarsson skrifar Skoðun Leikskóladvöl í Fjarðabyggð er lúxus Ásdís Helga Jóhannsdóttir skrifar Skoðun Týndi hópurinn á húsnæðismarkaði – gullnu árin Ragnar Þór Reynisson skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Hvar á láglaunafólk að búa? Ábyrgð sveitarfélaga Róbert Farestveit,Jana Eir Víglundsdóttir Skoðun
Skoðun Hvar á láglaunafólk að búa? Ábyrgð sveitarfélaga Róbert Farestveit,Jana Eir Víglundsdóttir skrifar
Skoðun Participation and Local Elections: A reflection from someone who cannot vote yet Gemma Fornell Parra skrifar
Hvar á láglaunafólk að búa? Ábyrgð sveitarfélaga Róbert Farestveit,Jana Eir Víglundsdóttir Skoðun