Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Halldór 12.04.2026 Halldór Hólar í Hjaltadal „hér og þar og þá og nú“ Gunnar Rögnvaldsson Skoðun Tíu ára atvinnustefna, tíu árum of seint: Regnhlíf gegn flóðbylgju Björgmundur Örn Guðmundsson Skoðun Er einmanaleiki nýja tóbakið? Sigurður Árni Reynisson Skoðun Landskjörstjórn gerir athugasemd við spurninguna Erna Bjarnadóttir Skoðun Afvegaleiðing umræðu um ESB Sigurður Kristinn Pálsson Skoðun Hafa af þér fullveldið, Eiríkur?? Hjörtur J. Guðmundsson Skoðun Norsk Óskarsverðlaun og íslensk kreppa Sveinbjörn I. Baldvinsson Skoðun Börnin í Hveragerði Þorsteinn Hjartarson,Birgitta Ragnarsdóttir Skoðun Röddin - Íslensku hljóðvarps- og hlaðvarpsverðlaunin Gunnar Salvarsson Skoðun Skoðun Skoðun Tíu ára atvinnustefna, tíu árum of seint: Regnhlíf gegn flóðbylgju Björgmundur Örn Guðmundsson skrifar Skoðun Hólar í Hjaltadal „hér og þar og þá og nú“ Gunnar Rögnvaldsson skrifar Skoðun Landskjörstjórn gerir athugasemd við spurninguna Erna Bjarnadóttir skrifar Skoðun Börnin í Hveragerði Þorsteinn Hjartarson,Birgitta Ragnarsdóttir skrifar Skoðun Afvegaleiðing umræðu um ESB Sigurður Kristinn Pálsson skrifar Skoðun Er einmanaleiki nýja tóbakið? Sigurður Árni Reynisson skrifar Skoðun „Dæmisögur Jesú“—Líf sem ber hundraðfaldan ávöxt. Sigurvin Lárus Jónsson skrifar Skoðun Norsk Óskarsverðlaun og íslensk kreppa Sveinbjörn I. Baldvinsson skrifar Skoðun Þróun orðræðu um dauðann í íslenskri menningu Ingrid Kuhlman skrifar Skoðun Hafa af þér fullveldið, Eiríkur?? Hjörtur J. Guðmundsson skrifar Skoðun Röddin - Íslensku hljóðvarps- og hlaðvarpsverðlaunin Gunnar Salvarsson skrifar Skoðun Ekki trúa öllu sem þú lest á samfélagsmiðlum. Komdu í kaffi ég skal sýna þér Grindavík Dagmar Valsdóttir skrifar Skoðun Myndskýrsla - Hvað er þessi brottfararstöð? Alex Sumarliði skrifar Skoðun Hér er matur, um mat, frá mat, til fæðubótarefna... Guðmunda G. Guðmundsdóttir skrifar Skoðun Tryggjum fæðu- og eldsneytisöryggi með uppbyggingu á Dysnesi Pétur Ólafsson skrifar Skoðun Sterk vinnustaðarmenning er lykillinn að góðum árangri Kolbrún Magnúsdóttir skrifar Skoðun Ef þetta er samsæri, þá er ég greinilega að gera þetta vitlaust Haukur Logi Jóhannsson skrifar Skoðun Nýtt Álftanes á einu kjörtímabili Hreiðar Þór Jónsson skrifar Skoðun Evrópa fyrir íslendinga Ásgeir Þorgeirsson skrifar Skoðun Það sem Íslendingar þurfa að skilja Steinunn Ólína Þorsteinsdóttir skrifar Skoðun Hættum beit í bænum Davíð Arnar Stefánsson skrifar Skoðun Gagnsæi í ákvarðanatöku Heiðrún Kristmundsdóttir skrifar Skoðun Nýsköpun í breyttri heimsmynd Erna Björnsdóttir skrifar Skoðun Rödd ungs fólks á Seltjarnarnesi þarf að heyrast Auður Halla Rögnvaldsdóttir skrifar Skoðun Þau sem borga ekki Silja Sóley Birgisdóttir skrifar Skoðun Spjaldtölvur í námi nemenda - verkfæri djöfulsins? Sigrún Ólöf Ingólfsdóttir skrifar Skoðun Rúllum út rauða dreglinum Pétur Marteinsson skrifar Skoðun Ég, glæpamaður Daníel Hjörvar Guðmundsson skrifar Skoðun Ferðaþjónustan er ekki vandamálið – hún er hluti af lausninni Rannveig Grétarsdóttir skrifar Skoðun Hvað ég skildi um Ísland þegar ég hætti að bera það saman við Napólí Valerio Gargiulo skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Tíu ára atvinnustefna, tíu árum of seint: Regnhlíf gegn flóðbylgju Björgmundur Örn Guðmundsson Skoðun
Skoðun Tíu ára atvinnustefna, tíu árum of seint: Regnhlíf gegn flóðbylgju Björgmundur Örn Guðmundsson skrifar
Skoðun Ekki trúa öllu sem þú lest á samfélagsmiðlum. Komdu í kaffi ég skal sýna þér Grindavík Dagmar Valsdóttir skrifar
Skoðun Ef þetta er samsæri, þá er ég greinilega að gera þetta vitlaust Haukur Logi Jóhannsson skrifar
Skoðun Ferðaþjónustan er ekki vandamálið – hún er hluti af lausninni Rannveig Grétarsdóttir skrifar
Skoðun Hvað ég skildi um Ísland þegar ég hætti að bera það saman við Napólí Valerio Gargiulo skrifar
Tíu ára atvinnustefna, tíu árum of seint: Regnhlíf gegn flóðbylgju Björgmundur Örn Guðmundsson Skoðun