Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Veiðum hval - virðum lög Þorsteinn Sæmundsson Skoðun Kjósum á næsta kjörtímabili Jón Steindór Valdimarsson Skoðun Mjúki penninn Berglind Pétursdóttir Bakþankar Áminntur um sannsögli Jón Ármann Steinsson Skoðun Umferðarslys eða umhverfisslys Baldur Sigurðsson Skoðun Takk fyrir vikuna Laufey María Jóhannsdóttir og Benedikt Traustason Skoðun Á að banna notkun gervigreindar í háskólum? Guðmundur Björnsson Skoðun Tímamót í örorku- og endurhæfingarmálum - takk VG, takk ríkisstjórn Steingrímur J. Sigfússon Skoðun 30 milljarðar í útsvar en engin rödd í kosningum Róbert Ragnarsson Skoðun Er aukin atvinnuþátttaka kostnaður fyrir samfélagið? Gunnlaugur Már Briem Skoðun Skoðun Skoðun Áminntur um sannsögli Jón Ármann Steinsson skrifar Skoðun Nvidia, Bitcoin og gamla varnarliðið: Hvað bíður Íslands? Sigvaldi Einarsson skrifar Skoðun Ekki hluti af OKKAR Evrópu! Margrét Kristmannsdóttir skrifar Skoðun Mikil aukning í unglingadrykkju – eða hvað? Bogi Ragnarsson skrifar Skoðun Kílómetragjald – Mun lækkun á bensíni og dísel skila sér til neytenda? Gunnar Alexander Ólafsson skrifar Skoðun Er aukin atvinnuþátttaka kostnaður fyrir samfélagið? Gunnlaugur Már Briem skrifar Skoðun Stjórnmálaflokkar á öruggu framfæri ríkis og sveitarfélaga Jóhannes Bjarni Guðmundsson skrifar Skoðun 30 milljarðar í útsvar en engin rödd í kosningum Róbert Ragnarsson skrifar Skoðun Jólakötturinn, ert það þú? Aldís Amah Hamilton,Hulda Jónsdóttir Tölgyes,Klara Ósk Elíasdóttir,Ragnheiður Gröndal,Rósa Líf Darradóttir,Valgerður Árnadóttir skrifar Skoðun Vaxtaokrið Jónas Yngvi Ásgrímsson skrifar Skoðun Er Ísland enn fullvalda? Magnús Árni Skjöld Magnússon skrifar Skoðun Ó, Reykjavík Ari Allansson skrifar Skoðun Mun húsnæðispakkinn hækka leigu og þar með verðbólguna? Sigrún Brynjarsdóttir skrifar Skoðun Leggðu íslenskunni lið Hópur stjórnarmanna Almannaróms skrifar Skoðun Þegar framtíðin hverfur Ingrid Kuhlman skrifar Skoðun Upplýsingar, afþreying og ógnir á Netinu Kolbrún Áslaugar Baldursdóttir skrifar Skoðun Samráð óskast: fjölmenningarstefna Reykjavíkurborgar Oktavía Hrund Guðrúnar Jóns skrifar Skoðun Kjarninn í vörninni fyrir hagsmunum Íslands Þórður Snær Júlíusson skrifar Skoðun Til hamingju Ísland Sigurður Kári Harðarson skrifar Skoðun Vestfirðir til þjónustu reiðubúnir Þorsteinn Másson skrifar Skoðun Enn hækka fasteignaskattar í Reykjanesbæ Margrét Sanders skrifar Skoðun Áskorun til Þjóðkirkjunnar Skírnir Garðarsson skrifar Skoðun Samkennd án landamæra Guðrún Helga Jóhannsdóttir skrifar Skoðun Réttindalaus rafmagnsvinna ógnar öryggi og dregur úr trausti Pétur H. Halldórsson skrifar Skoðun Fjölmenning er ekki áskorun, hún er fjárfesting Þórdís Lóa Þórhallsdóttir skrifar Skoðun Ytra mat á ís Álfhildur Leifsdóttir,Hólmfríður Jenný Árnadóttir skrifar Skoðun Starfslok vegna kennitölu: tímaskekkja sem flýtir öldrun Gunnar Salvarsson skrifar Skoðun Aukinn stuðningur við leigjendur í Reykjavík Sanna Magdalena Mörtudóttir skrifar Skoðun Frelsi frá kynhlutverkum: innsýn sem breytir samböndum Þórdís Filipsdóttir skrifar Skoðun Brýtur innviðaráðherra lög? Örvar Marteinsson skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Tímamót í örorku- og endurhæfingarmálum - takk VG, takk ríkisstjórn Steingrímur J. Sigfússon Skoðun
Skoðun Kílómetragjald – Mun lækkun á bensíni og dísel skila sér til neytenda? Gunnar Alexander Ólafsson skrifar
Skoðun Stjórnmálaflokkar á öruggu framfæri ríkis og sveitarfélaga Jóhannes Bjarni Guðmundsson skrifar
Skoðun Jólakötturinn, ert það þú? Aldís Amah Hamilton,Hulda Jónsdóttir Tölgyes,Klara Ósk Elíasdóttir,Ragnheiður Gröndal,Rósa Líf Darradóttir,Valgerður Árnadóttir skrifar
Tímamót í örorku- og endurhæfingarmálum - takk VG, takk ríkisstjórn Steingrímur J. Sigfússon Skoðun