Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Upptaka evru áhættusöm fyrir lítil hagkerfi Kristinn Sv. Helgason Skoðun Hræðslubandalag elítunnar í fílabeinsturninum Sveinn Atli Gunnarsson Skoðun Prófessorinn, hagfræðingurinn og fullveldið Gunnar Ármannsson Skoðun Þegar allt verður forgangsmál Hjálmar Bogi Hafliðason Skoðun Maðurinn sem treysti þjóðinni, en ekki lengur Halldór Jörgen Olesen Skoðun Varnarsamningurinn og fullveldið Jóhannes Hraunfjörð Karlsson Skoðun Úr gráu yfir í grænt með hjálp 50.000 trjáa Margrét Rós Sigurjónsdóttir Skoðun Ferðaþjónustan er ekki endalaus tekjulind fyrir ríkissjóð Björn Ragnarsson Skoðun Já, áfram Ísland! Óli Rúnar Ástþórsson Skoðun Mikilvægi Fjarðarheiðarganga Steinar Björgvinsson Skoðun Skoðun Skoðun Þolendur sem vitni í eigin málum Inga Valgerður Henriksen Bergdal skrifar Skoðun Maðurinn sem treysti þjóðinni, en ekki lengur Halldór Jörgen Olesen skrifar Skoðun Mælanlegt sjálfstæði þjóðar Sigurður Friðleifsson skrifar Skoðun Af hverju er netöryggisfræðsla grunninnviður? Margrét Valgerður Helgadóttir skrifar Skoðun Ferðaþjónustan er ekki endalaus tekjulind fyrir ríkissjóð Björn Ragnarsson skrifar Skoðun Hlustum á börn – líka þegar þau eru ósammála okkur Tótla I. Sæmundsdóttir skrifar Skoðun Stærsta hópverkefni Íslands Einar Örn Einarsson skrifar Skoðun Úr gráu yfir í grænt með hjálp 50.000 trjáa Margrét Rós Sigurjónsdóttir skrifar Skoðun Er Ísland að undirbúa nemendur fyrir framtíðina? Íris Þóra Birgisdóttir skrifar Skoðun Laugavegur 1: Húsvernd á villigötum Þórður Magnússon skrifar Skoðun Hræðslubandalag elítunnar í fílabeinsturninum Sveinn Atli Gunnarsson skrifar Skoðun Mikilvægi Fjarðarheiðarganga Steinar Björgvinsson skrifar Skoðun Prófessorinn, hagfræðingurinn og fullveldið Gunnar Ármannsson skrifar Skoðun Varnarsamningurinn og fullveldið Jóhannes Hraunfjörð Karlsson skrifar Skoðun Já, áfram Ísland! Óli Rúnar Ástþórsson skrifar Skoðun Þegar allt verður forgangsmál Hjálmar Bogi Hafliðason skrifar Skoðun Sjálfstætt Grænland hefði bæði víðtækari rétt og meiri möguleika en Ísland innan ESB Júlíus Valsson skrifar Skoðun Takk, en NEI takk Jón Pétur Zimsen skrifar Skoðun Reyndi að hindra að Ísland nyti réttlætis Hjörtur J. Guðmundsson skrifar Skoðun Upptaka evru áhættusöm fyrir lítil hagkerfi Kristinn Sv. Helgason skrifar Skoðun Reikningsdæmi handa Ögmundi Arnar Sigurðsson skrifar Skoðun Eilífðar smáblóm... Móheiður Hlíf Geirlaugsdóttir skrifar Skoðun „Eigðu sjálfur þinn helvítis tjakk!“ Ólafur Hauksson skrifar Skoðun Komið með skólabörnin í heimsókn á gamla leikskólann Elína Hallgrímsdóttir skrifar Skoðun Að tala tungum tveim Ingólfur Sverrisson skrifar Skoðun Hver á íslenska fánann? Berglind Guðmundsdóttir skrifar Skoðun Huh eða ro? Freyja Rut Emilsdóttir skrifar Skoðun Vaðlaheiðargöng: greiðsluvilji er allt sem þarf Hilmar Gunnlaugsson skrifar Skoðun Við erum öll í sama liði: mikilvægi þess að ræða við börn um virðingu í samskiptum Arna Hrönn Aradóttir skrifar Skoðun Verum JÁ-kvæð í ágúst Kristján Kristinsson skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Skoðun Sjálfstætt Grænland hefði bæði víðtækari rétt og meiri möguleika en Ísland innan ESB Júlíus Valsson skrifar
Skoðun Við erum öll í sama liði: mikilvægi þess að ræða við börn um virðingu í samskiptum Arna Hrönn Aradóttir skrifar