Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Hvað tengir typpi og gullregn? Kristján Friðbertsson Skoðun Hvar eiga krakkarnir að vera á nýju ári? Davíð Már Sigurðsson Skoðun Er áramótaheitið árið 2026 betri skjávenjur? Anna Laufey Stefánsdóttir Skoðun Loftgæði mæld í Breiðholti - í fyrsta sinn í 12 ár Sara Björg Sigurðardóttir Skoðun Guðbjörg verður áfram gul Reynir Traustason Skoðun Jólapartýi aflýst Diljá Mist Einarsdóttir Skoðun Veiðiráðgjöf byggð á ágiskunum Sigurjón Þórðarson Skoðun Halldór 27.12.2025 Halldór Hinir „hræðilegu“ popúlistaflokkar Einar G. Harðarson Skoðun Jólareglugerð heilbrigðisráðherra veldur usla Alma Ýr Ingólfsdóttir,Telma Sigtryggsdóttir,Vilhjálmur Hjálmarsson Skoðun Skoðun Skoðun Borg á heimsmælikvarða! Skúli Helgason skrifar Skoðun Veiðiráðgjöf byggð á ágiskunum Sigurjón Þórðarson skrifar Skoðun Loftgæði mæld í Breiðholti - í fyrsta sinn í 12 ár Sara Björg Sigurðardóttir skrifar Skoðun Hvað tengir typpi og gullregn? Kristján Friðbertsson skrifar Skoðun Er áramótaheitið árið 2026 betri skjávenjur? Anna Laufey Stefánsdóttir skrifar Skoðun Hvar eiga krakkarnir að vera á nýju ári? Davíð Már Sigurðsson skrifar Skoðun Hinsegin Guðmundur Ingi Þóroddsson skrifar Skoðun Leiðtogi Gunnar Salvarsson skrifar Skoðun Sögulegt ár í borginni Skúli Helgason skrifar Skoðun Fimmtán algengar rangfærslur um loftslagsbreytingar – og hvað er rétt Eyþór Eðvarðsson skrifar Skoðun Öryggið á nefinu um áramótin Eyrún Jónsdóttir,Ágúst Mogensen skrifar Skoðun Þegar höggbylgjan skellur á Gísli Rafn Ólafsson skrifar Skoðun Hefur þú rétt fyrir þér? Svarið er já Jón Pétur Zimsen skrifar Skoðun Markmiðin sem skipta máli Guðmundur Ari Sigurjónsson skrifar Skoðun Netverslun með áfengi og velferð barna okkar Ingibjörg Isaksen skrifar Skoðun Við gerum það sem við sögðumst ætla að gera Jóhann Páll Jóhannsson skrifar Skoðun Stingum af Einar Guðnason skrifar Skoðun Guðbjörg verður áfram gul Reynir Traustason skrifar Skoðun Kvennaár og hvað svo? Sigríður Ingibjörg Ingadóttir,Steinunn Bragadóttir skrifar Skoðun Hinir „hræðilegu“ popúlistaflokkar Einar G. Harðarson skrifar Skoðun Hafnarfjörður í mikilli sókn Orri Björnsson skrifar Skoðun Jólapartýi aflýst Diljá Mist Einarsdóttir skrifar Skoðun Umbúðir, innihald og hægfara tilfærsla kirkjunnar Hilmar Kristinsson skrifar Skoðun Hættuleg þöggunarpólitík: Hvernig hræðsla og sundrung skaða framtíð Íslands Nichole Leigh Mosty skrifar Skoðun Jólareglugerð heilbrigðisráðherra veldur usla Alma Ýr Ingólfsdóttir,Telma Sigtryggsdóttir,Vilhjálmur Hjálmarsson skrifar Skoðun Verðmæti dýra fyrir jörðina er ekki mælanlegt í krónum Matthildur Björnsdóttir skrifar Skoðun Þegar kerfið grípur of seint inn: Um börn og unglinga í vanda, úrræðaleysi og mikilvægi snemmtækrar íhlutunar Kristín Kolbeinsdóttir skrifar Skoðun Staða eldri borgara á Íslandi í árslok 2025 Björn Snæbjörnsson skrifar Skoðun Landhelgisgæslan er óábyrg Vilhelm Jónsson skrifar Skoðun Nýtt ár, nýr veruleiki, nýtt samtal Kristinn Árni Hróbjartsson skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Jólareglugerð heilbrigðisráðherra veldur usla Alma Ýr Ingólfsdóttir,Telma Sigtryggsdóttir,Vilhjálmur Hjálmarsson Skoðun
Skoðun Fimmtán algengar rangfærslur um loftslagsbreytingar – og hvað er rétt Eyþór Eðvarðsson skrifar
Skoðun Hættuleg þöggunarpólitík: Hvernig hræðsla og sundrung skaða framtíð Íslands Nichole Leigh Mosty skrifar
Skoðun Jólareglugerð heilbrigðisráðherra veldur usla Alma Ýr Ingólfsdóttir,Telma Sigtryggsdóttir,Vilhjálmur Hjálmarsson skrifar
Skoðun Þegar kerfið grípur of seint inn: Um börn og unglinga í vanda, úrræðaleysi og mikilvægi snemmtækrar íhlutunar Kristín Kolbeinsdóttir skrifar
Jólareglugerð heilbrigðisráðherra veldur usla Alma Ýr Ingólfsdóttir,Telma Sigtryggsdóttir,Vilhjálmur Hjálmarsson Skoðun