Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Að senda kjósendum fingurinn Atli Bollason Skoðun Að gefast upp Haraldur Eiríksson Skoðun Upplýsingaóreiða ráðherra Hörður Þorsteinsson Skoðun Skólafrí - skelfing eða sæla Fjalar Freyr Einarsson Skoðun Draghi-skýrslan og Ísland: framleiðni, samkeppnishæfni og kostnaður krónunnar Baldur Pétursson Skoðun Hinn sjö mánaða Sam Fahd Abu Haikal Sveinn Þórhallsson Skoðun Já, tökum okkur Færeyinga til fyrirmyndar Hjörtur j. Guðmundsson Skoðun Öll trixin í bókinni Árni Guðmundsson Skoðun Mikilvægar staðreyndir um lög um brottfararstöð Jóhannes Óli Sveinsson Skoðun Ekki í okkar nafni Hópur félagsmanna Samfylkingarinnar og óflokksbundið jafnaðarfólk Skoðun Skoðun Skoðun Veit „óvinur númer eitt“ að hann er númer eitt? Jón Steinar Sæmundsson skrifar Skoðun Að loka augunum fyrir hinu augljósa skrifar Skoðun Færeyingar eru ekki í ESB en… Sigurður Steinar Ásgeirsson skrifar Skoðun Mikilvægar staðreyndir um lög um brottfararstöð Jóhannes Óli Sveinsson skrifar Skoðun Upplýsingaóreiða ráðherra Hörður Þorsteinsson skrifar Skoðun Öll trixin í bókinni Árni Guðmundsson skrifar Skoðun Dagur í lífi Íslendinga árið 2040 Haukur Logi Jóhannsson skrifar Skoðun Skólafrí - skelfing eða sæla Fjalar Freyr Einarsson skrifar Skoðun Sagan um afganginn sem hvarf Stefán Vagn Stefánsson skrifar Skoðun Að senda kjósendum fingurinn Atli Bollason skrifar Skoðun Hver ertu þegar þú réttlætir að barn sé lokað inni? Jasmina Vajzović Crnac skrifar Skoðun Hver borgar þegar ríkið tekur yfir heilbrigðiseftirlitið? Ásmundur E. Þorkelsson,Hörður Þorsteinsson,Sigrún Guðmundsdóttir skrifar Skoðun Skynsemi fremur en upphrópanir í útlendingamálum Sævar Þór Jónsson skrifar Skoðun Já, tökum okkur Færeyinga til fyrirmyndar Hjörtur j. Guðmundsson skrifar Skoðun Að gefast upp Haraldur Eiríksson skrifar Skoðun Draghi-skýrslan og Ísland: framleiðni, samkeppnishæfni og kostnaður krónunnar Baldur Pétursson skrifar Skoðun Við þurfum ekki ESB – eða hvað? Þorvaldur Ingi Jónsson skrifar Skoðun Það er verið að efla framhaldsskóla og verkmenntun Sigurjón Þórðarson skrifar Skoðun Fullveldið er undirstaða sveigjanleikans: Hvers vegna EES-samstarfið dugar okkur Kristinn Karl Brynjarsson skrifar Skoðun Seiðkarlar fyrri alda Steingrímur Gunnarsson skrifar Skoðun Hverjir borga brúsann? Franklín Ernir Kristjánsson skrifar Skoðun Þegar rekstrarkröfur grafa undan faglegu starfi í þverfaglegri endurhæfingu Gunnhildur L. Marteinsdóttir skrifar Skoðun Hvað varð um gangbrautirnar? Valerio Gargiulo skrifar Skoðun Misskilningur: RÚV, Silfrið og meint hlutdrægni Hjörvar Sigurðsson skrifar Skoðun Árnar eru ekki hreinsistöð fyrir sjókvíaeldi Brynjar Arnason skrifar Skoðun Þarf vinnuskóli að vera vesen? Íris Róbertsdóttir skrifar Skoðun Djarfar senur klipptar út Elías Blöndal Guðjónsson skrifar Skoðun Hinn sjö mánaða Sam Fahd Abu Haikal Sveinn Þórhallsson skrifar Skoðun Eyja með stöðugt gengi, lítið atvinnuleysi og lága húsnæðisvexti Svanborg Sigmarsdóttir skrifar Skoðun Við viljum ekki ölmusu, við viljum fá að koma heim Dagmar Valsdóttir skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Draghi-skýrslan og Ísland: framleiðni, samkeppnishæfni og kostnaður krónunnar Baldur Pétursson Skoðun
Skoðun Hver borgar þegar ríkið tekur yfir heilbrigðiseftirlitið? Ásmundur E. Þorkelsson,Hörður Þorsteinsson,Sigrún Guðmundsdóttir skrifar
Skoðun Draghi-skýrslan og Ísland: framleiðni, samkeppnishæfni og kostnaður krónunnar Baldur Pétursson skrifar
Skoðun Fullveldið er undirstaða sveigjanleikans: Hvers vegna EES-samstarfið dugar okkur Kristinn Karl Brynjarsson skrifar
Skoðun Þegar rekstrarkröfur grafa undan faglegu starfi í þverfaglegri endurhæfingu Gunnhildur L. Marteinsdóttir skrifar
Skoðun Eyja með stöðugt gengi, lítið atvinnuleysi og lága húsnæðisvexti Svanborg Sigmarsdóttir skrifar
Draghi-skýrslan og Ísland: framleiðni, samkeppnishæfni og kostnaður krónunnar Baldur Pétursson Skoðun