Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Hópurinn sem myndi hagnast mest Hjörtur J. Guðmundsson Skoðun Það er gott að vera Halldór Benjamín í Kópavogi: Hluti 1 af 4 Theodóra S. Þorsteinsdóttir Skoðun Raunveruleg svik við fullveldi þjóðarinnar Ása Lind Finnbogadóttir Skoðun Nýr hugrakkur heimur Ástþór Ólafsson Skoðun Stríðsyfirlýsing SI Andri Reyr Haraldsson Skoðun Ég hef borgað í mörg ár, samt skulda ég meira Berglind Guðmundsdóttir Skoðun Notum þau verkfæri sem nýtast okkur best Kristín Linda Árnadóttir Skoðun Hverju breytir samþætting? Hulda Björk Finnsdóttir,Hákon Sigursteinsson Skoðun Kerfið er brotið. Kerfið á að vera brotið Anna Bergþórsdóttir Skoðun Þörf karla fyrir heilbrigðisþjónustu eftir meðferð við krabbameini Hjalti Gunnlaugur Skúlason Skoðun Skoðun Skoðun Kæru sjúkratryggingar, má ég eignast barn núna? Nína Guðrún Arnardóttir skrifar Skoðun Í minningu barna sem hefðu þurft stærra þorp Diljá Ámundadóttir Zoëga skrifar Skoðun Nýr hugrakkur heimur Ástþór Ólafsson skrifar Skoðun Það er gott að vera Halldór Benjamín í Kópavogi: Hluti 1 af 4 Theodóra S. Þorsteinsdóttir skrifar Skoðun Notum þau verkfæri sem nýtast okkur best Kristín Linda Árnadóttir skrifar Skoðun Menntun fyrir framtíðina Inga Sæland skrifar Skoðun Kerfið er brotið. Kerfið á að vera brotið Anna Bergþórsdóttir skrifar Skoðun Þörf karla fyrir heilbrigðisþjónustu eftir meðferð við krabbameini Hjalti Gunnlaugur Skúlason skrifar Skoðun Hverju breytir samþætting? Hulda Björk Finnsdóttir,Hákon Sigursteinsson skrifar Skoðun Hópurinn sem myndi hagnast mest Hjörtur J. Guðmundsson skrifar Skoðun Raunveruleg svik við fullveldi þjóðarinnar Ása Lind Finnbogadóttir skrifar Skoðun ESB og sjávarútvegurinn: Hver á að ráða hafinu við Ísland? Svanur Guðmundsson skrifar Skoðun Helstu hugtök í fasteignaviðskiptum Jónína Þórdís Karlsdóttir skrifar Skoðun Hvernig fækkum við mistökum hjá Skattinum? Ólafur Stephensen skrifar Skoðun Stríðsyfirlýsing SI Andri Reyr Haraldsson skrifar Skoðun Húrra fyrir konum – í miðjum Mottumars Halla Þorvaldsdóttir skrifar Skoðun Kvótahopp og ESB Eggert Sigurbergsson skrifar Skoðun Hvers vegna er umsóknin til Evrópusambandsins frá 2009 falin? Júlíus Valsson skrifar Skoðun Jákvæð áhrif Kópavogsleiðarinnar Erla Þórisdóttir skrifar Skoðun Bergið – rými þar sem ungmenni fá stuðning á sínum forsendum Rut Sigurðardóttir skrifar Skoðun Þrettán foreldrar á tíu árum Vigdís Gunnarsdóttir skrifar Skoðun Já eða Nei - Tilraun til að ramma inn umræðuna Dóra Sif Tynes skrifar Skoðun Borg sem leyfir öllum að blómstra Rúnar Freyr Gíslason skrifar Skoðun Hormuz sund og Ísland Sigurður Ingi Friðleifsson skrifar Skoðun Farsældarlög fyrir Bítlakynslóðina? Gunnar Salvarsson skrifar Skoðun ESB-umræðan leysir ekki efnahagsvandann Guðlaugur Þór Þórðarson skrifar Skoðun Palme og Pedro Hjálmtýr Heiðdal skrifar Skoðun Sameign þjóðarinnar — eða stærsta tilfærsla auðlinda í sögu Íslands? Vilhelm Jónsson skrifar Skoðun Og svo eru flokkar sem byggja á reiði Birgir Orri Ásgrímsson skrifar Skoðun Óvirðing við sveitarstjórnarstigið Dýrunn Pála Skaftadóttir skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Þörf karla fyrir heilbrigðisþjónustu eftir meðferð við krabbameini Hjalti Gunnlaugur Skúlason Skoðun
Skoðun Það er gott að vera Halldór Benjamín í Kópavogi: Hluti 1 af 4 Theodóra S. Þorsteinsdóttir skrifar
Skoðun Þörf karla fyrir heilbrigðisþjónustu eftir meðferð við krabbameini Hjalti Gunnlaugur Skúlason skrifar
Skoðun Sameign þjóðarinnar — eða stærsta tilfærsla auðlinda í sögu Íslands? Vilhelm Jónsson skrifar
Þörf karla fyrir heilbrigðisþjónustu eftir meðferð við krabbameini Hjalti Gunnlaugur Skúlason Skoðun