Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Börnin í Laugardal eiga betra skilið Róbert Ragnarsson Skoðun Skósveinar í Samfylkingunni? Teitur Atlason Skoðun Aðalsteinn, finnst þér þetta vera í lagi? Ingólfur Ásgeirsson Skoðun Lausnin við öllum vandamálum menntakerfisins Stein Olav Romslo Skoðun Að framleiða 5200 málsverði á dag - er ekki á allra færi... Margrét Sigrún Björnsdóttir Skoðun Borgarstjóri sem dreifir valdi Bjarni Karlsson Skoðun Einn deilibíll kemur í stað 16 einkabíla Kristín Hrefna Halldórsdóttir Skoðun Er Kópavogsmódelið fullkomið ? Gunnar Gylfason Skoðun Eru fjáröflunarherferðir KÍ, Mottumars og Bleika slaufan, siðferðilega réttlætanlegar? Einar Páll Svavarsson Skoðun Hreint ekki eins og atvinnuviðtal Hjörtur J. Guðmundsson Skoðun Skoðun Skoðun Staðan á húsnæðismarkaði orsök fátæktar einstaklinga og fjölskyldna – Hugmynd að lausn við bráðavanda Magnea Marinósdóttir skrifar Skoðun Ísland–Kanada Steinunn Ólína Þorsteinsdóttir skrifar Skoðun Jákvæð þróun í leikskólamálum Skúli Helgason skrifar Skoðun Eru fjáröflunarherferðir KÍ, Mottumars og Bleika slaufan, siðferðilega réttlætanlegar? Einar Páll Svavarsson skrifar Skoðun Einn deilibíll kemur í stað 16 einkabíla Kristín Hrefna Halldórsdóttir skrifar Skoðun Að framleiða 5200 málsverði á dag - er ekki á allra færi... Margrét Sigrún Björnsdóttir skrifar Skoðun Lestrarkennsla íslenskra barna Ingibjörg Kristín Jónsdóttir skrifar Skoðun Er Kópavogsmódelið fullkomið ? Gunnar Gylfason skrifar Skoðun Orðum fylgir ábyrgð – líka þegar rætt er um loftslagsbreytingar Eyþór Eðvarðsson skrifar Skoðun Uppbygging félagslegs húsnæðis – með fólkið í forgrunni Ellen Calmon skrifar Skoðun Guðmundur til þjónustu í velferðarmálum Guðbjörg Sveinsdóttir,Arndís Vilhjálmsdóttir skrifar Skoðun Orðræða sem sameinar – ekki sundrar Sandra Sigurðardóttir skrifar Skoðun Af bambus í Vesturbugt og 14 mínútna leikriti Páll Jakob Líndal skrifar Skoðun Skál fyrir betri heilsu! Lára G. Sigurðardóttir,Valgerður Rúnarsdóttir skrifar Skoðun Guðmund Inga í 3. sætið Birgir Dýrfjörð skrifar Skoðun Skósveinar í Samfylkingunni? Teitur Atlason skrifar Skoðun Ákærandi, dómari og böðull Þorgrímur Sigmundsson skrifar Skoðun Lausnin við öllum vandamálum menntakerfisins Stein Olav Romslo skrifar Skoðun Borgarstjóri sem dreifir valdi Bjarni Karlsson skrifar Skoðun Áætlun um öryggi og fjárfestingu í innviðum Ása Berglind Hjálmarsdóttir skrifar Skoðun Það er ekki hægt að jafna dánaraðstoð við sjálfsvíg Ingrid Kuhlman skrifar Skoðun Hreint ekki eins og atvinnuviðtal Hjörtur J. Guðmundsson skrifar Skoðun Aðalsteinn, finnst þér þetta vera í lagi? Ingólfur Ásgeirsson skrifar Skoðun Börnin í Laugardal eiga betra skilið Róbert Ragnarsson skrifar Skoðun Stjórnmálamaður metinn að verðleikum Þórarinn Snorri Sigurgeirsson skrifar Skoðun Magnea Marinósdóttir á brýnt erindi í borgarstjórn Hörður Filippusson skrifar Skoðun Borgin sem við byggjum er borg allra Heiða Björg Hilmisdóttir skrifar Skoðun Evrópa lætur ekki undan hótunum Trumps um Grænland Kristján Vigfússon skrifar Skoðun Rödd ungs fólks Nanna Björt Ívarsdóttir skrifar Skoðun Eflingarfólk! Guðmundur Ingi Þóroddsson skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Eru fjáröflunarherferðir KÍ, Mottumars og Bleika slaufan, siðferðilega réttlætanlegar? Einar Páll Svavarsson Skoðun
Skoðun Staðan á húsnæðismarkaði orsök fátæktar einstaklinga og fjölskyldna – Hugmynd að lausn við bráðavanda Magnea Marinósdóttir skrifar
Skoðun Eru fjáröflunarherferðir KÍ, Mottumars og Bleika slaufan, siðferðilega réttlætanlegar? Einar Páll Svavarsson skrifar
Skoðun Að framleiða 5200 málsverði á dag - er ekki á allra færi... Margrét Sigrún Björnsdóttir skrifar
Skoðun Guðmundur til þjónustu í velferðarmálum Guðbjörg Sveinsdóttir,Arndís Vilhjálmsdóttir skrifar
Eru fjáröflunarherferðir KÍ, Mottumars og Bleika slaufan, siðferðilega réttlætanlegar? Einar Páll Svavarsson Skoðun