Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið ASÍ er látið niðurgreiða laun formanns VR Sólveig Anna Jónsdóttir Skoðun Hvert stefnir Bláskógabyggð? Valdís María Smáradóttir Skoðun Blár, rauður, gulur og C+ Jón Pétur Zimsen Skoðun Fórnarkostnaður evrunnar: 540 milljarða króna verðmiði á altari stöðugleikans (stöðnunar) Eggert Sigurbergsson Skoðun Við erum að sýna börnunum okkar virðingarleysi – og þau finna það Ingibjörg Einarsdóttir Skoðun 1-10, litir eða bókstafir – um hvað snýst málið? Ragnheiður Stephensen Skoðun Bjartsýni í boði Sigurður Vopni Vatnsdal Skoðun Takk fyrir lánið, Elliðaárdalur! Heiða Aðalsteinsdóttir Skoðun Netglæpir eru skipulögð brotastarfsemi Þorbjörg S. Gunnlaugsdóttir Skoðun Brothætta karlmennskan sem óttast regnbogafána Unnar Þór Sæmundsson Skoðun Skoðun Skoðun Já í ágúst getur gefið gott tækifæri til að tryggja betur lífsgæði komandi kynslóða Þorvaldur Ingi Jónsson skrifar Skoðun Takk fyrir lánið, Elliðaárdalur! Heiða Aðalsteinsdóttir skrifar Skoðun Lesblindir og tæki skólanna Guðmundur S. Johnsen skrifar Skoðun Foreldrahús – enn eitt fórnarlamb ríkisstjórnarinnar Jens Garðar Helgason skrifar Skoðun Sparnaður eða sóun? Kristinn Jón Ólafsson skrifar Skoðun Símenntun er nauðsyn – ekki lúxus Fríða Rós Valdimarsdóttir skrifar Skoðun Blár, rauður, gulur og C+ Jón Pétur Zimsen skrifar Skoðun Við erum að sýna börnunum okkar virðingarleysi – og þau finna það Ingibjörg Einarsdóttir skrifar Skoðun Bjartsýni í boði Sigurður Vopni Vatnsdal skrifar Skoðun Hækkun skráningargjalda í háskólana – skref í átt að stéttskiptara námi? Hrönn Stefánsdóttir skrifar Skoðun ASÍ er látið niðurgreiða laun formanns VR Sólveig Anna Jónsdóttir skrifar Skoðun Netglæpir eru skipulögð brotastarfsemi Þorbjörg S. Gunnlaugsdóttir skrifar Skoðun Hvert stefnir Bláskógabyggð? Valdís María Smáradóttir skrifar Skoðun Brothætta karlmennskan sem óttast regnbogafána Unnar Þór Sæmundsson skrifar Skoðun Fórnarkostnaður evrunnar: 540 milljarða króna verðmiði á altari stöðugleikans (stöðnunar) Eggert Sigurbergsson skrifar Skoðun Takk leikskólakennarar og starfsfólk Súsan Ósk Scheving Thorsteinsson skrifar Skoðun Eigið eldvarnaeftirlit fyrirtækja – mikilvægur þáttur í rekstrinum Sigrún A. Þorsteinsdóttir skrifar Skoðun Sterkari velferð – betri Hafnarfjörður Jóhanna Erla Guðjónsdóttir skrifar Skoðun Hlutverk háskóla í gervigreindarbyltingunni Ólafur Eysteinn Sigurjónsson skrifar Skoðun Flug með fortíð og framtíð Svanfríður Guðrún Bergvinsdóttir,Helgi Karl Guðmundsson,Finney Rakel Árnadóttir,Sigurður Jón Hreinsson,Hrafnhildur Hrönn Óðinsdóttir,Úlfar Logason,Sigurrós Elddís Huldudóttir skrifar Skoðun Eineltissamfélagið Ísland – umfjöllun Berlingske Tidende um Ísland Sigríður Svanborgardóttir skrifar Skoðun Þétting byggðar og grænu svæðin í Kópavogi Beitir Ólafsson skrifar Skoðun Nýju fötin keisarans – Einfaldað í þykjustunni Árni Davíðsson skrifar Skoðun Þjónustuskerðing Sorpu Baldur Guðmundsson skrifar Skoðun Hvert er erindið? Orri Björnsson skrifar Skoðun Góð byrjun er pólitískt val Guðrún Rakel Svandísardóttir skrifar Skoðun Er það vinna að vera heima með börnum sínum? Valerio Gargiulo skrifar Skoðun Fjölskylduvænt samfélag í verki Guðný Björk Pálmadóttir skrifar Skoðun Eðli umburðarlyndis hægrimanna Sigurður Örn Stefánsson skrifar Skoðun Hið fullkomna (Evrópu)samband Sveinn Atli Gunnarsson skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Fórnarkostnaður evrunnar: 540 milljarða króna verðmiði á altari stöðugleikans (stöðnunar) Eggert Sigurbergsson Skoðun
Skoðun Já í ágúst getur gefið gott tækifæri til að tryggja betur lífsgæði komandi kynslóða Þorvaldur Ingi Jónsson skrifar
Skoðun Við erum að sýna börnunum okkar virðingarleysi – og þau finna það Ingibjörg Einarsdóttir skrifar
Skoðun Hækkun skráningargjalda í háskólana – skref í átt að stéttskiptara námi? Hrönn Stefánsdóttir skrifar
Skoðun Fórnarkostnaður evrunnar: 540 milljarða króna verðmiði á altari stöðugleikans (stöðnunar) Eggert Sigurbergsson skrifar
Skoðun Eigið eldvarnaeftirlit fyrirtækja – mikilvægur þáttur í rekstrinum Sigrún A. Þorsteinsdóttir skrifar
Skoðun Flug með fortíð og framtíð Svanfríður Guðrún Bergvinsdóttir,Helgi Karl Guðmundsson,Finney Rakel Árnadóttir,Sigurður Jón Hreinsson,Hrafnhildur Hrönn Óðinsdóttir,Úlfar Logason,Sigurrós Elddís Huldudóttir skrifar
Skoðun Eineltissamfélagið Ísland – umfjöllun Berlingske Tidende um Ísland Sigríður Svanborgardóttir skrifar
Fórnarkostnaður evrunnar: 540 milljarða króna verðmiði á altari stöðugleikans (stöðnunar) Eggert Sigurbergsson Skoðun