Almannarómur safnar nú gögnum frá fyrirtækjum til að efla tungutak tengt ákveðnum atvinnugreinum. Halldór Benjamín Þorbergsson, stjórnarformaður Almannaróms, og Lilja Dögg Jónsdóttir, framkvæmdastjóri Almannaróms, segja ekki sjálfsagt að þau tól sem við notum og tæknin tali íslensku en það sé mikilvægt að svo sé.
Halldór Benjamín og Lilja Dögg fóru yfir baráttuna fyrir íslenskunni í stafrænum heimi í Sprengisandi á Bylgjunni í dag í tilefni af Degi íslenskrar tungu. Halldór Benjamín segir fólk taka því sem gefnu að íslenska sé aðgengileg í þeim tækjum sem þau nota og í þeirri tækni sem þau nota en það sé fjarri lagi að það sé sjálfsagt.
„Ástæða þess að hún er aðgengileg í gegnum öll þessi tæki og tól er sú að fólk hefur lagt að sér í yfir áratug við að tryggja að svo megi verða,“ segir hann um almannaróm.
Lilja Dögg segir almannaróm vinna að því að tryggja að eftir því sem tæknin verði stærri hluti af lífi okkar að það sé hægt að nota hana á íslenskri tungu.
„Mér hefur þótt best að lýsa þessu þannig að almannarómur og máltæknisamfélagið með stuðningi stjórnvalda sé að byggja beinagrindina, undirstöðurnar, þannig að það sé hægt að innleiða íslensku í tækni,“ segir hún.
Við séum fá sem tölum þetta tungumál og þannig takmarkaðar markaðsforsendur hjá stórfyrirtækjum erlendis að taka íslensku inn sem tungumál.
„Þá þurfum við fyrst að vinna heimavinnuna okkar, að auðvelda þeim að innleiða íslenskuna,“ segir hún og að í því geti til dæmis falist að byggja hugbúnað, safna gögnum og íslensku máli og tala máli íslenskunnar úti í heimi.
Halldór Benjamín rifjar það upp þegar íslensk sendinefnd fór til Kaliforníu í Kísildalinn til að gera akkúrat það árið 2022. Hann segir það hafa opnað margar dyr fyrir nefndinni að forseti, sem þá var Guðni Th. Jóhannesson, og menntamálaráðherra, sem þá var Lilja D. Alfreðsdóttir, hafi verið með í för. Nefndin hafi hitt alla tæknirisana og það verði að líta á það sem töluvert afrek þegar litið sé til þess að íslenskt málsvæði sé eitt það minnsta í heiminum og 0,004 prósent heimsins tali íslensku.
Nefndin hafi til dæmis fundað með Sam Altman, forstjóra Open AI, sem hann hafi á þeim tíma ekki vitað hver væri en allir viti hver er í dag. Hann hafi sýnt þeim forrit sem hægt var að biðja um að framkalla myndir og efni. Guðni Th. hafi beðið um dróttkvæði á íslensku sem átti að fjalla um ákveðinn hlut sem þetta forrit, sem er gervigreindin, hafi framkallað á aðeins örfáum sekúndum.
„Ég hafði aldrei séð þetta og maður hefur lent í ýmsu um ævina eins og sagt er, en þarna voru einhverjar leiðslur í huga mér sem náðu að tengjast og maður uppgötvaði: Þetta er ekki bara einhver smá þróun, þetta er algjör bylting,“ segir Halldór Benjamín og að þarna hafi verið lagður grunnur að samstarfi Almannaróms og Chat GBT.
Þau segja að almennt hafi íslenskunefndinni og íslensku verið vel tekið en síst þó hjá Apple. Nú sé þó unnið að því að fá Apple til liðs við almannaróm og var fjallað um það fyrr í vikunni að Logi Einarsson, mennta- og menningarmálaráðherra, hafi í vikunni sent stjórnendum Apple bréf um að hann vilji ræða við þá um stöðu íslenskunnar í stafrænum heimi.
Halldór Benjamín segir kjarnann þann að það náist enginn árangur af sjálfu sér. Fólk verði að leggja hart að sér og að eftir liðlega tíu ára baráttu ýmissa aðila sé verið að uppskera núna.
Lilja Dögg segir grunn til dæmis gervigreindar og annarrar tækni ensku og það þurfi alltaf að bæta íslensku við og brúa bilið þar á milli. Þannig sé nauðsynlegt að „fóðra“ gervigreind með íslensku, málfræðin og orðaforðinn séu nokkuð góð núna, en alltaf sé hægt að gera betur.
„Þar sem við eigum enn dálítið langt að sækja er í þessu, sögu og menningarlegum upplýsingum,“ segir hún og að það besta til að gera í því sé að safna upplýsingunum saman og kenna gervigreindinni.
Lilja Dögg segir Árnastofnun leiðtoga í þessari gagnasöfnun. Þau haldi utan um risamálheild sem sé hornsteinn þess að þetta sé hægt. Þar sé orðasöfnun, málfræði, beygingar og þetta sé grunnurinn sem sé notaður til að kenna. Auk þess séu hugbúnaðartól sem eru í vinnslu hjá fræðafólki og svo sé starfsfólk ÖBÍ ákveðnir frumkvöðlar því hjá þeim sé fólk sem noti máltæknina til að fá aðgang að samfélaginu.
„Blindir sem nota það til að lesa símana sína,“ segir hún og að eitt af þeim verkefnum sem Almannarómur vinni með ÖBÍ séu raddir fyrir börn sem geti ekki tjáð sig og þurfa að nota tjáskiptatölvur. Í dag tali þessar tölvur með rödd fullorðinna.
„Tíu ára barn talar með rödd fimmtugs karlmanns af því það eru ekki til raddir á íslensku fyrir börn,“ segir Lilja Dögg og að það sé „galið“. Nú sé verið að safna upplýsingum og gögnum svo til verði barnaraddir fyrir þessi börn.
Halldór Benjamín segir jákvætt hversu mikla velvild verkefni Almannaróms hafa hjá íslenskum almenningi. Sem dæmi hafi þau biðlað til almennings um að lesa inn setningar í gagnabanka Samróms fyrir nokkrum árum til að fanga tungutak hins almenna Íslendings. Í þessu átaki hafi safnast um 2,8 milljónir innlesinna setninga í gagnabankann. Hann segir stóru tæknifyrirtækin geta nýtt sér þetta.
Lilja Dögg segir stjórnvöld almennt sýna þessum verkefnum stuðning og hafi gert það í gegnum máltæknistefnu og aðgerðaáætlanir um íslenska tungu. Auk þess virðist íslenska þjóðin sammála um að varðveita tungumálið.
Halldór Benjamín segir Almannaróm nú hleypa úr vör nýju átaki „Þín íslenska er málið“ þar sem biðlað er til fyrirtækja að taka þátt. Verkefnið miðar að því að efla tungutak tengt ákveðnum atvinnugreinum. Þetta tungutak sé fjölbreytilegt eftir atvinnugreinum og á næstu vikum ætla fyrirtækin að gefa Almannarómi aðgang að ýmsum gögnum eins og samningum, starfsmannahandbókum og verklýsingum.
„Þetta er allt saman að fara inn í þessa risamálheild og mun styrkja getu okkar til framtíðar til að eiga samskipti um mjög flókna hluti. Til dæmis eru læknar með annað tungutak en útvarpsmenn og útvarpsmenn með annað tungutak en fótboltadómarar og við viljum nálgast þetta í gegnum þetta verkefni.“
Á morgun opnar ný vefsíða fyrir þetta verkefni þar sem á að hýsa þessi gögn. Lilja Dögg segir gögnin svo verða afhent Árnastofnun sem vinni þau áfram inn í risamálheildina í undirmálheildir, eins og íðorðaskrá. Síðar verði jafnvel hægt að fara í dýpri gagnasöfnun fyrir ákveðnar atvinnugreinar.
Halldór Benjamín segir ekki endilega markmiðið að allir tali fullkomið tungumál og sletti aldrei. En það sé nauðsynlegt að halda uppi vörnum og þar skipti verulegu máli, til dæmis, að hægt sé að nota síma og helstu forrit á íslensku.
Hann segir íslenskuna í þröngri stöðu og það sé eilífðarverkefni að viðhalda henni.
„En það er nauðsynlegt að allir sem vettlingi geta valdið allavegana leggi eitthvað af mörkum til þess að tryggja að á íslensku í framtíðinni megi finna svar,“ segir Halldór Benjamín og vísar þannig í ljóð Þórarins Eldjárns sem sérstaklega var samið fyrir MS í tilefni af íslenskusamstarfi MS og Íslenskrar málnefndar.