Innlent

Stafræn íslenska fær átta milljóna setninga stuðning

Tryggvi Páll Tryggvason skrifar
Brynju Baldursdóttir framkvæmdastjóra Creditinfo og Steinþór Steingrímsson
Brynju Baldursdóttir framkvæmdastjóra Creditinfo og Steinþór Steingrímsson Vísir/Anton Brink

Creditinfo afhenti í dag Stofnun Árna Magnússonar í íslenskum fræðum gögn til uppbyggingar stafrænnar íslensku. Um er að ræða tæplega 8 milljónir setninga frá talaðri og ritaðri íslensku sem verður undirstaðan í stafrænum textagrunni sem Árnastofnun er að setja á laggirnar til stuðnings við stafrænar tæknilausnir.

Þróun og notkun snjalltækja sem taka við skipunum á mæltu máli er hröð og því er mikilvægt að hægt sé að eiga samtal við tækin á íslenskri tungu.

Stafræni gagnagrunnur Árnastofnunar hefur fengið heitið Risamálheild en málheildir fela í sér upplýsingar um það hvernig tiltekið tungumál gefur vísbendingar um orðaforða, málfræði og setningagerð. Jafnframt gegna þær veigamiklu hlutverki í uppbyggingu máltæknibúnaðar og þýðingarforrita sem eru grundvöllur þess að hægt sé að þróa tæknilausnir líkt og mállíkön sem eru notuð við talgreiningu og talgervingu sem byggja á íslensku.

Framtíð íslenskunnar byggir meðal annars á því að hún sé gjaldgeng á sviði upplýsingatækninnar og er það meginástæða fyrir stofnun og rekstri Risamálheildarinnar. Mikil vinna er framundan við uppsetningu stafræna textagrunnsins enda fyrirhugað að Risamálheildin geymi allt að eitt þúsund milljónir orða sem verða aðgengileg til leitar ásamt því sem þau verða aðgengileg á xml-sniði til nota í máltækniverkefnum.

„Risamálheildin mun byggja á safni af opinberum textum og gögnin sem Creditinfo hefur afhent Árnastofnun eru umfangsmikil og fjölbreytileg. Vonandi mun það auðvelda stofnuninni að setja Risamálheildina á laggirnar enda mikilvægt fyrir Íslendinga að geta þróað tæknilausnir á íslensku,“ segir Brynja Baldursdóttir framkvæmdastjóri Creditinfo.

„Stafræn gögn, textar og hljóðupptökur, eru forsenda fyrir þróun alls máltæknibúnaðar fyrir íslensku. Gögnin eru notuð til að afla nákvæmra upplýsinga um íslenskt mál og notkun þess, tíðni orða og orðasambanda, beygingar, setningagerð o.s.frv. Gögnin frá Creditinfo eru mjög mikilvæg vegna þess að þau hafa að geyma nýja og nýlega texta af ýmsu tagi sem gefa góða mynd af því hvernig íslenskt ritmál er um þessar mundir,“ segir Steinþór Steingrímsson hjá Árnastofnun.


Tengdar fréttir

Vandi íslenskunnar vekur heimsathygli

Fjölmiðlar víða um heim hafa fjallað um þá hættu sem steðja að íslenskri tungu eftir að Vigdís Finnbogadóttur varaði við því að íslenskan hæti hlotið sömu örlög og latínan.



Athugið. Allar athugasemdir eru á ábyrgð þeirra er þær rita. Vísir hvetur lesendur til að halda sig við málefnalega umræðu. Einnig áskilur Vísir sér rétt til að fjarlægja ærumeiðandi eða ósæmilegar athugasemdir og ummæli þeirra sem tjá sig ekki undir eigin nafni.

Fleiri fréttir

Sjá meira


Velkomin á Vísi. Þessi vefur notar vafrakökur. Sjá nánar.