Skrambi veit allt um málið 10. janúar 2013 17:00 Kristín og Jón Friðrik. Hugvit þeirra og áhugi, ásamt samstarfi við aðra og styrkjum frá stofnunum, hefur komið Skramba á koppinn. Fréttablaðið/Anton Leiðréttingarforritið Skrambi er afrakstur nokkurra rannsóknarverkefna, meðal annars meistaraverkefnis Jóns Friðriks Daðasonar tölvunarfræðings. Skrambi hlaut Hagnýtingarverðlaun Háskóla Íslands 2012. „Mér flaug nafnið Skrambi í hug einhvern tíma þegar við Jón Friðrik vorum að tala um að við yrðum að finna eitthvað betra en „Hugbúnaður fyrir samhengisháða stafsetningarleiðréttingu“. Fyrst notuðum við nafnið bara í gríni en svo fannst okkur það bara skrambi gott!“ Þetta segir Kristín Bjarnadóttir rannsóknarlektor um nýja leiðréttingarforritið Skramba, sem stefnt er að, að verði tilbúið í apríl í vor og að vefútgáfa verði öllum aðgengileg. Býr til eigin reglur Skrambi er hreinasta galdraverk. Hann staldrar til dæmis við þegar hann sér orðið himin í texta, veit sem er að það er ýmist skrifað með einu eða tveimur n-um, eftir því hvort það stendur í nefnifalli eða þolfalli. Svo greinir hann í hvaða samhengi það er og gerir athugasemd ef það er rangt stafsett. Hvernig fer hann að þessu? Jón Friðrik hefur orðið. „Á bak við tjöldin notar Skrambi málgreiningartólið IceNLP sem Hrafn Loftsson dósent í HR hefur þróað. Það greinir íslensk orð í orðflokka, fallorðin í kyn, tölu og fall, sagnorðin í persónu, tölu og tíð og svo framvegis. Svo hefur Skrambi farið yfir stórt textasafn og þar hefur hann lært hvar orðið himinn er skrifað með einu n-ni. Hann áttar sig á að mjög oft er það beint á eftir forsetningu og býr sér til reglur til að vinna eftir.“ Í framhaldinu sýnir Jón Friðrik dæmi um átta reglur sem Skrambi hefur búið til yfir orðin leyti og leiti til að finna út hvenær orðið er skrifað með ypsíloni. „Skrambi byrjar á að reikna með að leyti sé alltaf með y, því að það er algengara, svo greinir hann frávikin. Ef nafnorð eða persónufornafn er á undan orðinu – maðurinn leiti, ég leiti, þau leiti, þá er haft einfalt i. Ef atviksorð, forsetning eða lýsingarorð er á undan, þá er líka haft einfalt -i. Með þessum reglum finnur Skrambi yfir 99% af öllum villum í leiti og leyti. Kristín tekur fram að reglurnar séu ekki búnar til í höndunum; þær séu gerðar á sjálfvirkan hátt. „Já,“ segir Jón Friðrik. „Það eina sem við gerum er að mata Skramba á skipunum eins og: „Skrambi, við viljum að þú áttir þig á muninum á samhenginu sem þessi tvö orð koma fyrir í. Þegar þú rekst á annað hvort þeirra skaltu reyna að skera úr um hvort eigi að skrifa það með einföldu i eða y, út frá samhenginu.“ Hann staldrar þá við í hvert skipti sem hann rekst á leyti eða leiti, keyrir í gegnum þessar reglur sínar á örskotsstundu og ef orðið í textanum er ekki skrifað eins og hann vill, þá merkir hann við það. Þá fær fólk tækifæri til að leiðrétta.“ Svona varð Skrambi til Ævintýrið byrjaði sumarið 2010. Á orðfræðisviði Stofnunar Árna Magnússonar í íslenskum fræðum var þá verið að vinna við 19. aldar texta af vef Landsbókasafnsins, timarit.is. Þessir textar voru skannaðir og ljóslesnir hjá Landsbókasafni en í því ferli verður til talsvert af villum. Til dæmis hafði orðið „sem“ breyst í „sern“ í 40 þúsund tilfellum en auðvelt var að laga það með einni skipun. Kristín segir að í framhaldinu hafi verið ákveðið að fá einhvern glöggan til klóra í þetta og leiðrétta algengustu villurnar, með styrk frá Vinnumálastofnun. „Þá kynntumst við Jóni Friðriki, sem var þá í meistaranámi í tölvunarfræði við HÍ. Þannig hófst þetta ferðalag.“ Jón Friðrik gerði gott betur en leiðrétta það helsta. „Þetta sumar varð til frumgerðin af Skramba,“ lýsir hann. „Ég bjó til lítið forrit sem keyrði yfir allar textaskrárnar og tókst með því að uppræta 60-70% villnanna. Fyrst komin var aðferð til að leiðrétta ljóslestrartexta hlaut líka að vera hægt að leiðrétta nútímatexta. „Næsta sumar á eftir var verkefnið að fara yfir stúdentsprófsritgerðir og greina allar villur í þeim. Nýsköpunarsjóður námsmanna veitti styrk til þess,“ segir Kristín. „Upp á síðkastið hafa hlutirnir síðan gerst hratt.“ Í framtíðinni á að vera hægt að laga Skramba að hverjum notanda og hverju verki. Jón Friðrik kveðst hafa prófað Skramba á Alþingistíðindum sem verið er að ljóslesa og setja á heimasíðu Alþingis. Í 47 milljón orðum hafi hann fundið eina milljón villna og sér fyrir sér að þar geti Skrambi sparað gríðarlegan tíma við leiðréttingu. Stafsetning á Alþingistíðindum er breytileg eftir aldri. Eftir því sem textinn verður eldri verða vandamálin meiri. Þá kemur z við sögu og enn aftar je í stað é. „En Skrambinn var upprunalega leiðréttingartól fyrir 18. og 19. aldar texta þannig að hann ræður vel við slíkt.“ Mest lesið Leita leiða til að kveða ranglega útgefnar sektir í kútinn Fréttir „Það nægir ekki ESB að rústa eigin iðnaðarframleiðslu“ Innlent „Góðu fréttirnar eru að það sem hann segir skiptir engu máli“ Erlent Vill bjóða borgarstjóra í vöfflukaffi eftir deilurnar Innlent Mikið viðbragð vegna umferðarslyss Innlent Ósammála Náttúrufræðistofnun og segja veiðar á lunda forsvaranlegar Innlent Epstein-skjölin og Trump: Eitthvað virðist rotið í Danaveldi Erlent Uppsagnir sjómanna í Grindavík: „Hvenær er nóg, nóg?“ Innlent Hneig niður vegna flogakasts Innlent Tónleikar stöðvaðir vegna veikinda Arons Can Innlent Fleiri fréttir „Það nægir ekki ESB að rústa eigin iðnaðarframleiðslu“ Vill bjóða borgarstjóra í vöfflukaffi eftir deilurnar Ósammála Náttúrufræðistofnun og segja veiðar á lunda forsvaranlegar Eldri borgar í Vogum leiddu knattspyrnumenn inn á völlinn ESB leggur til tolla á Ísland: „Þetta er bara tillaga sem er á borðinu“ Uppsagnir sjómanna í Grindavík: „Hvenær er nóg, nóg?“ Vilja innlima Vesturbakkann og deilu um göngustíg lýkur með vöfflum Handtekinn vegna ólöglegs vopnaburðar Bilun í flugstjórn olli um tveggja tíma seinkun Mikið viðbragð vegna umferðarslyss Keyrt á íslenska stráka á Ólympíuhátíð Ekki þeir sömu og voru handteknir vegna fyrri þjófnaðarins Minni helst á þjóðarmorð Serba á múslimum í Bosníu Hneig niður vegna flogakasts Tekist á um þéttingu byggðar: „Þá getur þú bara flutt til Kaupmannahafnar“ Lögreglan leitar tveggja manna Frakkar viðurkenna Palestínu og stjórnarandstaðan á Alþingi mælist illa í nýrri könnun Óánægja með stjórnarandstöðuna eykst hressilega Amgen sver af sér njósnir um starfsfólk Íslenskrar erfðagreiningar Hundurinn gerði vart um mann sem stóð og starði inn Hægt nokkuð á virkninni frá því í gærmorgun Aron Can heill á húfi „Sorglega lítið eftir“ þegar sundkappinn var stöðvaður Ljóst að stjórnarandstaðan græddi ekki á „kjarnorkuákvæðinu“ Ólíðandi að fá sektir aftur og aftur Svona vindmyllur vill ráðherra fá samþykktar ofan Gilsfjarðar Tónleikar stöðvaðir vegna veikinda Arons Can Launaði neitun á gistingu með löðrungi Óvinsældir eftir þinglok og meint leyndarmál frönsku forsetahjónanna Innan við þriðjungur andvígur olíuleit Sjá meira
Leiðréttingarforritið Skrambi er afrakstur nokkurra rannsóknarverkefna, meðal annars meistaraverkefnis Jóns Friðriks Daðasonar tölvunarfræðings. Skrambi hlaut Hagnýtingarverðlaun Háskóla Íslands 2012. „Mér flaug nafnið Skrambi í hug einhvern tíma þegar við Jón Friðrik vorum að tala um að við yrðum að finna eitthvað betra en „Hugbúnaður fyrir samhengisháða stafsetningarleiðréttingu“. Fyrst notuðum við nafnið bara í gríni en svo fannst okkur það bara skrambi gott!“ Þetta segir Kristín Bjarnadóttir rannsóknarlektor um nýja leiðréttingarforritið Skramba, sem stefnt er að, að verði tilbúið í apríl í vor og að vefútgáfa verði öllum aðgengileg. Býr til eigin reglur Skrambi er hreinasta galdraverk. Hann staldrar til dæmis við þegar hann sér orðið himin í texta, veit sem er að það er ýmist skrifað með einu eða tveimur n-um, eftir því hvort það stendur í nefnifalli eða þolfalli. Svo greinir hann í hvaða samhengi það er og gerir athugasemd ef það er rangt stafsett. Hvernig fer hann að þessu? Jón Friðrik hefur orðið. „Á bak við tjöldin notar Skrambi málgreiningartólið IceNLP sem Hrafn Loftsson dósent í HR hefur þróað. Það greinir íslensk orð í orðflokka, fallorðin í kyn, tölu og fall, sagnorðin í persónu, tölu og tíð og svo framvegis. Svo hefur Skrambi farið yfir stórt textasafn og þar hefur hann lært hvar orðið himinn er skrifað með einu n-ni. Hann áttar sig á að mjög oft er það beint á eftir forsetningu og býr sér til reglur til að vinna eftir.“ Í framhaldinu sýnir Jón Friðrik dæmi um átta reglur sem Skrambi hefur búið til yfir orðin leyti og leiti til að finna út hvenær orðið er skrifað með ypsíloni. „Skrambi byrjar á að reikna með að leyti sé alltaf með y, því að það er algengara, svo greinir hann frávikin. Ef nafnorð eða persónufornafn er á undan orðinu – maðurinn leiti, ég leiti, þau leiti, þá er haft einfalt i. Ef atviksorð, forsetning eða lýsingarorð er á undan, þá er líka haft einfalt -i. Með þessum reglum finnur Skrambi yfir 99% af öllum villum í leiti og leyti. Kristín tekur fram að reglurnar séu ekki búnar til í höndunum; þær séu gerðar á sjálfvirkan hátt. „Já,“ segir Jón Friðrik. „Það eina sem við gerum er að mata Skramba á skipunum eins og: „Skrambi, við viljum að þú áttir þig á muninum á samhenginu sem þessi tvö orð koma fyrir í. Þegar þú rekst á annað hvort þeirra skaltu reyna að skera úr um hvort eigi að skrifa það með einföldu i eða y, út frá samhenginu.“ Hann staldrar þá við í hvert skipti sem hann rekst á leyti eða leiti, keyrir í gegnum þessar reglur sínar á örskotsstundu og ef orðið í textanum er ekki skrifað eins og hann vill, þá merkir hann við það. Þá fær fólk tækifæri til að leiðrétta.“ Svona varð Skrambi til Ævintýrið byrjaði sumarið 2010. Á orðfræðisviði Stofnunar Árna Magnússonar í íslenskum fræðum var þá verið að vinna við 19. aldar texta af vef Landsbókasafnsins, timarit.is. Þessir textar voru skannaðir og ljóslesnir hjá Landsbókasafni en í því ferli verður til talsvert af villum. Til dæmis hafði orðið „sem“ breyst í „sern“ í 40 þúsund tilfellum en auðvelt var að laga það með einni skipun. Kristín segir að í framhaldinu hafi verið ákveðið að fá einhvern glöggan til klóra í þetta og leiðrétta algengustu villurnar, með styrk frá Vinnumálastofnun. „Þá kynntumst við Jóni Friðriki, sem var þá í meistaranámi í tölvunarfræði við HÍ. Þannig hófst þetta ferðalag.“ Jón Friðrik gerði gott betur en leiðrétta það helsta. „Þetta sumar varð til frumgerðin af Skramba,“ lýsir hann. „Ég bjó til lítið forrit sem keyrði yfir allar textaskrárnar og tókst með því að uppræta 60-70% villnanna. Fyrst komin var aðferð til að leiðrétta ljóslestrartexta hlaut líka að vera hægt að leiðrétta nútímatexta. „Næsta sumar á eftir var verkefnið að fara yfir stúdentsprófsritgerðir og greina allar villur í þeim. Nýsköpunarsjóður námsmanna veitti styrk til þess,“ segir Kristín. „Upp á síðkastið hafa hlutirnir síðan gerst hratt.“ Í framtíðinni á að vera hægt að laga Skramba að hverjum notanda og hverju verki. Jón Friðrik kveðst hafa prófað Skramba á Alþingistíðindum sem verið er að ljóslesa og setja á heimasíðu Alþingis. Í 47 milljón orðum hafi hann fundið eina milljón villna og sér fyrir sér að þar geti Skrambi sparað gríðarlegan tíma við leiðréttingu. Stafsetning á Alþingistíðindum er breytileg eftir aldri. Eftir því sem textinn verður eldri verða vandamálin meiri. Þá kemur z við sögu og enn aftar je í stað é. „En Skrambinn var upprunalega leiðréttingartól fyrir 18. og 19. aldar texta þannig að hann ræður vel við slíkt.“
Mest lesið Leita leiða til að kveða ranglega útgefnar sektir í kútinn Fréttir „Það nægir ekki ESB að rústa eigin iðnaðarframleiðslu“ Innlent „Góðu fréttirnar eru að það sem hann segir skiptir engu máli“ Erlent Vill bjóða borgarstjóra í vöfflukaffi eftir deilurnar Innlent Mikið viðbragð vegna umferðarslyss Innlent Ósammála Náttúrufræðistofnun og segja veiðar á lunda forsvaranlegar Innlent Epstein-skjölin og Trump: Eitthvað virðist rotið í Danaveldi Erlent Uppsagnir sjómanna í Grindavík: „Hvenær er nóg, nóg?“ Innlent Hneig niður vegna flogakasts Innlent Tónleikar stöðvaðir vegna veikinda Arons Can Innlent Fleiri fréttir „Það nægir ekki ESB að rústa eigin iðnaðarframleiðslu“ Vill bjóða borgarstjóra í vöfflukaffi eftir deilurnar Ósammála Náttúrufræðistofnun og segja veiðar á lunda forsvaranlegar Eldri borgar í Vogum leiddu knattspyrnumenn inn á völlinn ESB leggur til tolla á Ísland: „Þetta er bara tillaga sem er á borðinu“ Uppsagnir sjómanna í Grindavík: „Hvenær er nóg, nóg?“ Vilja innlima Vesturbakkann og deilu um göngustíg lýkur með vöfflum Handtekinn vegna ólöglegs vopnaburðar Bilun í flugstjórn olli um tveggja tíma seinkun Mikið viðbragð vegna umferðarslyss Keyrt á íslenska stráka á Ólympíuhátíð Ekki þeir sömu og voru handteknir vegna fyrri þjófnaðarins Minni helst á þjóðarmorð Serba á múslimum í Bosníu Hneig niður vegna flogakasts Tekist á um þéttingu byggðar: „Þá getur þú bara flutt til Kaupmannahafnar“ Lögreglan leitar tveggja manna Frakkar viðurkenna Palestínu og stjórnarandstaðan á Alþingi mælist illa í nýrri könnun Óánægja með stjórnarandstöðuna eykst hressilega Amgen sver af sér njósnir um starfsfólk Íslenskrar erfðagreiningar Hundurinn gerði vart um mann sem stóð og starði inn Hægt nokkuð á virkninni frá því í gærmorgun Aron Can heill á húfi „Sorglega lítið eftir“ þegar sundkappinn var stöðvaður Ljóst að stjórnarandstaðan græddi ekki á „kjarnorkuákvæðinu“ Ólíðandi að fá sektir aftur og aftur Svona vindmyllur vill ráðherra fá samþykktar ofan Gilsfjarðar Tónleikar stöðvaðir vegna veikinda Arons Can Launaði neitun á gistingu með löðrungi Óvinsældir eftir þinglok og meint leyndarmál frönsku forsetahjónanna Innan við þriðjungur andvígur olíuleit Sjá meira