Hunspell: a magyar varázslat

Gépi fordító? Nem kizárt.

A nyelvész szakma mit gondol a munkátokról? Kapsz nyelvészektől segítséget?

A Hunspell névadója, Kornai András egyetemi tanár vezetésével több éven keresztül dolgoztam a BME MOKK Kutatóközpontjában, ahol a Hunspell morfológiai elemző képességre tett szert. A múlt héten kaptam egy levelet a Nyelvtudományi Intézet munkatársától, ahonnan a Szegedi Tudományegyetem megbízásából és nyelvészeinek segítségével kifejlesztett Huntoken magyar szövegelemző programom unicode-os alkalmazásához kértek segítséget, tehát a kapcsolat kölcsönösnek mondható, még ha sokkal inkább alkalmazott is az a terület, amivel foglalkozom.

És a riválisok? Ők mit gondolnak? Elsősorban a kereskedelmi terméket fejlesztő MorphoLogicra gondolok, melynek helyesírás- és nyelvi ellenőrzője a Microsoft Office-ban is megtalálható. Figyelitek egymás munkáját?

Figyeljük egymás munkáját a magyar nyelvi eszközökkel kapcsolatban, de a nemzetközi szabad szoftveres fejlesztések világában a MorphoLogic nem rivális. Itthon a magyar nyelvtechnológia sikerén dolgozunk, de a MorphoLogic ugyanabba a problémába ütközik, mint mi: például a legnagyobb vásárló, az állam egy bizonyos, nyelvtechnológiát is igénylő irodai szoftvert vásárolt vagy bérelt ezidáig, így a monopolhelyzetben lévő cégnek, a Microsoftnak nem volt érdeke a magyar nyelvtechnológiára költeni.

Úgy tudom, ma már ez a főállásod. Meg lehet élni egy nyílt forráskódú helyesírás-ellenőrző modul és szótár fejlesztéséből és karbantartásából?

Kizárólag ebből nem, egyéb fejlesztésekben is részt veszek. A szabad szoftveres fejlesztéseimet az utóbbi egy évben egy amerikai megbízás, az FSF.hu Alapítvány (elsősorban 1%-os felajánlásokból származó) támogatása és a Sun Microsystems OpenOffice.org közösségi innovációs díj arany fokozatának elnyerése tette lehetővé. A jövőben is hasonló forrásokra számítok, mivel – ellentétben egyes uniós tagállamokkal – nálunk még nem merült fel állami szinten a nyílt forráskódú szoftverek terjesztése és támogatása. Az állami informatikai pályázatok kapcsán kipattant gazdasági bűncselekmények, a több milliárd adóforinttal támogatott Tisztaszoftver Program fedőnevű Microsoft licenckonstrukció (ahol a szabad szoftverekkel említés szintjén sem találkozni), illetve a nyílt forráskód névleges támogatása nem sok jót sejtet, de talán éppen ez a nyilvánvaló etikátlan vagy elmaradott, a nemzetközi trendekkel szembemenő állami szerepvállalás vezet majd valamilyen gyökeres megújuláshoz, ami visszaállítja a piaci versenyt, teret adva a szabad szoftveres fejlesztéseknek hazánkban is.


Munkában a szinonimaszótár

A helyesírás-ellenőrző, a helyesírási szótár és a szinonimaszótár már működik, a következő nagy projekt a nyílt forrású nyelvhelyesség-ellenőrző. Ezzel hogy haladtok?

Nem sokkal az után, hogy ez az interjú megjelenik, már széles körben népszerűsítjük az OpenOffice.org-hoz készült magyar nyelvhelyesség-ellenőrzőt, aminek érdekessége, hogy teljes mértékben nyelvfüggetlen a motorja. (A kiegészítő az interjú publikálást követően, április 24-én estétől lesz elérhető a megadott linken – a szerk.) Kifejezett cél volt, hogy az új fejlesztéssel minél előbb elkészüljön a nyelvhelyesség-ellenőrző nemcsak a magyar, hanem az OpenOffice.org nyelvi eszközei által támogatott mintegy további száz nyelv számára is. Elég csak a nyelvhelyesség-ellenőrző sablonját picit módosítani, és máris kész a minimális joruba vagy telugu nyelvhelyesség-ellenőrző, ami már működő kiindulási alapot jelent az adott nyelv nyelvhelyességi szabályainak leírásához.

Igen ambiciózusan haladsz, haladtok a számítógépes nyelvi elemzésre épülő funkciók fejlesztésével. Mi jön a nyelvhelyesség-ellenőrző után? Egy gépi fordító?

Nem kizárt, mert kész tervem van egy minden eddiginél jobb magyar gépi fordító elkészítésére...

Aki kérdezett: Barna József

Azóta történt

Előzmények