Egyszer jártunk a Szegedi Tudományegyetem által rendezett Magyar Számítógépes Nyelvészeti Konferencián, ahol elámultunk mennyi mindennel foglalkoznak a magyar kutatók. A rendezvény végére már egészen ismerősen csengett a korpusz, az automatikus katalogizálás vagy a véleményanalízis fogalma. Ezeket az emlékeimet elevenítette fel a kacifántos nevű Hungarian Natural Language Processing Meetup vagy egyszerűbb nevén NLP Meetup, melyet 2012. május 10-én rendeztek meg először a CoLabs-ben. Volt itt is digitális filológia, fordítási plágiumok és szövegek polaritásának elemzése, mindez izgalmas tartalommal (és talán már én is jobban felnőttem a témához).
Székely Gábor – Herczog Zoltán: Digitális filológia
Egy egyetemi kurzus keretén belül indult a projekt, ahol Reguly Antal kéziratokat digitalizáltak. Kézileg vitték véghez, mivel sérült volt a forrás és a program nem biztos, hogy minden karaktert megfelelően tudott volna olvasni. Írtak egy XML Microconvertert, mert nagy mennyiségű forrásanyagról volt szó. Mondatpárokat hoztak létre, melyeket számoztak is. A későbbiekben szótárat is szeretnének majd belőle létrehozni (manysi / vogul nyelvhez).
A Microconverter megadja a sorok számát, így lehet látni, hogy a forrás nyelvének és a fordítás nyelvének a sorai nem csúsztak-e el véletlenül. A programban a népdalok sorszáma szerint is lehet keresni.
A prezentációt letölthetővé tették az oldalukon. További információk a projektről szintén a Digitális Filológia honlapján érhetőek el.
Az egyik hozzászóló jelezte, hogy ezen a projekten már ők is dolgoztak, és közzétették a digitalizációjukat. Az NLP Meetup szervezői szerint ez egy jó példa arra, hogy egy ilyen rendezvény segítségével új együttműködések születhetnek.
Pataki Máté: Fordítási plágiumok
Az előadó először munkahelyét, az MTA SZTAKI Elosztott Rendszerek Osztályát (Department of Distributed Systems) mutatta be, és megtudtuk, hogy kedvenc SZTAKI szótárunk új verziója az http://ujszotar.sztaki.hu címen érhető el. A másik nagy fejlesztésük pedig a KOPI Plágiumkereső, melynek kapcsán fontosnak tartotta elmondani, hogy nem minden hallgató van a plagizálással tisztában. Nem mindenhol oktatják azt, hogyan kell megírni egy szakdolgozatot és mit jelent egyáltalán a plagizálás fogalma.
Az KOPI Plágiumkereső alkalmazás feladata az eredeti szövegek megtalálása a fordítás ismeretében. Például Németországban olyanról is lehet hallani, hogy a diákok angolról automata fordítóval németre fordított szövegeket adnak be házi feladatként, és ezek felismerésére alakítanak ki keresőket.

Mondatalapú az új algoritmus, tehát a szövegeket mondatokra tagolják, mert ezt találták a legkisebb értelmes egységnek. Hasonlósági metrikát definiáltak, ami a valószínűséget mondja meg két mondat hasonlósága között. Nem érzékeny a szavak sorrendjére, mivel magyarban könnyen megcserélhetőek a szavak.
A Wikipédiát nem találták meg az interneten csak szövegeket tartalmazó (plain text) változatban, ezért ezt itt tették elérhetővé: http://kopiwiki.dsd.sztaki.hu – és folyamatos frissítésére készülnek. Egy demót is láthattunk, ahol az angol nyelvű Wikipédia egy magyarra fordított szövegét írta be az előadó a Plágiumkeresőbe, és láthattuk, hogy a KOPI felismerte mind a 10 fordított mondatot – de hozzátette, hogy ennyire nem szokott mindig pontos lenni az alkalmazás.
Annak a valószínűsége, hogy egy mondatot megtalálunk 0.55, de ez nagyban függ a szövegtől. Bár rossznak tűnik az arány, de azt általában nem akarjuk megtalálni, ha valaki csak egy mondatot vett át. A nagy mennyiségű átvételt viszont már felismeri a rendszer. Az algoritmus viszont nem találja meg a „művészien” fordított mondatokat, vagyis ha egy irodalmár jó munkát végez.
Nehéz megállapítani, hogy egy mondat idézet vagy plágium, ezért ennek megállapítására nem vállalkoznak (általában idézőjelbe kell tenni, de előfordulhat, hogy lemarad véletlen egy idézőjel, máshol csak dőlttel kell írni az idézetet). Ráadásul, ha egy dolgozatba nem írunk egyáltalán idézetet, az ugyanolyan rossz lehet, mintha plagizálunk.
A plagiarus egyébként az 1. században emberrablót vagy gyermekrablót jelentett. 2003-ban indult a SZTAKI-ban a KOPI fejlesztése és 2004-ben már publikussá tették. 2011-től fordítási plágiumok felismerésére is van lehetőség benne. „Érdekes módon” 2012-ben megugrott a népszerűsége…
Egy kérdésre válaszolva elmondta Máté, hogy meglepő módon nem minden egyetem tiltja a plagizálást. Egy évvel ezelőttig az ELTE szabályzatában sem szerepelt az, hogy ez tilos. Az oktatók mondhatták egy dolgozatra, hogy nem fogadják el, de nem tudtak semmilyen törvényre hivatkozni ezzel kapcsolatban.
A keresésben résztvevő összes szó be van cachelve, ezért ha másodjára lefuttatjuk ugyanazt a keresést, akkor gyorsabban végez. Egy diplomát keresni jelenleg egy óra, abban az esetben, ha abban a témában még nem kerestek korábban. Régebben ez több napig is eltarthatott, ahhoz képest látványos a fejlődés.
Szekeres Péter: Neticle Technologies Kft.
Két prezentációt is hallhattunk Szekeres Pétertől, melyek közül az elsőt induló vállalkozásukról, a Neticle Technologies Kft.-ről tartotta. Abból indultak ki, hogy a weben nagyon sok információ megtalálható, hát miért ne lehetne az üzleti döntések támogatására használni? Az NLP és a szövegbányászat egy menedzsment eszközzé is válhatna, mellyel a tényalapú döntéstámogatást szeretnék megalapozni.
Meg tudják határozni a szövegek polaritását (pozitív, negatív, semleges), ezzel egy időben folyamatos véleményáramlás elemzését érik el. Van egy automatikus polaritásmérési algoritmusuk, mellyel 80,48%-os lett az első tesztmérésük heterogén szövegeken. A korábbi kutatások szerint, ha két ember függetlenül annotál egy szöveget, akkor 82%-os pontosságot ér el.
Szekeres Péter: Automatikus polaritás meghatározás magyar nyelvű szövegekben
A második előadásában Szekeres Péter jobban kifejtette a szövegek polaritását vizsgáló kutatásukat. (Polaritásmérésen kívül szokták még használni hasonló témára a véleményanalízis, hagulatelemzés vagy angol szavakkal a sentiment analysis, opinion mining stb. kifejezéseket is – szerk.) Úgy gondolják, az üzleti élet számára értékelhető adatokat tudnak szolgáltatni azzal, hogy az emberek véleményét automatikusan tolmácsolni tudják, sok száz kérdőív kitöltetése nélkül. Mit gondolnak például a munkahelyünkről a weben lévő emberek?
Ennek elemzése során több problémával is szembesültek, ami a polaritás mérését akadályozhatja:
- Ilyenek a “hunglish” kifejezések (angol és magyar keverékszavak), pl. júzer, lájkol, deployol. Széles polaritással rendelkező új szó jelenik meg így a weben.
- A másik ilyen problémát a homonímák jelentik, ahol lehet taxonómia, kontextusfüggő keresést csinálni.
- Szintén az iparági szleng is félrevihet a rendszert a polaritás mérésében.
- A beviteli eszköz sajátossága, hogy mondjuk kevésbé használunk mobilon ékezeteket (eleget vagy eléget?).
- A magyar nyelv sokféleképpen tud tagadni, lehet a szó előtt és mögött is vagy bújtatottan.
- Szintén ilyen probléma a karakterkódolás,
- az idézetek (Ki idéz kitől a szövegben? Objektív vagy szubjektív vélemény?)
- és az utóragozás (pl. sisak, folyamod, reggel).
Az előfeldolgozás fontos a véleménymérésnél: lemmatizálás során különböző alakú szavakat egymás mellé tesznek szótárilag értelmes alakban. Külön van a szótövezés és a toldaléklevágás (szuffixum levágása) is.
Porter írta meg az algoritmus „Bibliáját”, aki szabály alapú algoritmust készített. Továbbá megalkotott egy szótövezési nyelvet, aminek a neve Snowball nyelv. Egyik kedvenc szótövezője az N-gramm, mely abból indul ki, hogy a szótövek ritkán fordulnak elő és a toldalékok gyakrabban; ez pedig minden karakteralapú írásra jól működött.
A YASS algoritmusa is jó megoldás, ami pedig klaszterezéssel állítja össze a szavakat. Érdekes még ezen kívül a korpusz alapú szótövezés, ahol fontos a kontextus figyelése: mi szerepel együtt gyakran és mi nem?
Saját algoritmusuk a Tordai-féle Light2-ből indul ki, de az ott leírt 20 szabályt 260-ra egészítették ki, és hozzátették a kivételeket is (kivétel szóvégződésekkel együtt). 15.000 szóra nézték meg az algoritmust és jól működött. Szigorúan arra koncentráltak, hogy a pozitív vagy negatív véleményt megmondják, illetve az aspektust: mikor mondták és ki mondta.
A gépi tanulásos megoldásoknál általában szótár alapú megközelítéseket szoktak használni, ami túlzott témaspecifikusságot eredményez (pl. SVM, Naiv Bayes), és a legjobb eredmény eddig 76%-os pontosság elérése volt. A komplex szótár alapú megoldás leképezi a szavakat mondat szinten.
Két erre irányuló magyar kutatásról tud a korábbiakban: Berend és Farkas 2008-as kutatásukban a kettős állampolgárság fórumait nézték át ebből a szempontból. Szaszkó 2009-es vizsgálatában pedig filmkritikákat elemzett. Ők ezzel szemben témaspecifikusság helyett inkább heterogén mondatokat vizsgáltak (tehát különböző témákat).
Állandó kérdés a hangulatelemzés kapcsán, hogy mi a helyzet az iróniával? Az iróniára nekik sincs még konkrét megoldásuk, de az előforduló ironikus kifejezéseket folyamatosan megadják a rendszernek.
Megnézték a különböző nemzetek himnuszainak a polaritását, és kiderült, hogy ezek közül egyedül a magyar negatív, de az nagyon. A grafikonnal egy kis mosolyt csaltak a mélabús magyar közönség arcára. Emellett az Index Fórumának OTP topikját is elemezték, ahol a legnegatívabb és legpozitívabb hozzászólásokat keresték ki.
Pataki Máté az előadás után arra kérdezett rá, hogy ha a célzott ügyfelek közé a politikusok tartoznak, akkor tudják-e egyáltalán mennyien mondanak ebben a témában véleményt a neten. Hozzátéve, hogy az internet penetráció eleve 60%… Szekeres Péter válasza, hogy természetesen nem tudják mennyien mondanak véleményt, de ezzel inkább csak valószínűsíteni szeretnének valamit. Ugyanis ami nincs az interneten, az nem is befolyásolja annyira az emberek véleményalkotását.
Egy másik kérdés a skálára vonatkozott, ami után kiderült, hogy 7 fokozatú skálát használtak: 3 pozitív, 3 negatív és egy semleges fokozattal. A végén pedig egy érdekes felvetés született: mi lenne, ha lefordítanák automatikusan angolra a szövegeket, és annak a polaritását néznék meg? (Angol nyelven ugyanis már kidolgozottabb a polaritás mérés rendszere.)
Vincze Veronika: Számítógépes nyelvészet Szegeden
Az est utolsó előadója az MTA-SZTE Mesterséges Intelligencia Kutatócsoportjának munkáját mutatta be, mely 10 főből áll és 1998 óta foglalkozik a természetes nyelvfeldolgozással. Egyaránt együttműködnek egyetemi kutatóhelyekkel (pl. BME) és ipari szereplőkkel (pl. Origo). Ők szervezik a már említett Magyar Számítógépes Nyelvészeti Konferenciát is.
Tevékenységük három részre tagolható:
- Korpuszépítés: az eredmény letölthető a honlapjukról, kézzel egyértelműsített nagy adatbázisokról beszélünk. Ezek közé tartozik a Szeged Treebank, magyar WordNet, Szeged NE (gazdasági hírekben figyeli a tulajdonnév típusokat).
- Nyelvfeldolgozó eszközök
- Információkinyerés (IE) – ez utóbbi több alpontra is tagolódik
- Tulajdonnév felismerés: Ezek közé tartoznak az azonosítók is, pl. rendszám, lakcím, telefonszám. Azért van erre külön szükség, mert a tulajdonnevek az alkalmazások szintjén sajátos bánásmódot igényelnek, többek közt ezeket nem szokás lefordítani.
- Klinikai IE: Versenyek keretében angol nyelven fejlesztettek alkalmazásokat. Ezek közé tartozik: a klinikai dokumentumok automatikus anonimizálása, automatikus BNO-kódolás, elhízottság és kapcsolódó betegségeinek felismerése, illetve a beteg dohányzási státusza.
- Bizonytalanság felismerése, pl. may, probable. Az is bizonytalan, hogy bizonyos szavak bizonytalanságot jelölnek-e adott esetben.
- Kulcsszó- és véleménykinyerés: Statisztikai módszerekkel elemezték, hol fordulnak elő a szavak a szövegen belül (lemming). Az Origo hírarchívumában lévő hírekhez ők rendeltek címkéket. Tesztelték termékismertetőkön is a módszert. Ide tartozik a pozitív és negatív vélemények megkülönböztetése is, ahol ők 72%-os eredményt értek el (a már említett Berend-Farkas kutatással), de Veronika hozzátette, hogy az annotátorok között is eleve csak 76%-os volt a véleményegyezés. Jelenleg mobilokkal kapcsolatban folytatnak kutatásokat.
- Többszavas kifejezések: sajátos bánásmódot igényelnek, ezért van szükség külön elemzésükre, pl. racing car = versenyautó.
A jövőben továbbra is információkinyeréssel, gépi tanulási technológiákkal, ipari projektekkel stb. szeretnének foglalkozni a kutatócsoporton belül.
A rendezvény végén Jóföldi Endre, a Weblib Kft. képviseletében megköszönte a részvételünket, és kiemelte Varjú Zoltán szervezői munkáját. A jövőben folyamatosan terveik az NLP Meetup megtartását, amit mi is csak ajánlani tudunk a számítógépes nyelvészet iránt érdeklődőknek!