A szöveged alapján a szoftver megmondja, fiú vagy-e vagy lány

(Infobulvár?) Érdekes szoftverfejlesztésről számolt be a múlt héten a New Scientist weboldala: a hobokeni Stevens Műszaki Egyetemen Na Cheng és csapata egy olyan programot készítettek, mely a szövegek esetében nagy valószínűséggel képes meghatározni a szerző nemét. A kutatók szerint egy ilyen alkalmazás igen hasznos lehet a közösségi oldalak, blogok, üzenetküldők stb. esetében, mivel segíthet megvédeni a gyerekeket a rossz szándékú, magukat más neműnek kiadó zaklatóktól.

A Cheng és két kollégája, Rajarathnam Chandramouli és Koduvayur Subbalakshmi által írott szoftvert úgy lehet igénybe venni, hogy a felhasználó a kutatók szerverére feltölti az elemezni kívánt szöveget text formátumban, vagy pedig kimásol egy bekezdésnyit az eredetiből, és azt küldi el elemzésre. A program rövid idő elteltével jelzi, hogy a szöveg írója szerinte milyen nemű – esetleg a „semleges” megjelölést alkalmazza, ha nagyon neutrális szövegről van szó, amilyenek például a tudományos tartalmú textusok.

A szoftver kidolgozásához olyan gyűjteményeket használtak fel, mint például a Reuters hírarchívuma, vagy a csődjével hírhedtté vált Enron energetikai cég hatalmas e-mailadatbázisa. Ezeket a szövegeket korábbi kutatásokra alapozva pszicholingvisztikai szempontból elemezték: például nemre jellemző szavakat, szófordulatokat kerestek bennük, figyelték a központozás stílusát stb. Végül 545 vizsgálható jegyet határoztak meg, ezek közül 157 volt kifejezetten az adott nemre szignifikánsan jellemző – a kutatók szerint ilyenek például a központozás stílusa és a bekezdések hossza, mely a két nemnél jelentős mértékben eltér, illetve fontos tényezők a hangulat és az érzelmek kifejezésére használt szavak. A megtalált jellemzők elemzését egy Bayes-algoritmus végzi el.

A program persze nem tökéletes, jelenleg 85 százalékos pontossággal tudják megállapítani a szerző nemét – de folyamatosan tökéletesítik, és a várakozások szerint minél többen használják, annál jobb lesz, ugyanis a felhasználók segíthetik a fejlesztést a hibákat jelző üzeneteikkel.

Az ismertetőt közlő New Scientist újságírói a szolgáltatást három ismert író szövegeivel tesztelték le. V. S. Naipaul Nobel-díjas, a női írókat nem sokra tartó szerzőről, aki arról is ismert, hogy büszkén állítja: két bekezdés után megmondja, hogy a szöveget férfi vagy nő írta, a szoftver 88,4 százalékos biztonsággal mondta meg, hogy férfi. Mary Evans esetében, aki férfi álnéven publikált, a program szerint 94,6 százalék az esélye, hogy nő. De Sarah Palin, az elnökségre is pályázó, hajdan szépségkirálynői ambíciókat is dédelgető alaszkai politikus esetében, akinek nemrég hozták nyilvánosságra több mint 14 ezer e-mailjét, a szoftver egyetlen elektronikus levél elemzése után téves eredményt adott ki: a program szerint ő 70,77 százalékos biztonsággal férfi.

Előzmények