Kézírásfelismerővel újított az OSZK

Ma adták hírül, hogy megjelent az első publikus magyar nyelvű számítógépes kézírásfelismerő modell.

Írta: IT café
Forrás: OSZK
2022-07-06 11:40

Az intézmény Facebook-oldalán jelezték, hogy az ún. HTR- (Handwritten Text Recognition-) modellt az Országos Széchényi Könyvtár Digitális Bölcsészeti Központja (OSZK DBK) hozta létre, és mindenki számára elérhetővé tette a Transkribus nevű szoftver komponenseként.

Alapját Kiss József, a 19–20. század fordulóján élt magyar költő, a Nyugat előfutáraként számontartott A Hét című hetilap szerkesztőjének szakmai és személyes levelezése képezi.

Mint írják, a kézírásfelismerést mesterséges intelligencián alapuló algoritmus végzi. Ezt először be kell tanítani, hogy a különböző kézírásokat felismerje, majd a megadott minták alapján felépít egy modellt, amellyel képessé válik arra, hogy egy számára ismeretlen, még nem látott kézírásképet is értelmezzen. Minél többféle anyagon tanítják, annál jobban teljesít különböző szövegeken. A jelenlegi modell először Kiss József írásán, majd a levelezőpartnerek vegyes kézírásán tanult.

Az eddig felhasznált kéziratok a Petőfi Irodalmi Múzeumban (PIM) találhatók, a tanulásra felhasznált szavak száma körülbelül 75 ezer. A dokumentumok között szerepelnek borítékok, képeslapok, hagyományos és fejléces levelek, névjegykártyák is. A levélírók Kiss József és családja, illetve a századforduló írói, újságírói és művészei, mint Ady Endre, Móricz Zsigmond vagy Tömörkény István. Ez összesen 300 darab változó hosszúságú és minőségű levelet jelent, amelyeket a DBK folyamatosan közzétesz az olvasók számára a dhupla.hu/collection/kiss-jozsef-levelezes oldalon. A levélváltások további kéziratai jelenleg is feldolgozás alatt állnak az OSZK-ban és a PIM-ben.

A modell jelenleg 9,19 hibaszázalékkal működik, ami azt jelenti, hogy a projektben közel 90%-os pontossággal meg tudja állapítani, milyen karakterekből áll a szöveg.

A híradásban kiemelik, hogy a különböző magyar nyelvű projekteknek, amelyek automatikus kézírásfelismertetést használnak, a jövőben össze kell fogniuk, hogy a saját szövegkorpuszokon betanított modelleket egymásba építve egyre általánosabb érvényű eszköz jöjjön létre a magyar kéziratos források digitalizációjához. Közös érdekünk, hogy e közgyűjteményekben rejtőző kulturális kincsek a digitális térben szövegként hozzáférhetővé, olvashatóvá, kereshetővé, számítógépes eszközökkel is feldolgozhatóvá, kutathatóvá váljanak, ahogyan a https://dhupla.hu oldalon közzétett szövegkiadások, illetve a hozzájuk tartozó kreatív tartalmak esetében is láthatjuk. A most nyilvánosságra hozott első magyar kézírásfelismerő modell ennek a folyamatnak fontos mérföldköve.

Hozzászólások (11)

Előzmények

Csaknem ezer régi térképet tett digitálisan hozzáférhetővé az OSZK

Az 1850 előtt nyomtatott térképek az Országos Széchényi Könyvtár Földabrosz néven induló digitális tartalomszolgáltatása révén érhetőek el.

Mérleg 2020-08-27 4
Felkerült a húszezredik kötet a Magyar Elektronikus Könyvtárba

A 26 évvel ezelőtt alapított MEK állománya folyamatosan bővül.

Mérleg 2020-04-28 1
Elindult a könyvtárak.hu

Weboldalt hozott létre az Országos Széchényi Könyvtár (OSZK).

Mérleg 2020-03-06 0

Percről percre

Mobvoi TicWatch Pro 5 Enduro - kitartás kartárs?

ma WearOS 3.5, két kijelző, hosszú üzemidő, és zavaró apróságok a legújabb TicWatch modellben.

xDefiant teszt

gp A Ubisoft évek óta készül arra, hogy belépjen a gyors iramú hero shooterek piacára is: sok félbehagyott rivális és megannyi halasztás után megjelent végre a fura nevű xDefiant.