WIKIDATA-ELTEDATA-WIKIMEDIA

From wikibase-docker

FELLEGI Zsófia

WIKIDATA – ELTEdata – WIKIMEDIA: A SZÖVEGKIADÁSOK TECHNIKAI HÁTTERE

2019 januárjában kezdődtek meg az Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar Digitális Bölcsészeti Központ/Digital Humanities (ELTE BTK DH) akkori vezetője, Palkó Gábor és Fellegi Zsófia, az Eötvös Loránd Kutatási Hálózat Bölcsészettudományi Kutatóközpont Irodalomtudományi Intézetének (ELKH BTK ITI) munkatársa szakmai közreműködésével a hét tudásterületet reprezentáló digitális szövegkiadás előkészítő munkálatai. Az elmúlt évtizedek során egyeduralkodóvá vált a Text Encoding Initiative (TEI) ajánlása a digitális szövegkiadások terén, amelyet az XML jelölőnyelvi átiratokra dolgoztak ki. Egy XML alapú kiadás készítése azonban nagy gyakorlatot és digitális filológusi szakértelmet igényel. Emellett a jelölőnyelvi átiratok biztonságos archiválása, szolgáltatása és vizualizációja meglehetősen költséges. Bár léteznek kész vizualizációs eszközök, azok testre szabása további informatikai fejlesztést igényel. A kutatás szempontjából releváns adatok tárolására további háttéradatbázis kiépítésére lett volna szükség, hiszen az XML struktúra nem támogatja az egymást átfedő jelöléseket, így például a fogalmak megjelölése a jelölőnyelvi átiratban nem lehetséges. A háttéradatbázis szerkezetének kidolgozása, az adatok felvitele és tárolása, valamint az adatok összekapcsolása a szövegkiadással, ezek egy platformon történő megjelenítése szintén komoly fejlesztést igényelt volna. A felsorolt szempontok figyelembevételével a digitális bölcsész kollégák olyan megoldást kerestek, amely egyszerre támogatja a szövegkiadás publikálását és biztosítja a megfelelő háttéradatbázist.

A digitális szövegkiadás a nyílt forráskódú Wikibase szoftver keretein belül készült, a szolgáltatáshoz a szükséges tárhelyet az ELTE DH központ (https://elte-dh.hu/) biztosította. A szoftver kiválasztásánál lényeges szempont volt a fenntarthatóság: a rendszert a Wikimedia csoport üzemelteti és fejleszti, nemzetközi kutatócsoportok is előszeretettel használják prozopográfiai kutatások eredményeinek online publikálásához. Az ELTE DH központ a Magyar Tudományos Akadémia (MTA) és azt ELTE Humanizmus Kelet-Közép-Európában Lendület Kutatócsoporttal (MTA-ELTE Humanism in East Central Europe, HECE) közösen tesztelte a rendszert, ennek tapasztalataira építve esett itt is erre a választás.

A Wikibase szoftver egyszerre képes támogatni a szövegkiadást és az adatgazdagításhoz szükséges háttéradatbázist, vizuális felülete a Wikipediával és a Wikidatával megegyező, felhasználóbarát felület. A szövegkiadás így nem a TEI ajánlása szerinti jelölőnyelvi átiratban készült, hanem a Wikimedia saját formátumában, az úgynevezett wikitext formátumban. Ez a formátum könnyedén archiválható, később, ha szükséges, XML formátumra konvertálható. Lehetőség nyílik a szövegkiadásban a hét tudásterület kapcsolatainak reprezentálására, a szövegek annotációinak megjelenítésére. Az adatbázis tartalmazza a kutatás során gyűjtött adatokat, méghozzá a legkorszerűbb technológiával, a szemantikus web gyakorlatát használva. A rendszer lehetőséget biztosít adatvizualizációk készítésére, amelyek feltárhatnak eddig ismeretlen mintázatokat, alátámaszthatják a kutatási eredményeket, további új kutatási irányokat jelölhetnek ki.

Első ütemben Palkó Gábor és Fellegi Zsófia előkészítették a digitális forráskiadás legterjedelmesebb, a „ökonómia - agrártudományok” tudásterületet reprezentáló szövegkorpuszból kinyert személy- és földrajzi nevek automatikus betöltését az adatbázisba. Ennek első lépéseként az adatok táblázatba rendezése, annotálása és egységesítése történt meg, majd a szemantikus web logikáját követve a kapcsolatok kialakítása zajlott, végül sor került az adathalmazok automatikus betöltésére. Az addig összegyűjtött tapasztalatokra támaszkodva megkezdődött annak a módszertannak a kidolgozása, amelynek révén a további forrásszövegek és adatok feltöltése jelentősen gyorsabbá és egyszerűbbé vált.

Az adatszerkezet kidolgozása során figyelembe kellett venni, hogy az adatbázis különböző kutatási projektek számára biztosít kutatási infrastruktúrát és publikációs felületet, a kutatási adatok egy része ezért átfedésben van (például a földrajzi nevek esetében). Az egyes kutatások algyűjteményeket képeznek az adatbázisban. Az entitásokhoz rendelt állítások esetében megjeleníthető, hogy az állítás mely kutatócsoport munkájának eredménye. Ezzel a módszerrel egyszerre kereshető a teljes adatbázis, valamint az egyes algyűjtemények adatai.

A projekt második szakaszában az ELTE BTK Digitális Bölcsészet Tanszék vezetője, Palkó Gábor és az ELKH BTK ITI munkatársa, Fellegi Zsófia további munkatársakat vontak be az átírt forrásszövegek és az abból kinyerhető adatok adatbázisba rendezésébe. Az ELTE DH által üzemeltett Wikibase alapú rendszerben, az ELTEdata-ba feltöltésre kerültek a személy- és földrajzi nevek. A forrásszövegekben a személy- és földrajzi entitásokat a munkatársak összekötötték az adatbázisban megfeleltetett rekordokkal, így az adatok és azok szövegbeli előfordulásai egy rendszerben kereshetők. Emellett a kutatócsoport által elkészített fogalomtérképet szintén leképezték, a szövegforrásokban a megfelelő szöveghelyeken jelölték. A rendszer lehetőséget biztosít arra, hogy a fogalomtérképet és a forrásszövegeket egy későbbi kutatás keretén belül további adatokkal gazdagítsuk, illetve az adatokat további információkkal egészítsük ki.

2020 folyamán az ELTE-n megalakult a Digitális Bölcsészet Tanszék, amely átvette a korábbi DH Központ infrastruktúráját. A HECE és a Tudásáramlás projektek mellett az ELTE Társadalomtudományi Kar (TáTK) Prozopográfiai Kutatócsoportja is ezt a Wikibase szoftvert, az ELTEdata-t használja, így a rendszerben található adatok száma dinamikusan nő, ami a későbbiekben feltöltött szövegkiadások adatgazdagítását jelentősen felgyorsítja. A Wikibase szoftver alkalmazása a történeti kutatások adatbázisba rendezéséhez nemzetközi szinten is elterjedt gyakorlat, az egyik legszemléletesebb példa a FactGrid (https://database.factgrid.de/wiki/Main_Page), amelyet az Erfurti Egyetemen működő Gotha Research Center szolgáltat történészek számára. Magyarországon az ELKH BTK ITI az ELTE Digitális Bölcsészet Tanszék tapasztalataira építve létrehozta az ITIdata-t, amelyben bibliográfiai adatokat tesznek közzé, valamint személy- és helynévteret építenek.

A fenti példák is bizonyítják, hogy a Wikibase rendszert az adatszerkezet rugalmassága alkalmassá teszi arra, hogy különböző kutatási projektek egyedi igényeit kiszolgálja. Az intézményi beágyazottság biztosítja a Tudásáramlás projekt keretében végzett és végzendő kutatások számára a fenntarthatóságot és a bővíthetőséget. A későbbiekben lehetőség nyílik a bibliográfiai adatok rendszerben történő leképezésére, ezzel olyan tudásbázist létrehozva, amely egyedülálló. A rendszeren belül lehetőségünk van adatvizualizációk készítésére, amelyek segítségével a későbbi kutatásokat támogató összefüggések és új mintázatok fedezhetők fel.