A K-Monitor korrupciós, közpénzes adatbázisa már közel két évtizede fontos eszközként szolgál a magyarországi korrupciós ügyek és problémás közpénzköltésekről szóló cikkek kereshetővé tételére. A cikkek feldolgozását mindeddig lelkes önkéntesek végezték, akik a különböző magyar hírportálok tartalmát szigorú módszertan szerint monitorozták és címkézték fel. Ez a mára több mint ötvenezer cikkből álló adatbázis most hatalmas segítség volt az új, mesterséges intelligenciára épülő sajtófigyelő rendszerünk tanításához. Önkéntes közösségünkre természetesen továbbra is számítunk, az automatizált felület fejlesztésével az ő munkájukat könnyítettünk meg.
A K-Monitor első projektje az említett sajtóadatbázis volt, sőt kezdetben ez a projekt volt maga a szervezet. Azzal a céllal vágtunk bele, hogy tisztábbá, átláthatóbbá tegyük a magyar közéletet azáltal, hogy bárki könnyen utánajárhat, hogy településén vagy az országos szinten milyen teljesítményt nyújtanak a politikát alakító vagy abból hasznot húzó személyek és cégek. Az adatbázis nyilvános indulásáról annak idején az Index videóriportban számolt be. Azóta sok év eltelt, a K-Monitor pedig már számos egyéb dologgal foglalkozik. Az adatbázist mégis mindezidáig lelkiismeretesen fejlesztettük és gyarapítottuk. Az adatbázis fenntartása iránti hosszútávú elkötelezettségünket mutatja mesterséges intelligenciára épülő fejlesztés is. Az adatbázist az általunk kitalált felhasználáson túl használták már tudományos kutatásra, szakdolgozati témának és kockázatértékelési eszközként is. Büszkék vagyunk rá, hogy a havonta mintegy 45.000 felhasználó látogatja.
A K-Monitor adatbázis különlegessége, hogy következetes címkézéssel segíti a felhasználókat abban, hogy gyorsan rátaláljanak egy-egy közpénzes, korrupciós történethez kapcsolódó információra, legyen szó konkrét személyekről, intézményekről, témákról vagy helyszínekről. A manuális adatbevitel időigényes, így időszerűvé vált egy automatizált megoldás kialakítása - ez az igény táplálta kísérletünket, hogy nyelvi modell alapú fejlesztéssel támogassuk meg a folyamatot.
Az új, innovatív rendszer első működő verziója az online lapok RSS csatornáiból értesül új cikkekről, az URL alapján pedig azok tartalmát is kinyeri. További algoritmusaink egységesítik a kinyert adatokat, némi hibaszűrést végeznek és ezt követően egy klasszifikációra tanított BERT nyelvi modell dönt arról, az adott cikk illik-e a sajtóadatbázis módszertanába. Amennyiben igen, jóváhagyásra kínálja sajtófigyelő önkénteseink számára.
Jelenleg közel 100 online magyar hírforrást figyelünk, naponta mintegy 3000 cikket vizsgál át a rendszerünk.
Az automatizálás nem áll meg a cikkek felismerésénél és módszertanunk szerinti klasszifikálásánál: a cikkek szövegében szereplő személyek, intézmények és helyszínek felismerésére is fordítottunk figyelmet. Az algoritmus azonosítja a szövegben található entitásokat, és (valamilyen szinten) képes felismerni, hogy ezek aktív szereplői a leírt cselekményeknek, vagy csupán egy történet passzív szereplői, esetleg narrátorai. Amennyiben valamelyik személy vagy intézmény releváns kontextusban jelenik meg a szövegben, az új rendszer az adott entitást címkézésre javasolja a cikket rögzítő sajtófigyelőink számára. Ez a megoldás nagyban segíti a cikkezés precizitását és hatékonyságát.
A fejlesztés során kihívásokkal is szembesültünk, amelyek közül kiemelhető a nyelvi modellek finomhangolása a magyar nyelvi sajátosságokhoz, valamint a szövegkörnyezet, kontextus automatikus felismerésének pontossága, vagy az egymástól átvett vagy hírügynökségi cikkek felismerése. Az eddigi eredményes fejlesztésen túl, még sok lehetőség rejlik a rendszer továbbfejlesztésében. Terveink között szerepel a mesterséges intelligencia szerepének további növelésével a cikkek körülményeit leíró címkék és az ügycsoportokat gyűjtő akták felismerése, a szerzőkre vonatkozó adatok tárolása, vagy épp a hasonló cikkek csoportosítása.
Az automatizálás egy hosszú távú projekt, amely nemcsak a jelenlegi önkéntesek munkáját könnyíti meg, hanem a felhasználók számára is megbízhatóbb és széleskörű tartalmat biztosít. Amennyiben szívesen segítenéd munkánkat sajtófigyelő önkéntesként, jelentkezz csapatunkba! Ha a besegítenél a fejlesztésbe, vedd fel velünk a kapcsolatot!
Elérhetőségek
- Sajtóadatbázis: https://adatbazis.k-monitor.hu
- Autokmdb GitHub: https://github.com/k-monitor/sajtoadatbazis-automat/
A 2024-ben végzett fejlesztés a K-Monitor munkatársainak munkája mellett a Spreadmonitortól kapott probono informatikai segítség is hozzájárult. Nekik és az adatbázison dolgozó önkénteseinknek és munkatársaknak is rendkívül hálásak vagyunk.
Címkék: mesterséges intelligencia infografika sajtóadatbázis
Szólj hozzá!
A bejegyzés trackback címe:
Kommentek:
A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.