háló

Közpénz nem vész el, csak átalakul. A K-blog ezt a különös fizikai jelenséget vizsgálja.

EU hírek

EU hírek

ms-kitek.png

Infografika

Átláthatóság

Agrártámogatások

English materials

Hírlevél

Legfrissebb tanulmányainkról, fejlesztéseinkről értesülj havi beszámolónkból!

 


Hírek

Nincs megjeleníthető elem

Címkék

1% (4) 2014 (1) 2018 (1) adat (3) adatigénylés (89) adatok (99) adatozz okosan (23) adatsprint (3) adatvédelem (6) adatvédelmi (1) Áder János (1) adócsalás (1) afganisztán (1) afrika (3) agrártámogatások (17) ajándék (1) algoritmusok (3) alkotmánybíróság (6) alkotmányozás (1) állami szféra (4) állás (10) amsterdam (1) antikorrupció (70) anti korrupció (44) asp (3) ÁSZ (5) átlátható (1) átláthatóság (245) atomenergia (1) atomerőmű (2) ausztria (1) Azerbajdzsán (2) a szomszéd kertje (2) Bahrein (1) balaton (2) balkán (1) ballmer (1) bánkitó (1) bell and partners (1) berlusconi (1) bethlen gábor alap (1) bíróság (12) bizottság (4) biztos (1) bkk (1) bolívia (1) bosznia hercegovina (1) bővítés (1) btk (1) budapest (14) bulgária (1) bunda (1) c4hu (2) (1) cégek (4) cenzúra (3) cerv (4) chile (1) chilecracia (1) ciklusértékelő (1) civilek (18) civilzseb (3) civil kapocs (1) CÖF (2) compr (4) conspiracy for democracy (3) Corvinus Zrt. (1) covid (1) crowdfunding (4) crowdsourcing (3) csalás (2) csányi (9) csatorna (1) Csehország (1) daimler (1) databoom (1) dél-korea (1) demokrácia (4) direkt36 (1) dk (3) drón (3) e-government (2) egészségügy (19) egyesült (2) egyesült királyság (2) egyiptom (1) együtt (1) együtt2014 (1) ekd (3) elnökség (1) energiaválság (2) english (68) ensz (2) eötvös károly közpolitikai intézet (1) építőipar (10) érdekérvényesítés (3) erzsébet (2) esemény (4) esettanulmány (2) észtország (1) eu (79) eurobarometer (2) európai (3) EU conditionality (18) eu elnökség (1) évvégi (11) exszabi (1) ezaminimum (25) e governance (1) facebook (2) fehér könyv (1) felcsút (3) felejtéshez való jog (1) fidesz (7) fizetések (1) flier (3) földbérlet (1) forgóajtó (1) fotó (1) franciaország (1) futball (1) garancsi istván (1) geodézia (1) goldenblog (1) görögország (2) GRECO (1) gruevszki (1) Grúzia (3) gyógyszergyártás (1) gysev (1) hackathon (5) hacks hackers (1) hálapénz (12) hamburg (2) helsinki bizottság (1) helyi demokrácia a gyakorlatban (1) HET (3) heves (1) hillary clinton (1) hirdetés (3) hírlevél (2) hódmezővásárhely (1) hök (1) honlap (1) honvédelmi (3) Horváth András (1) horvátország (1) Hungary (1) idege (1) idegenforgalom (5) igazságszolgáltatás (5) igazságügyi minisztérium (1) ígyszültem (6) infografika (85) információszabadság (75) ingatlan (5) integritás (2) integritás hatóság (5) international (3) internet (4) internetpenetráció (1) IPI (1) iskola (2) ITM (1) izland (3) játék (3) javaslat (7) jobbik (2) jog (2) jogalkotás (52) jogállamiság (13) jordánia (1) k-monitor (40) k-teszt (4) kalifornia (1) kampány (27) kampányfinanszírozás (44) kamupártok (8) kdnp (1) kegyelem (1) KEHI (2) kekva (9) kemcs (5) kenőpénz (1) képviselő (3) képzés (1) kerényi imre (1) kincstár (2) királyság (2) költségvetés (16) koncesszió (1) konzultáció (3) kormányzati adatok (4) koronavírus (9) korrupció (38) korrupciófigyelő (7) korrupciós séta (2) koszovó (1) közadatok (5) közbeszerzés (55) közérdekű (3) közérdekű bejelentő (6) Közgép (2) közgép (10) közigazgatás (3) közösértékeink (2) közpénz (38) külföld (61) kultúra (3) külügyminisztérium (4) k monitor (72) Lázár János (5) légifotó (1) leisztinger (7) lengyelország (7) libéria (1) liget (2) lmp (2) lobb (1) lobbi (8) macedónia (2) magánszektor (2) magyarország (89) mahir (2) MÁK (6) máv (3) mbvk (1) media (2) média (9) meetup (3) mentelmi bizottság (1) mesterséges intelligencia (1) mészáros lőrinc (13) mezőgazdaság (13) microsoft (1) miniszterelnökség (4) minisztérium (6) mnb (2) MNV (4) mobilapp (3) modern városok (10) moldávia (2) monitoring (1) montenegró (1) mozgaskorlatozott (1) mszp (2) mtva (1) munkaerőpiac (1) mvh (2) naffa (1) NAIH (14) naih (1) NAV (4) navalnij (3) NCTA (3) németország (6) nemzetbiztonság (1) nepotizmus (1) népszavazás (1) nerhotel (9) new york (1) ngm (1) nhit (1) NIF (1) nkoh (3) nyerges (6) nyílt adat (4) nyílt kormányzás (20) nyitott önkormányzat (2) obama (2) OGP (22) OGP16 (1) OHÜ (2) OKFN (5) oktatás (6) olaszország (2) olimpia (1) oltás (1) önkéntes (3) önkormányzat (71) opencorporates (1) Open Knowledge (3) Orbán Ráhel (1) orbán viktor (10) oroszország (11) országgyűlés (4) összeférhetetlenség (3) ösztöndíj (1) pakisztán (1) paks (2) PallasAthene (1) panoráma (3) párbeszéd magyarországért (1) parlament (11) pártfinanszírozás (17) partimap (8) pártok (10) pénzmosás (4) pénzügyminisztérium (7) per (19) plakát (1) politika (2) politikusok (1) porto alegre (1) portugália (1) posta (1) prestige media (1) privacy (1) privatizáció (2) program (2) psi (2) publimont (1) putyin (1) rágalmazás (1) red flags (4) RekonstrukceStatu (1) rendelet (1) replicationsprint (1) részvétel (44) revolving door (1) right to know (1) rogán cecília (2) rokonok (3) rólunk (1) románia (4) rospil (1) RRF (9) sajtóadatbázis (1) sajtószabadság (5) sarka kata (1) Schadl György (2) school of data (2) siemens (1) simicska (20) Simon Gábor (1) smart city (3) sopot (1) spanyolország (3) sport (9) strabag (1) sunlight (1) századvég (2) szerbia (2) szerzői jog (1) Szijjártó Péter (2) szlovénia (1) szólásszabadság (2) szponzoráció (1) sztfh (1) Tactical Technology Collective (1) takarítás (1) támogatás (21) társadalmi egyeztetés (3) tasz (14) tényleges tulajdonos (1) tényleges tulajdonosi nyilvántartás (1) térkép (17) teszt (1) thales (1) theengineroom (1) tihany (1) timeline (1) titkosszolgálat (1) törvényhozás (5) trafikmutyi (2) transparency (5) trócsányi (1) TTIP (1) tulajdonos (2) tunézia (1) UBO (1) ügyészség (3) új nemzedék központ (1) ukrajna (2) uncac (2) unió (2) usa (18) usaid (1) utalvány (1) utazás (12) vagyonnyilatkozat (39) Vagyonnyilatkozatok Hajnala (8) választások (28) vám (1) várhegyi (2) varsó (2) vasút (2) végrehajtói kar (2) vesztegetés (6) vietnam (1) vitorlázás (2) vizes vébé (2) vizuális (4) Voksmonitor (12) Völner Pál (1) whistleblowing (15) wikileaks (4) workshop (3) young and partners (1) zambia (1) zmne (1)

Mesterséges intelligencia hajtja mostantól a K-Monitor népszerű adatbázisát

attilaj // 2024.10.11.

Címkék: mesterséges intelligencia infografika sajtóadatbázis

A K-Monitor korrupciós, közpénzes adatbázisa már közel két évtizede fontos eszközként szolgál a magyarországi korrupciós ügyek és problémás közpénzköltésekről szóló cikkek kereshetővé tételére. A cikkek feldolgozását mindeddig lelkes önkéntesek végezték, akik a különböző magyar hírportálok tartalmát szigorú módszertan szerint monitorozták és címkézték fel. Ez a mára több mint ötvenezer cikkből álló adatbázis most hatalmas segítség volt az új, mesterséges intelligenciára épülő sajtófigyelő rendszerünk tanításához. Önkéntes közösségünkre természetesen továbbra is számítunk, az automatizált felület fejlesztésével az ő munkájukat könnyítettünk meg.

 autokmdb.jpg

A K-Monitor első projektje az említett sajtóadatbázis volt, sőt kezdetben ez a projekt volt maga a szervezet. Azzal a céllal vágtunk bele, hogy tisztábbá, átláthatóbbá tegyük a magyar közéletet azáltal, hogy bárki könnyen utánajárhat, hogy településén vagy az országos szinten milyen teljesítményt nyújtanak a politikát alakító vagy abból hasznot húzó személyek és cégek. Az adatbázis nyilvános indulásáról annak idején az Index videóriportban számolt be. Azóta sok év eltelt, a K-Monitor pedig már számos egyéb dologgal foglalkozik. Az adatbázist mégis mindezidáig lelkiismeretesen fejlesztettük és gyarapítottuk. Az adatbázis fenntartása iránti hosszútávú elkötelezettségünket mutatja mesterséges intelligenciára épülő fejlesztés is. Az adatbázist az általunk kitalált felhasználáson túl használták már tudományos kutatásra, szakdolgozati témának és kockázatértékelési eszközként is. Büszkék vagyunk rá, hogy a havonta mintegy 45.000 felhasználó látogatja.

 

 

A K-Monitor adatbázis különlegessége, hogy következetes címkézéssel segíti a felhasználókat abban, hogy gyorsan rátaláljanak egy-egy közpénzes, korrupciós történethez kapcsolódó információra, legyen szó konkrét személyekről, intézményekről, témákról vagy helyszínekről. A manuális adatbevitel időigényes, így időszerűvé vált egy automatizált megoldás kialakítása - ez az igény táplálta kísérletünket, hogy nyelvi modell alapú fejlesztéssel támogassuk meg a folyamatot.

 

Az új, innovatív rendszer első működő verziója az online lapok RSS csatornáiból értesül új cikkekről, az URL alapján pedig azok tartalmát is kinyeri. További algoritmusaink egységesítik a kinyert adatokat, némi hibaszűrést végeznek és ezt követően egy klasszifikációra tanított BERT nyelvi modell dönt arról, az adott cikk illik-e a sajtóadatbázis módszertanába. Amennyiben igen, jóváhagyásra kínálja sajtófigyelő önkénteseink számára.

Jelenleg közel 100 online magyar hírforrást figyelünk, naponta mintegy 3000 cikket vizsgál át a rendszerünk.

Az automatizálás nem áll meg a cikkek felismerésénél és módszertanunk szerinti klasszifikálásánál: a cikkek szövegében szereplő személyek, intézmények és helyszínek felismerésére is fordítottunk figyelmet. Az algoritmus azonosítja a szövegben található entitásokat, és (valamilyen szinten) képes felismerni, hogy ezek aktív szereplői a leírt cselekményeknek, vagy csupán egy történet passzív szereplői, esetleg narrátorai. Amennyiben valamelyik személy vagy intézmény releváns kontextusban jelenik meg a szövegben, az új rendszer az adott entitást címkézésre javasolja a cikket rögzítő sajtófigyelőink számára. Ez a megoldás nagyban segíti a cikkezés precizitását és hatékonyságát.

 

 

 

A fejlesztés során kihívásokkal is szembesültünk, amelyek közül kiemelhető a nyelvi modellek finomhangolása a magyar nyelvi sajátosságokhoz, valamint a szövegkörnyezet, kontextus automatikus felismerésének pontossága, vagy az egymástól átvett vagy hírügynökségi cikkek felismerése. Az eddigi eredményes fejlesztésen túl, még sok lehetőség rejlik a rendszer továbbfejlesztésében. Terveink között szerepel a mesterséges intelligencia szerepének további növelésével a cikkek körülményeit leíró címkék és az ügycsoportokat gyűjtő akták felismerése, a szerzőkre vonatkozó adatok tárolása, vagy épp a hasonló cikkek csoportosítása.

Az automatizálás egy hosszú távú projekt, amely nemcsak a jelenlegi önkéntesek munkáját könnyíti meg, hanem a felhasználók számára is megbízhatóbb és széleskörű tartalmat biztosít. Amennyiben szívesen segítenéd munkánkat sajtófigyelő önkéntesként, jelentkezz csapatunkba! Ha a besegítenél a fejlesztésbe, vedd fel velünk a kapcsolatot!

 

Elérhetőségek

 A 2024-ben végzett fejlesztés a K-Monitor munkatársainak munkája mellett a Spreadmonitortól kapott probono informatikai segítség is hozzájárult. Nekik és az adatbázison dolgozó önkénteseinknek és munkatársaknak is rendkívül hálásak vagyunk.


Címkék: mesterséges intelligencia infografika sajtóadatbázis

Szólj hozzá!

A bejegyzés trackback címe:

https://k.blog.hu/api/trackback/id/tr2318705534

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.


süti beállítások módosítása