Hasznos adatelemzési eszközökről, önkéntes adatelemzőkről és adatvezértelt újságírásról volt szó az első Open Knowledge Meetupon.
Az első Open Knowledge Meetup a nyílt adatokról és felhasználásukról nyújtott rövid és átfogó bevezetést. A három előadó különböző felhasználási módokról,az adatok fajtáiról és arról beszélt, hogy hogyan lehet ezekből társadalmi haszonnal járó projekteket, vagy újságcikkeket létrehozni. Az előadássorozat szervezőiként úgy döntöttünk, hogy az Open Knowledge Meetupon minden olyan kezdeményezésnek, eszköznek vagy személynek helye van, aki nyílt adatok felhasználásával foglalkozik, vagy érinti ezt a területet.
Az „open data”, azaz nyílt adat az Open Data Handbook rövid meghatározása szerint leginkább olyan adat(halmaz), amely könnyen elérhető és módosítható formában hozzáférhető az interneten. A nyílt adatokat olyan licenc alatt adják közre, amely lehetővé teszi az újraközlésüket, felhasználásukat és egyesítésüket más adathalmazokkal. És bárki felhasználhatja ezeket, mert nem diszkriminál egyes felhasználói csoportokat, tehát nem zárja ki például a kereskedelmi felhasználást sem.
(Linked) Open (Data) (Science)
Micsik András, a Magyar Tudományos Akadémia Számítástechnikai és Automatizálási Kutatóintézetének (MTA SZTAKI) munkatársa először az adatok tudományos felhasználásának példáit mutatta be:
-
Magyar Tudományos Művek Tára: publikációs adatbázis
-
MTA TK KDK Repozitórium: MTA társadalomtudományi kutatások témáinak, résztvevőinek és adatanyagainak gyűjtőhelye
-
Virtual Astronomical Observatory: csillagászati adatbázisok, eszközök és szolgáltatások gyűjtőhelye
-
myExperiment: tudományos módszertanok közösségi oldala, publikációnak számít
-
NextGeneration: folyamatban lévő projekt, amely azt teszi majd lehetővé, hogy a tudományos publikációk adatsorai elérhetők és újra lejátszhatók legyenek
A nyílt adatok gyűjtésére és megosztására különböző adatbázisok léteznek. A Datahub.io-n magyar adatok is vannak, bár Micsik rámutatott, hogy ott még nem nyílt formátumra is van példa: a térfigyelő kamerák listája pdf-ben. Magyar változata az OpenData.hu. Letölthető és nyílt az adatbázisa van az európai digitális menetrend mutatóinak is, a folyamatosan változó adatokból grafikonokat készít az oldal.
A nyílt adatok „minősítésében” az Open Data Certificate segít, egy kérdőív kitöltése után az adatainkhoz ajánl tanúsítványt. Az Open Data Index az országokat sorolta be egy közvéleménykutatás alapján aszerint, hogy melyik hogyan áll nyílt adatok területén. Kapcsolt adatoknak (linked data) nevezzük az olyan adathalmazokat, amelyek hármas állításokkal (triple) írnak le minden információt, ezáltal össze tudják kapcsolni különböző
adatforrások adatait is. Legismertebb példája a DBpedia és hasonló elven működik a Google Knowledge Graph is. A SZTAKI által fejlesztett LODMilla böngésző pedig segíti az ilyen kapcsolt adatokban való felfedezést.
DataKind
Arató Bence a DataKind kezdeményezésről beszélt a meetupon. A DataKind 2011-ben indult az Egyesült Államokban – konkrétan a New York Times adatújságíró részlegéből –, hogy az üzleti szektor tudásával segítse a civil szervezetek munkáját. A DataKind önkéntesei adatelemzők, statisztikusok vagy akár programozók nagy multiknál, és a szabad idejükben szívesen vesznek részt társadalmilag hasznos projektek fejlesztésében. Ennek az együttműködésnek két fő formátuma van, a DataDive és a DataCorps.
A DataDive egyfajta hackathon, ahol két nap alatt próbálnak a DataKind önkéntesek valamilyen projektet elkezdeni vagy magasabb szintre emelni egy civil szervezetnél. Ebben bármilyen társadalmi szervezet részt vehet, amelyet a DataKind nagykövete felkészített az eseményre, azaz átbeszélte velük, hogy milyen adataik vannak, azok megfelelő formátumban vannak-e, és mit lehetne velük kezdeni. A DataDive folytatása lehet a DataCorps bevetése, ők az a csapat, akik vállalják, hogy rendszeresen végeznek munkát a civil szervezetekkel. A magyar közösség most még Pro Bono Analytics néven szerveződik, amíg hivatalosan nem csatlakoznak a nemzetközi hálózathoz.
Adatvezérelt újságírás
Az adatok felhasználásából keletkezett eredményt Pethő András újságíró mutatta be. Ő egy évig dolgozott a Washington Post nyomozó rovatánál, ahol adatvezérelt újságírással (data-driven journalism) foglalkozott. Az előadása hasznos volt annak a tisztázására, hogy a data-driven journalism miben különbözik az adatújságírástól (datajournalism): itt nem csupán annyit tesz az újságíró, hogy megírja, mit lát egy adatbázisban, hanem utánajár az adatok keletkezése körülményeinek, és ugyanúgy ellenőrző kérdéseket tesz fel nekik, mint bármilyen más forrásnak.
Pethő András példája a saját sztorija volt, aminél annak járt utána, hogy hol dördül el a legtöbb fegyverlövés Washingtonban. Ehhez a kiindulópontot a rendőrség által felszerelt fegyverlövés érzékelők (ShotSpotter) jelentették, amelyek elvileg egy adatbázisban rögzítik, hol, mikor és hányszor hallatszott fegyverlövés a városban. A washingtoni rendőrség először nem akarta kiadni ezeket az adatokat az újságírónak, azt állították, hogy a rendszer csak pdf fájlokat tud létrehozni, és azokat is csak kinyomtatva tudják odaadni, ráadásul ez 300 ezer példányt jelent, aminek a nyomtatása amúgyis hónapokba kerülne. Pethő utánajárt a rendszer működésének, megkérdezte a rendszert fejlesztő céget és az azt használó más rendőrkapitányságokat, amiből persze kiderült, hogy a washingtoni örsnek csak az export mappát kellene alaposabban megnéznie, hogy rátaláljon az egyébként közadatokat tartalmazó táblázatra. Ez alapján jött létre a cikk és egy külön adatvizualizáció térképpel, és az érzékelők működésének bemutatásával.
*****
Az esemény megvalósulását a K-Monitor támogatta az Adatozz okosan projekt (NCTA támogatott) keretében.