2015. május 2., szombat

kvadruplavé

Mostanában a Big Data kapcsán a 3 V a sláger (Volume, Velocity, Variety - azaz mennyiség, sebesség és sokféleség), viszont a negyedikről rendre elfeledkezünk.
Na jó, néhányan megemlítgetik.
A Nagy Adat problémakörének azonban fontos - sőt, talán a legalattomosabb - eleme a forrásként felhasznált adat igazságtartalmába vetett hit (ezt a gondot hangsúlyozza az angol név: Veracity).
Amit a neten találunk, gyakran kételkedés és ellenőrzés nélkül fogadjuk, ténynek tekintjük, megtanuljuk, és a tudásunk (?) erre épül. Csakhogy ma sokkal könnyebb silány, hamis, a tényekkel ellentétes tartalmat előállítani, mert a Web2 óta boldog-boldogtalan állíthat elő tartalmat, erodálódtak a minőségbiztosítási rendszerek még ott is, ahol pedig valaha léteztek.

A jelenséget egy mai pompás példa illusztrálja.
Ismerősöm megosztott egy bejegyzést a japán cseresznye (nihon sakura) virágzásáról. Gyönyörű képek, lenyűgöz, elraktározom a fejemben, na, így néz ki egy igazi cseresznyevirágzás. Korábban már láttam róla képeket, na de ez kicsit más, sokkal szebb, mindenhatóbb, ez az igazi. Megjegyzem, megtanulom; fejemben ezek a képek fogják mostantól megmásíthatatlan, 100%-os erősséggel az echte japán cseresznyét jellemezni.
Örömömben beleolvasgatok a kommentekbe, hadd lássam mások lelkes reakcióit.
Minden rendben, amíg az egyik tudálékos meg nem jegyzi, hogy ez bizony lilaakác, nem is hasonlít a cseresznyéhez. Zsigerből lehülyézem magamban, felébred bennem, hogy lám, egy buta amatőr, miért nem tudunk egyszer kussolni végre, amikor honnan tudhatná egy magyar, hogy milyen is az igazán gyönyörű, 144 éves cseresznye, nyilván lelilaakácozza, mert mindenképpen valami ismert helyihez akarja hasonlítani, ahelyett, hogy nyitottan fogadná az újdonságot. Egy másik kommentelő kapásból, de azért kulturáltan helyreigazítja, elárulva, hogy a japán cseresznye dísznövény, nem hoz termést és a többi. Hamarosan beindul az intellektuális adok-kapok, többen foglalnak állást a lilaakác mellett, mások a cseresznyére esküdnek; a dolgok elfajulása kicsit már elbizonytalanít, mert lehet ugyan, hogy sok a hülye, de azért ennyire mégse valószínű.
Egyre erősebb bennem a gyanú, hogy az elsőre sima kép a víz felületén úszó olajfoltban tükröződő nyugodt égbolt visszfénye, és ahogy fodrozni kezdik, mindjárt zavaros.
Több belinkelt botanikai bejegyzés után valaki végre beilleszt egy hivatkozást az eredeti cikkre (boredpanda.com), ahonnan kiderül, hogy a szerző se cseresznyére (cherry), se akácra (acacia, glicine) nem hivatkozik, egyszerűen a botanikai nevet (wisteria) írja le, ami bizony a lilaakác. A képek és a részletes elemzés (kúszónövény, nem fa; a virága is más) egyértelműen bizonyítják, hogy a cseresznyevirágzásról szóló cikk bizony a lilaakác virágzását mutatja képekkel.
Szegény szerző összekeverte a dolgot, de én vagyok nagyobb bajban, mert nem vettem a fáradságot, hogy ellenőrizzem annak az adatnak a valódiságát, amely alapján fejemben a tudást (ez alkalommal majdnem téves vagy hamis tudást) felépítem.
Azt azért nem gondolom komolyan, hogy képesek lennénk az összes ténymorzsát valódiság, hitelesség szempontjából leellenőrizni, mert ha így tennénk, minden döntésünk életképtelenül nehézkes lenne.
A probléma ettől azonban még létezik, és minél nagyobb mennyiségű és komplexebb adatokra támaszkodunk, annál jobban meg kell fontolni, hogy oldjuk meg a feladatot.

Nem leplek meg, ha elárulom, én ismét Watsonra szavazok. Amikor Watson (például az Explorerben) több forrásból vesz elő adatot, ezeket értelmezi és rangsorolja, minden bizonyítékot értékel aszerint, mennyire jó eséllyel kínál a kérdésére felelő választ. Az esélylatolgatásban a hitelesség is szerepet játszik. Egy ilyen technológia képes jól megközelíteni a V-négyesfogat minden elemét; felkészíthető arra, hogy a megkérdőjelezhető hitelességű adatoknak ne tulajdonítson kapásból akkora jelentőséget, mint a leellenőrzött, lektorált, minőségi forrásoknak.

A mennyiség és sebesség csupán skálázási probléma: több az adat és gyorsabban kell elemezni? Nagyobb, gyorsabb gépet neki!
De a változatosság és igazságtartalom már paradigmaváltást igényel, mert a módszereinket újakkal kell kiegészíteni, hogy a hiányos, zajos, strukturálatlan, megbízhatatlan forrásból származó adatokból is tudást nyerhessünk ki.

Ha ezt elmulasztjuk komolyan venni, nem csak a döntéseink lesznek majd éppoly pontosak, akárha dobókockára hagyatkoznánk; még az a ciki helyzet is előfordulhat, hogy Japánban járva ottani ismerőseinket lilaakác alá hívjuk szakura hanamira.