Ha voksolni lehetne arról, hogy melyik legyen az évtized legrémesebb buzzwordje, alighanem a big data fölényesen nyerne. Mi is a big data? Paradigma, módszertanok összessége? Több vagy kevesebb annál? Erre alighanem csak a jövő fogja megadni a választ, azt viszont nagyon is érdemes tudni, hogy ki az, aki nem csak dobálózik a big data fogalmával és ki az, akinek ugyan lövése nincs az egészről, irkál meg előad a témában bújtatott marketing részeként.

Nemrég láttam a LinkedIN-en, hogy egy önmagát adatvarázslónak aposztrofáló cég megjelentetett egy blogposztot, nulla hozzáadott értékkel, ami önmagában tényleg egy büdös szót nem érdemelne. Az viszont már igen, hogy az egyik hazai nyelvtechnológiai cég vezetője kommentelte, ezek szerint valamiféle jelentőséget mégiscsak tulajdonított neki, márpedig egy totálisan kókler poszthoz úgy hozzászólni, mintha az unikális tartalom lenne és nem bullshit, kicsit olyan, mintha a Napiszarra mennénk fel önmagunknak barátnőt keresni.

Meg is fogalmaztam egy szép hosszú kommentet, majd inkább töröltem, mielőtt kommenteltem volna, hogy ne úgy jöjjek ki a dologból, mint a szőrszálhasogató tuskó.

A szóban forgó blogposzt az elején leszögezi, hogy bullshitmentes és marketingmentes lesz, ehhez képest gyakorlatilag csak azt tartalmaz, abszolút nulla hozzáadott értékkel. Felmerült bennem a kérdés, hogy hogyan állapíthatja meg valaki a másikról, hogy valóban otthon van-e azon a területen, amit újabban adattudománynak is szokás nevezni, ha ő maga nem ért hozzá mélyen. Röviden: hogyan különböztethető meg a profi a kóklertől?

Hirtelen az jutott eszembe, amikor legutóbb egy számítógépes nyelvészeti konferencián több workshop is volt, ahol több csapat is bemutatott olyan megoldásokat, amiknek a lelkét főként valamilyen gépi tanuláson, ide kapcsolódó mintázatfelismerésen, és rokon adatbányászati módszereken alapuló technikák adták.

Ahogy Linus Torvalds mondta, „Talk is cheap. Show me the code”, érdekelt, hogy egy-egy nyelvi feldolgozónál milyen algoritmusokat alkalmaztak, kombináltak, milyen programozási nyelvet használtak a megvalósításához. Így hát bele is kérdeztem, de nem nagyon tudták megmondani, mert hát „azt a Béla tudja”, a Béla meg persze, hogy nem volt ott. Ez persze nem jelenti azt, hogy ezek a kutatócsoportok hülyékből állnának, messze nem. Csak azt, hogy persze, van egy projektvezető, egy ötletember, egy elméleti arc és a csapatban persze valahol van egy ember, aki leprogramozza, amit kisütöttek, viszont a csapat úgy is képes hatékonyan működni, hogy nem lát bele minden tag minden apró részletbe, ami persze így normális, ettől csapat a csapat. Ugyanakkor mégis közösen le tudnak tenni az asztalra egy bizonyítottan újszerű és működőképes szoftvermegoldást.

Merőben más az az eset, amikor valaki gyakorlatilag bújtatva, de előadja magát fene nagy adatelemzőként, ismer is néhány látványos eszközt, de a tényleges tudás fájdalmasan hiányzik. Márpedig az ilyen nagydumás tahókkal alaposan el lettünk eresztve, akik végülis kifogták a szelet a big data vitorlából. Van-e esélye egy céges döntéshozónak megállapítani, hogy ha adatelemzésről vagy big data módszerek bevetéséről van szó, akivel tárgyal, kókler vagy profi? Az én véleményem, hogy határozottan van.

Mindenek előtt, ahogy más területen is, félre kell tenni azt a hiedelmet, hogy aki bele mer kérdezni egy-egy módszer mikéntjébe, az kötekedni akar, mert nem. Ha hangzatos terminusokkal találkozik akár egy újságíró, akár egy cégvezető, hirtelen kérdezzen bele és ne hagyja, hogy a szakértő úr valami kommunikációs csellel megkerülhesse a választ. Persze, persze, ha nem tudja a választ, az lehet azért is, mert esetleg nem érti jól vagy izgul, de ha már sorozatban fordul elő, az nem sok jót sejtet. Amit pedig a profiktól megtanulhatunk, hogy nem félnek azonnal rávágni, hogy „nem tudom”, ha valamit nem tudnak, jó esetben azt viszont igen, hogy milyen irányban lenne érdemes elindulni, hiszen a profizmus megköveteli, hogy az illető ismerje behatóan annak a szakirodalmát, amiről beszél.

A másik, hogy a kóklerek gyakran használnak igencsak látványos, már-már szemet gyönyörködtető ábrákat, dobbantanak demókat, arra viszont már nem tudnának szakmailag elfogadható választ adni, hogy miért pont azt az eszközt használják, amit. Lehet ilyen az SPSS, R, Rapidminer és számos más szoftvercsomag vagy programozási nyelv, ami viszont fontos, hogy a kókler azt használja, amit meg tudott tanulni, a profi pedig azt, ami egy-egy adott feladat megoldásához a legideálisabb!

Nem világos, hogy mitől függ az, hogy ki milyen módszertanról milyen véleményt alkot, viszont a profi egy-egy projektben tudatosan kiválasztott módszertant követ, amitől nem fél eltérni, ha az ésszerűség azt diktálja. A kókler kevésbé tervez, ahogy esik, úgy puffan.

A profik folyamatosan figyelnek a visszajelzésekre egyrészt önmagukkal, másrészt a megoldandó feladattal kapcsolatban is, míg a kóklerek csak ritkán, esetleg semennyire. Elcsépelt, de nem is tudnék olyat, ami jobban illik ide: „Az a baj a világgal, hogy a hülyék mindenben holtbiztosak, az okosak meg tele vannak kételyekkel.” Nem ritkán szivesen írnék egy témáról, csak aztán belegondolok, hogy elolvasnék még előtte jópár könyvet, hogy véletlenül se kerüljön bele kontárság, aztán végül nem írom meg. Sajnálatos, de igaz, hogy a többség, aki megszólal egy-egy témában, nem így működik, kis lexikális tudással pedig csak a baromság dől hozzáadott érték helyett. Bizonyára voltatok már úgy, hogy egy téma szakértőjétől meghallgattatok egy előadást, aztán a végére megérett az a gondolat, hogy „Ezt az előadást én is tarthattam volna, holott nem is vagyok szakértő. Hihetetlen, hogy aki hivatásszerűen foglalkozik vele, ezzel keres!?”

Ismét csak azt mondom, hogy a jó kutató ismérve többek közt az, hogy képes holisztikusan is szemlélni egy-egy feladatot, míg a kevésbé tehetséges egy bizonyos fogalomrendszerbe bezárva él. Azt vettem észre, hogy ezzel sajátos módon együtt szokott járni az, hogy a kókler fájdalmasan a mainstreamet majmolja, míg a profi tud és mer teljesen máshogy gondolkozni, hiszen attól profi, jelentős értéket teremteni igazából így lehet. Tény, hogy sokszor nem a téma véleményvezérei a legjobb szakértők, csupán a legismertebbek és nagyon gyakran sokkal sikeresebbek, mint akik tényleg tudnak. Egészen addig, amíg meg nem változik a környezet, aztán bambi. Egy gyökeresen megváltozó környezetben ugyanis a profi képes gyorsan váltani, egy kóklernek viszont ez annyi idejébe telik, amennyi idő alatt a cég becsődöl háromszor. A piaci környezet viszont nem változik gyakran. Legalábbis nem eléggé gyakran, sajnos.

Végül meg kell jegyeznem, van benne valami bizarr báj, hogy van valaki, aki mondjuk egy-egy, tudományos szaksajtóban megjelenő hírt vagy akár csak idézetet valamilyen formában elsőként elhozza hazai közegbe például egy Twitter-bejegyzésként, aztán az egy lap megírja félreértelmezve, megint másik helyen megjelenik már fél fokkal normálisabban, de úgy írnak róla, mintha ők találták volna. Az egyik legnagyobb ismert fehérkalapos hekker mondta nekem, amikor befejezte a blogolást annak kapcsán, hogy miért tészi’ le a lantot, az hogy tele lett vele a bakancsa, hogy az ő blogjáról lopkodják át a híreket azok a szerzők, akik még ahhoz is gyökerek, hogy saját maguk kövessék a nemzetközi sajtót és jó esetben megnézik az eredeti forrást is. Azt hiszem, hogy átérzem a dolgot.

Hölgyeim és Uraim! Azért azt ne felejtsék el, egy idézet eredete, első elfordulása sokszor nehézkesen azonosítható, az viszont már sokkal könnyebben, hogy például magyar szövegkörnyezetbe ki idézte először. A posztot egy korábban általam már idézett, Dan Arielynek tulajdonított idézetével zárnám:

Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it...

Ami a művelődnivalót illeti, a technikai jellegű irodalmat ismeri, az tudja, hogy hol keresse, mindenki másnak bevezetőként a posztban mutatott könyveket tudnám javasolni.