bardóczi ákos @post.r

Szabad szavas turkáló

bardóczi ákos2016. július 11. 15:57

Adatelemzéssel azonosították a világirodalom legnagyobb műveinek közös jellemzőit

Big Data Universe 2016 Nextent adatelemzés big data predikció természetes nyelvfeldolgozás szentiment elemzés nyelvtechnológia

Egy nemrég megjelent publikáció szerint, amiben novellák, regények és más irodalmi művek ezreit elemezték főleg az ún. szentiment analízis módszerére támaszkodva megállapították, hogy a világirodalomban kortól és kultúrától függetlenül mi tett egy-egy irodalmi alkotást klasszikussá.

Maga Vonnegut már az 1990-es évek derekán feltételezte, hogy a legnagyobb műveknek lehetnek közös jellemzői, kérdéses volt, hogy ezt sikerül-e valaha kimutatni kvantitatív módszerekkel. A kutatók arra jutottak, hogy a világirodalom legnagyobb műveiben maga a sztori – ha jól értem – bizonyos emocionális íveket tesz meg, ennek megfelelő érzetek sorozatát kiváltva a befogadóban függetlenül attól, hogy azt olvassa vagy például filmen nézi. Összesen hat ilyen patternt sikerült azonosítani, a teljes cikk [The emotional arcs of stories are dominated by six basic shapes ] nem éppen könnyed olvasmány, barátságosabb változata a MIT Tech Reviewban jelent meg nemrég.

Személyes véleményem, hogy az adatelemzés módszerei már nem is olyan kevés ideje rendelkezésre álltak ugyan, valójában csak néhány évvel ezelőtt, a cloud computing általánossá váltásával vált elérhetővé olyan mértékű számítási kapacitás elérhető áron, ami elhozta azt, amit ma big data-érának nevezünk.

Ebbe a világba engedett egy mélyebb, messzemenően szakmai betekintést a közel két hónappal ezelőtt megtartott Nextent által támogatott Big Data Universe 2016 konferencia Budapesten, az előadások közül három, egymástól nagyban eltérő felhasználási területet emelek ki példaként.

Ma már gépi tanulást használó algoritmusok segítik az informatikai biztonsági incidensek kezelését, ami természetesen csak akkor lehet hatékony, ha az valós időben történik. A magatartás-elemzésen alapuló behatolásérzékelő Blindspotter ha átlagosan 7 percenként ad ki riasztást szokatlan felhasználói aktivitás miatt, nyilvánvaló, hogy lehetetlen kivizsgálni ezeket külön-külön annak megállapításához, hogy valódi támadásról van-e szó.

Egyre gyakrabban van szükség big datából átvett módszerek bevetésére a nyelvtechnológia területén is. Egyre gyakrabban felmerülő igény egy-egy óriáscég vagy például politikai párt számára, hogy képet kapjon azzal kapcsolatban, hogy hogyan is változott a tömeg velük kapcsolatos megítélése, aminek kézenfekvő adatforrása az interneten adott időintervallumban keletkezett, főként közösségi médiából származó szöveges felhasználói tartalmak elemzése. A pozitív és negatív jelzők megkülönböztetése már rég nem jelent problémát a nyelvtechnológia számára, viszont ettől még a feladat bőven rejt magában buktatókat.

Ha elfogadjuk azt a tézist, hogy a big data valódi paradigmaváltás olyan szempontból is, hogy olyan mennyiségű információ kezelésére van szükség, amire a klasszikus módszerek nem alkalmasak, mik lehetnek azok, amik viszont igen? A megoldandó probléma jellegétől függően előfordulhat, hogy a legkomolyabb relációs adatbázis-kezelő rendszerek sem képesek elfogadható futásidő alatt annyi információt kezelni, amennyit szükséges. Itt lépnek képbe a gráf-adatbázisok.

Ahogy írtam, ha átlagosan 7 percenként fut be egy-egy riasztás, esélytelen lenne mindről felelősségteljesen megállapítani, hogy valódi támadási vagy támadási kísérlet-e vagy egyszerűen csak akkor lefutó szkript miatt jelenik meg egy-egy anomália. Viszont közel sem annyira könnyű megállapítani automatizáltan, hogy szokatlan felhasználó magatartásról vagy ún. robotról van szó.

A Balabit kutatói az ember természetes aktivitásának időbeli eloszlását veszik alapul.

Számításba vették, hogy nincs olyan alkalmazott, amelyik folyamatosan dolgozna, míg szkriptek közt természetesen lehetnek olyanok, amiknek folyamatosan vagy bizonyos, pontos időközönként futnak le. Ez pedig markerként használható annak megállapításához, hogy Valamilyen tevékenység közvetlenül emberi eredetű vagy egyszerűen kódfuttatás eredménye.

A robotdetektáló modul második fontos eleme ugyancsak az időre, mint adatforrásra támaszkodik. Egy húsvér felhasználó ha periódusonként vagy rendszeres időközönként is csinál valamit, azt időben nem annyira pontosan kezdi és fejezi be, mint egy robot, ezen kívül a tevékenység időbeli eloszlása mindegy ujjlenyomatként szolgál a felhasználó – vagy éppenséggel robot – azonosításához.

Big Data Universe 2016 Nextent adatelemzés big data predikció természetes nyelvfeldolgozás szentiment elemzés nyelvtechnológia

Röviden szólva, a Blindspotter időben riasztást tud kiadni olyan esetben, ha az emberitől eltérő aktivitást észlel a hálózat valamelyik felhasználójánál.

Big Data Universe 2016 Nextent adatelemzés big data predikció természetes nyelvfeldolgozás szentiment elemzés nyelvtechnológia

A Neticle szentiment elemzéssel foglalkozó előadásában a hallgatóság megismerkedhetett a műfaj 10 szabályával. A szentiment elemzés egyszerűsítve annak gép feldolgozása, hogy egy-egy adott szöveg milyen érzelmi töltést tükröz, ami közel sem olyan egyszerű, mint amilyennek tűnik. Ugyanis a gép számára alapvetően teljesen strukturálatlan adathalmazt, az emberi szöveget kell elemezhető egységekre bontani, azokat kontextusában vizsgálni. Több buktató viszont csak a tényleges elemzés közben derül ki, például egy 2013-as kutatásban mutatták ki, hogy a felháborodott, negatív hangvételű, dühös vélemények határozottan jobban terjednek mint a neutrális vagy pozitív hozzászólásokban hordozott üzenetek.

Hasonlóan kihívást jelent megtanítani a gépet az irónia kezelésére és osztályozására.

Big Data Universe 2016 Nextent adatelemzés big data predikció természetes nyelvfeldolgozás szentiment elemzés nyelvtechnológia

Viszont a jelzős szerkezetek előtt álló negáció azonosítása mára már minden nagyobb nyelvben megoldott.

Big Data Universe 2016 Nextent adatelemzés big data predikció természetes nyelvfeldolgozás szentiment elemzés nyelvtechnológia

Nem meglepő módon a gépi alapú elemzés pontosságát nagyban befolyásolja, ha előre tudott, hogy mit is kell elemezni. Így például olyan kifejezés, ami más helyen előfordulva pozitív töltésű lenne, adott szövegkörnyezetben vagy topikban gyakorlatilag nem hordoz semmilyen töltést.

Big Data Universe 2016 Nextent adatelemzés big data predikció természetes nyelvfeldolgozás szentiment elemzés nyelvtechnológia

A szövegbányászok egyetértenek abban, hogy ma már nem csak bizonyos írásművek szerzőinek azonosításában lehet segítségükre a nyelvtechnológia, de bizonyos folyamatok akár elő is jelezhetők a hagyományos- és közösségi médiában megjelent tartalmak tömeges elemzésével. Így például már egy 2011. szeptemberében megjelent Nature-cikk is foglalkozott azzal, hogy akár az arab tavasz is elvben előre jelezhető volt, ahogy az az előadásban elhangzott.

A nyelvtechnológiai megoldásokon keresztül azon kívül, hogy elemezhető a múlt és előre jelezhető bizonyos pontossággal a jövő, a nagyobb nyelvek esetén jobb szövegek előállításában is segítséget jelenthet mindenkinek, aki ezzel foglalkozik. Ilyen alkalmazások például a Textio azzal, hogy szinonimákat ajánl az íródó szövegben vagy éppen a Toneapi ami az elkészült szöveg hangulati jellemzőivel kapcsolatban képes egy elemzést adni az újságírók, szerkesztők kezébe.

Az idei Big Data Universen elhangzott előadások diasorai itt érhetők el.

UPDATE: gráfadatbázisokról hamarosan egy másik posztban

Pontosabb, bővebb magyarázat? Kapcsolatfelvétel? Kattints ide!

0 Tovább

bardóczi ákos2016. április 27. 17:32

Big data, pornóipar és a trollok

FindFace pattern recognition mintázatfelismerés big data gépi tanulás arcfelismerés neurális hálózat privacy cyberbullying Yegor Tsvetkov Mindig is azon a véleményen voltam, hogy többek közt azért rémesen szánalmas dolog siratni a magánszférát a kifogásolható adatkezelési gyakorlatot követő kormányzati szervek, na meg webes óriások miatt, mert nagyságrendekkel nagyobb annak a valószínűsége, hogy a felhasználót a saját hülyesége és az ezzel rendszerint együtt járó exhibicionizmusa kever majd bajba.

Alighanem emlékszünk még azokra a kémfilmekre, amikben a képernyőn pörögnek a pofák, majd egyszer csak hopp, megmondja a gép, hogy melyik terrorista van rajta. Ugyanis a hatékony arcfelismerés egy óriási fotóadatbázisban egyetlen átlagos fotó alapján 15 évvel ezelőtt is megoldhatatlan feladatnak tűnt a számításigénye miatt, holott már évtizedekkel korábban is rendelkezésre álltak azok az algoritmusok, amivel ez megoldható. Nem csak az egyre izmosabb és izmosabb szerverek, hanem a cloud computing, magyarosabb nevén felhő alapú számítástechnika aztán elhozta azt, ami korábban csak a filmekben létezett. Az első olyan szolgáltatás, ami kép alapján hatékonyan tud keresni és széles körben alkalmazták is, a Google Képkereső volt, az utópia hirtelen valósággá vált.

FindFace pattern recognition mintázatfelismerés big data gépi tanulás arcfelismerés neurális hálózat privacy cyberbullying Yegor Tsvetkov

A Google persze nem hozta nyilvánosságra, hogy milyen gépi tanuláson alapuló mintázatillesztő módszereket gyúrtak az algoritmusukba, azóta számos más mintázatfelismerő szolgáltatás vált elérhetővé kimondottan képek keresésére. Megjegyzem, mindegy, hogy például DNS-szekvenciákat, plágiumgyanus szövegeket, egy hatalmas hangadatbázisból beszédhangot vagy éppen képeket kell gépileg összehasonlítani azaz illeszteni, sokszor ugyanaz az algoritmus használható teljesen eltérő területeken, ami mégis befolyásolja, hogy melyik megoldás terjedt el a képek, azon belül is a képeken lévő arcok felismerésére alapvetően két tényezőtől függött
- nyilván az alapján, hogy melyik a leghatékonyabb, nem csak pontosság, hanem elfogadható számításigény szempontjából
- a nyílt forráskódú megoldások közt melyiknek a konkrét, leprogramozott megvalósítása terjedt el – hiszen ezzel kapcsolatban gyűlhetett össze a legtöbb tapasztalat, ez volt a legjobban dokumentálva és így tovább

Képfelismerésről korábban már a combinós posztban, azt megelőzően pedig a legelőnyösebb és legelőnytelenebb szelfiket osztályozni képes posztban már írtam.

FindFace pattern recognition mintázatfelismerés big data gépi tanulás arcfelismerés neurális hálózat privacy cyberbullying Yegor Tsvetkov

Még márciusban Maxim Perlin létrehozta a saját arcfelismerő szolgáltatását, a FindFacet ami egy teljesen átlagos, mobillal készült fotón lévő arc alapján dermesztő pontossággal képes megtalálni az archoz tartozó személyt a neten. Nos, azért nem a teljes neten, hanem az orosz facebook-ként is emlegetett VKontakte szolgáltatásban, ott viszont önmagában a profilképek alapján!

Néhány héttel ezelőtt Yegor Tsvetkov orosz fotós elindította a saját projektjét Your Face Is Big Data néven aminek a lényege az volt, hogy a metrón véletlenszerűen lefotózott személyeket azonosított a VK segítségével. A cikk angol magyarázata itt érhető el.

FindFace pattern recognition mintázatfelismerés big data gépi tanulás arcfelismerés neurális hálózat privacy cyberbullying Yegor Tsvetkov

Amire sem a FindFace szolgáltatás fejlesztője, sem pedig a fotós nem gondolt, hogy nem sokkal ezt követően egy 2chan kezdeményezésre trollok hada szállt rá a szolgáltatásra, majd halomra kezdte posztolni a különböző azonosított pornószínésznők személyes adatait. Ugyan próbálták a dolgot egyfajta morális mázzal leönteni, a net pszichológiáját kicsit is ismerők számára könnyen belátható, hogy a valós indíték a nettó nőgyűlölet volt.

FindFace pattern recognition mintázatfelismerés big data gépi tanulás arcfelismerés neurális hálózat privacy cyberbullying Yegor Tsvetkov

A tanulságot letudhatnánk röviden annyival, hogy ezt a kockázatot be kell vállalni, ha a pornóiparban helyezkedik el valaki, hiba lenne elbagatellizálni azt a kockázatot, ami annak köszönhető, hogy mindenki számára elérhetővé vált egy ennyire hatékony technológia.

A laikus felhasználók számára a Kaspersky Lab állított össze egy posztot a szolgáltatás pontos működésével kapcsolatban, ami azért nagyon fontos, mert a news outlet oldalakon megjelent cikkekkel ellentétben a Kaspersky blogja tisztázza, hogy mi jelent védelmet és mi nem, mikor kell egy felhasználónak tartania tőle és mikor nem, míg a Globalvoices inkább magát a jelenséget járja körül.

FindFace pattern recognition mintázatfelismerés big data gépi tanulás arcfelismerés neurális hálózat privacy cyberbullying Yegor Tsvetkov

1-2 évvel ezelőtt már jelent meg cikk azzal kapcsolatban, hogy a Facebook egyre nagyobb hatékonysággal képes felismeri egy felhasználót akár olyan fotón is, amin nem látszódik a felhasználó arca, csak más testrésze. Ez persze nem jelenti azt, hogy a Facebook a nagyközönség számára elérhetővé is tenne egy olyan funkciót, ami ilyenre lehetőséget ad, jól mutatja, hogy a nagyon-nagyon sok adat alapján úgymond nagyon okossá tud válni egy gép.

Nem titok, hogy a FindFace szolgáltatás lelkét egy hatékony neurális hálózaton keresztül tanuló algoritmus adja, nem világos, hogy mindezt hogyan turbósították, ahogyan az sem, hogy a VKontakte hogyan engedélyezhetett egyetlen külső szolgáltatásnak annyi API lekérdezést, ami a FindFacet ki tudja szolgálni.

Akit behatóbban érdekel, hogy a big data módszereket hogyan valósítják meg és alkalmazzák, legyen szó akár üzleti folyamatok optimalizálásáról, akár okoskütyükről, annak jó hír, hogy végre lesz Budapesten egy olyan konferencia, ahol olyanok adnak elő, akik nem csak beszélnek róla, hanem ténylegesen értenek is hozzá.

Senkit ne ijesszen el az, ha olyan fogalmakkal találkozik, amikről nincs pontos képe, az előadásokat figyelmesen hallgatva - rémes szóviccel élve - a kevésbé hozzáértők számára össze fog állni a kép. Akik már foglalkoztak big datával, ötletet meríthetnek és bővíthetik az szakmai tájékozottságukat.

Az idei program a Big Data Universe Conference oldalán tekinthető meg.

Képek: Yegor Tsvetkov, Kaspersky Lab

Pontosabb, bővebb magyarázat? Kapcsolatfelvétel? Kattints ide!

3 Tovább

bardóczi ákos2015. október 03. 18:53

Internet alkotta korlátok és az információs robbanás

Baj-e, ha sok az információ? Nemrég egy konferencián egy előadó azzal vezette fel az előadását, hogy ez az információs túlterhelés szerinte mekkora baromság, mert amikor ő egyetemre járt, akkor is sokkal több információ volt elérhető, mint amennyit meg lehetett volna emészteni, a könyvtárból pedig úgyis csak azt a két könyvet vette ki, amelyikre szüksége volt.

És alighanem senkinek a fejében sem fordult meg, hogy ez mekkora logikai mellényúlás. Az pedig pláne nem, hogy a pofa tényleg nincs tisztában a jelenség lényegével. Az információs robbanás okozta zajról már nagyon sokan cikkeztek, több évtizede foglalkoznak vele, hogy ennek azért lehetnek kiszámíthatatlan hatásai, mivel az evolúció erre nem készítette fel az ember agyát. A kapcsolódó technológiai szingularitásról nem is beszélve.

Szóval a naiv megközelítés szerint, ha sokkal több az információ, akkor is ki tudom válogatni azt, amelyik számomra releváns, érdekes, szükséges, azt használom, a többit pedig hanyagolom. Hol itt a baj? Ott, hogy minél nagyobb mennyiségű irreleváns információt kell kerülgetni, az annál több értékes energiát emészt fel fölöslegesen, az ember „információs áteresztőképessége” az érzékszervektől kezdve a kéreg alatti magvakon át az agykéregig minden részében, azaz a többlet információ feldolgozása korlátozott, leválogatása időt igényel.

Azzal, hogy több információ vált elérhetővé, mint bármikor a civilizáció történetében korábban, több tudományterületen is alaposan feladja a leckét.

Egyrészt a keresőmotoroknak hatékonyan kell túrniuk az egyre felmérhetetlenebb mennyiségű információban, ami egyre nagyobb IT infrastruktúrát igényel, fejlődés ide vagy oda. Annyira megszoktuk, hogy netes keresőket használni ingyenes, hogy el sem tudunk képzelni egy olyan kort, amikor már nem az a kérdés, hogy kell-e érte fizetni, hanem az, hogy mennyit, ha a keresés olyan számításigényessé válik, hogy az alatta lévő számítógépes infrastruktúra nem tartható fenn a klasszikus üzleti modellekkel. Ha valakinek túl bizarrnak tűnne a gondolat, megjegyzem, hogy már most is több adattárház van, aminek a használata, az abban való keresés előfizetéshez kötött. Másrészt korábban az is valószerűtlennek tűnt, hogy a Youtube-on átugorhatatlan hirdetések jelenjenek meg majd valamikor. Márpedig megjelentek és vannak országok, ahol a videó előtti hirdetés nem néhány másodperc, hanem egy tévéreklám hosszúságú és át sem lehet ugrani.

A netes keresés és relevancia kapcsolata több, nagyon ütős teoretikai kérdést vet fel annak fényében, hogy bizonyítottan a döntéseinket befolyásolja az, amit látunk, ha keresünk valami után. Ennek az egyik legproblematikusabb esete például az, ha valaki valamilyen gyógyszerre, hatóanyagra vagy egyáltalán bármi olyanra keres, amivel kapcsolatban inkább az orvosával kellene megkonzultálnia. A top találatok felületesek és pocsék minőségű tartalomra mutatnak, rosszabb esetben veszélyes baromságok. A jelenség oka nyilván az, hogy több kattintás érkezik arra az oldalra, ami érthető, az pedig nyilván nem feltétlenül a legszakszerűbb információforrás.

Ami még az információs robbanást illeti, szokás mondani, hogy milyen jó dolog is az, hogy ma már a bolygó lakosságának egyre nagyobb része fér hozzá az internethez. Igencsak retrográdnak fog tűnni, amit írok, de ez még globálisan nézve sem feltétlenül igaz. Ugyanis a nagyon sok felhasználó által feltolt nethulladék, mint felhasználói tartalom, a felhő-alapú világban végülis ugyanazokat az adatközponti infrastruktúrákat terheli, amin mondjuk a kutatók a legfontosabb tudományos híreket megosztják egymással, ami, ahogy írtam, egyre költségesebb a tárolás és a kereshetőség számításigénye miatt egyaránt. Ennek eredője pedig az lehet, hogy számos szolgáltatás, amiért most még el sem tudjuk képzelni, hogy fizetni kelljen a neten, hoppácska, egyszer csak fizetős lesz. Oké, nem azok miatt, akik a macskájuk elléséről képesek feltolni 200 képet, de miattuk is. A levét viszont pont nem ők fogják meginni, ugyanis a webes óriások nagyon jól tudják, hogy kikkel lehet fizettetni és kikkel nem, mely államokban alkalmazható valamilyen módon fizet(tet)ős modell és mely államokban kell a szolgáltatást továbbra is teljesen ingyenesen biztosítani, mivel az ottani végfelhasználók egyszerűen nem tudnák megfizetni, a netszolgáltatókon pedig nem feltétlenül lehet leverni például az átvitt adatmennyiség árába építve.

De jó is, hogy mindenki elérni ma a netet. . . Előbb kifejtettem, hogy ez szerintem még globálisan sem igaz. Ha pedig személy szerint nézem, nekem aztán pláne nem. Nemrég egy konferencián Uj Péternek volt pár gondolata, amit most átdolgozok. UP beszélt arról, hogy ami a netet illeti, túlestünk a ló másik oldalára, az internetben az volt sokáig a szép, hogy a teljes egyenlőség miatt mindenki kifejthette és ami a lényeg, el is juttathatta széles körhöz a véleményét, nem csak eljuttathatta, de el is jutott. Mára viszont a fagyi visszanyalt. Mindenkinek van véleménye, annak a tömegesen manipulálható-idomítható tömegnek is, amelyik jobban tenné, ha kussolna, a zajban egyre nehezebb meghallani az értelmes véleményt. Ha belegondolok, személy szerint nekem mondjuk tizenöt évvel ezelőtt, amikor még általános iskolás voltam, a netem lassú volt és drága, de bizonyos értelemben ezerszer jobb közeg volt. Persze, nyilván akkor is volt minden baromság, voltak hülyék, uszítható tömegek, trollok, bűnözők, de ami nagyon fontos, hogy nem ennyi!!!

Már emlegettem a Christakis Kapcsolatok hálójában, ezen kívül Cialdini Hatás című könyvét, ahogy Csermely Péter A rejtett hálózatok ereje könyvét szintén. Ha valaki a három közül az egyiket végignyálazta, akkor tisztában van vele, hogy ha tetszik, ha nem, nem vonhatod ki magad teljes egészében az alól a hatás alól, amit az vált ki, hogy Csaksimándzsesszikavagyok Osztő posztolgat a Facebookra emberfeletti helyesírási hiba/sor sebességgel.

Amikor valamilyen társadalmi vita kiéleződik, többször felmerül, hogy hogyan kerüljük el az idegesítő ismerősök tartalmait, megosztásait, nyilván a legésszerűbbnek tűnő lépés az, ha töröljük az ismerőseink közül a tagot és le van a gond vagy éppenséggel elrejtjük az összes általa posztolt tartalmat, ha ez a szolgáltatásban lehetséges. A Facebookon például igen.

A Facebook kutatói nem keveset tettek azért, hogy egyre inkább olyan tartalmak kerüljenek a felhasználók elé, ami a legnagyobb valószínűséggel érdekli is őket, ami többé-kevésbé működik is, az más kérdés, hogy vélhetően vissza is élnek azzal, hogy néha pedig pont ettől a szabálytól térnek el meglehetősen változatos módon. Anarki friss felzárkóztató cikke a témában erre. Én az összes közösségi szolgáltatásban kizárólag azokat veszem fel kontaktnak, akiknek a tartalmai érdekelnek, a Fészen pedig évek óta be sem lehet jelölni ismerősnek. Ezt bárki megteheti, aki nem akar jelentős mennyiségű időt elpazarolni azzal, ami a naponta sokszor néhány tizedmásodpercből adódik össze, amikor görgeted a hírfolyamot és pillanatok alatt kell döntened, hogy érdekel, azaz továbbolvasod vagy sem. De ha nem olvasod, az is idő, mivel időt fordítottál arra, hogy eldöntötted, hogy nem fogod olvasni. Nos, ha valaki túltolja azt, hogy megválogatja, kit vesz fel ismerősnek, ennek a finnyásságnak alighanem szintén megvannak a maga veszélyei. Például az, hogy ha eleve kézzel válogatom össze, hogy engem mi érdekel, bezárhatom magam egy olyan tematikus vagy fogalmi keretbe, ami miatt kisebb valószínűséggel zuhannak elém olyan információk, amik nem tartoznak ugyan szigorúan ahhoz, ami az engem érdeklő információk köre, de a szemléletmódon formálásához jól jönnének, mégsem érnek el, mivel kiszorítottam őket így nem fogok róluk értesülni.

A közösségi webes szolgáltatások tipikus életciklusa és a rajtuk található posztok nívója közti párhuzam egyenesen bájos. Akár iWiW, akár Facebook, akár LinkedIN, a felfutásakor mindig elit, cool, értékes, később valamivel slamposabb, a populáris baromságokat terítő felhasználók beszűrődésével az egész szolgáltatás úgymond olyanabb lesz, majd eljön az a szakasz, amit több közösségi szolgáltatás annyira nem tudott kezdeni, hogy konkrétan belehalt, azaz amikor annyi nethulladékot kell kerülgetniük a felhasználóknak, hogy inkább hagyták az egészet a fenébe. A LinkedIN Pulse eredetileg nem volt egy rossz ötlet, ez az a felület, ahol hosszabb posztokat tehet közzé bárki, egy szakmai témában. A probléma éppen azzal van, hogy bárki. És a dolog láthatóan kezd elkurvulni.

Persze, számos rendszerben éles eszű algoritmusokon túl a felhasználói értékelések is befolyásolják, hogy egy információ mennyire előkelő helyen jelenjen meg, több szolgáltatásban ha túl sok negatív feedbacket kap egy poszt vagy komment, eltűnik, míg ismerek olyan szolgáltatást is, ahol ha egy felhasználó posztjai összességében túl sok negatív visszajelzést kapnak, a rendszer szépen kizárja a felhasználót. Nem a felhasználási feltételek konkrét megsértése miatt, hanem emiatt, ez a szolgáltatás működésének egy szerves része. Viszont nyilván, nem sok szolgáltatás merné ezt a policyt bevezetni.

Szóval ami az információ forradalmát illeti, lesznek gondok bőven, több síkon is.

Komoly verseny folyik azok közt a szolgáltatások közt, amik arra szakosodtak, hogy minél inkább testreszabottan, minél kevesebb idő alatt, minél több releváns információt tálaljanak a felhasználóknak, közülük több, igencsak jó hatásfokkal, nyelvtechnológiai és mesterséges intelligenciában alkalmazott módszerek alapján a felhasználók olvasási szokásaihoz igazítva az ajánlgatott cikkeket. Azaz sokkal többről van szó, mint egyszerű híraggregátorokról vagy curated contentről.

A kategória egyik zászlóshajója a Flipboard ami – hogy-hogynem – nekem most pont olyan cikkeket ajánlgat, amik az információs robbanással és a felhasználó érdeklődésének megfelelő híreket válogató szolgáltatásokkal foglalkozó híreket dobál fel ezekben a percekben. A regisztráció után főkategóriák kiválasztása után alkategóriák nyílnak meg, amiken belül további alkategóriák tárulnak fel és így tovább. Az érdeklődési körök kijelölésénél tehát eleve a kategórián kívül az al-al-al-kategóriákat is figyelembe veszi majd a rendszer, amikor előállítja a személyes falunkat.

A Prismatic hasonlóan zavarba ejtően okos jószág. Ugyanis a kategóriák kiválasztása után folyamatosan figyeli, hogy milyen hírekre kattintottunk, mennyit időztünk ott ténylegesen, ennek megfelelően tanulja az olvasási szokásainkat és néhány óra használat után már-már félelmetes, de csak olyan cikkek fognak előtűnni, amik valóban érdekelnek.

A Nuzzel és több, kizárólag mobilon elérhető személyes newsfeed alkalmazás egyre jobban és jobban találja el a felhasználó ízlését, még ha tökéletesek nem is lesznek soha – vagy – ahogy előbb emlegettem, esetleg nem zárjuk tudattalanul magunkat egy olyan fogalmi keretbe, ahonnan már kevésbé látunk ki, pont azért, mert direkt vagy indirekt meghatározzuk, hogy mi érdekel ezzel viszont azt is, hogy mi nem.

Ami még egy rendkívül komoly kérdést vet fel, hogy ezek a szolgáltatások nyelvcentrikusságukon keresztül hosszú távon milyen hatást fejtenek ki, mivel a tartalmak terén jóformán csak angol nyelvű tartalmak rúgnak labdába. Jól tudjuk, hogy a nyelv és a kultúra szorosan összefügg. És ahogyan a Yandex Key-el foglalkozó cikkben írtam mellékszálként sokszor nagyon keményen izolál is kultúrákat. Valamilyen hülye animével büntettük magunkat egy ismerősömmel, aztán felvetette, hogy azért érdekes, hogy a japók mennyi mindent máshogy értelmezhetnek és belegondolva, ha jelentősen kevesebb inger ér minket a távolkeletről, abból a mentalitásból vagy konkrét tudásból semmit sem tudunk átvenni, sokkal kevésbé lesz közösségi az a tudás egy nemzetközi csapatmunkában, ami sokkal inkább közösségi és magasabb szintű lehetne tudva, hogy ezt a net technológiailag elvben lehetővé teszi. De például van tősgyőkeres moszkvai, Moszkvában élő ismerősöm, akinél rákérdeztem, hogy hogyhogy csak olyan veszett régi képei vannak fenn a VK.com –on, kevésbé ismert nevén VKontakte-n. Mire mondta, hogy nem használja már ezer éve, amikor ott a… na vajon melyik?

Rendszeresen repkednek a közhelyek a globalizált világról, na meg arról, hogy az internet eltüntette a földrajzi távolságokat [ebben a formában mindkettő ortó nagy ostobaság], holott bizonyos, itt nem tárgyalt jelenségek miatt egyes szakadékokat az internet még mélyebbé tett, attól pedig nagyon messze van, hogy valóban maximálisan együtt tudjon működni az európai, a japán és a Dél-amerikai kutató – vagy bárki! – olyan módon, hogy egy adott feladat megoldásakor a megoldás közben egy-egy mentalitást adaptálnak abba a környezetbe, amiben a részfeladatok megoldása történik. A jelenség persze nem csak a kutatást érinti, hanem abszolút mindenkit, azért a kutatást hoztam példaként, mert talán ott a legkönnyebben értelmezhető a jelenség.

Egy könyvtárat meg lehetne tölteni annak az irodalmával, hogy az internet hogyan tette lehetővé azt, hogy emberek gondolkodjanak együtt, korábbi falak omoljanak le, azzal pedig szinte semmi nem foglalkozik, hogy mik azok a korlátok, amiket viszont épphogy megerősített.

Képek: fabiusmaximus.com, wikipedia.org, makemark.co.uk

Pontosabb, bővebb magyarázat? Kapcsolatfelvétel? Kattints ide!

0 Tovább

bardóczi ákos2015. szeptember 19. 13:20

Mitől szakértő a szakértő? Profi vagy kókler?

Ha voksolni lehetne arról, hogy melyik legyen az évtized legrémesebb buzzwordje, alighanem a big data fölényesen nyerne. Mi is a big data? Paradigma, módszertanok összessége? Több vagy kevesebb annál? Erre alighanem csak a jövő fogja megadni a választ, azt viszont nagyon is érdemes tudni, hogy ki az, aki nem csak dobálózik a big data fogalmával és ki az, akinek ugyan lövése nincs az egészről, irkál meg előad a témában bújtatott marketing részeként.

Nemrég láttam a LinkedIN-en, hogy egy önmagát adatvarázslónak aposztrofáló cég megjelentetett egy blogposztot, nulla hozzáadott értékkel, ami önmagában tényleg egy büdös szót nem érdemelne. Az viszont már igen, hogy az egyik hazai nyelvtechnológiai cég vezetője kommentelte, ezek szerint valamiféle jelentőséget mégiscsak tulajdonított neki, márpedig egy totálisan kókler poszthoz úgy hozzászólni, mintha az unikális tartalom lenne és nem bullshit, kicsit olyan, mintha a Napiszarra mennénk fel önmagunknak barátnőt keresni.

Meg is fogalmaztam egy szép hosszú kommentet, majd inkább töröltem, mielőtt kommenteltem volna, hogy ne úgy jöjjek ki a dologból, mint a szőrszálhasogató tuskó.

A szóban forgó blogposzt az elején leszögezi, hogy bullshitmentes és marketingmentes lesz, ehhez képest gyakorlatilag csak azt tartalmaz, abszolút nulla hozzáadott értékkel. Felmerült bennem a kérdés, hogy hogyan állapíthatja meg valaki a másikról, hogy valóban otthon van-e azon a területen, amit újabban adattudománynak is szokás nevezni, ha ő maga nem ért hozzá mélyen. Röviden: hogyan különböztethető meg a profi a kóklertől?

Hirtelen az jutott eszembe, amikor legutóbb egy számítógépes nyelvészeti konferencián több workshop is volt, ahol több csapat is bemutatott olyan megoldásokat, amiknek a lelkét főként valamilyen gépi tanuláson, ide kapcsolódó mintázatfelismerésen, és rokon adatbányászati módszereken alapuló technikák adták.

Ahogy Linus Torvalds mondta, „Talk is cheap. Show me the code”, érdekelt, hogy egy-egy nyelvi feldolgozónál milyen algoritmusokat alkalmaztak, kombináltak, milyen programozási nyelvet használtak a megvalósításához. Így hát bele is kérdeztem, de nem nagyon tudták megmondani, mert hát „azt a Béla tudja”, a Béla meg persze, hogy nem volt ott. Ez persze nem jelenti azt, hogy ezek a kutatócsoportok hülyékből állnának, messze nem. Csak azt, hogy persze, van egy projektvezető, egy ötletember, egy elméleti arc és a csapatban persze valahol van egy ember, aki leprogramozza, amit kisütöttek, viszont a csapat úgy is képes hatékonyan működni, hogy nem lát bele minden tag minden apró részletbe, ami persze így normális, ettől csapat a csapat. Ugyanakkor mégis közösen le tudnak tenni az asztalra egy bizonyítottan újszerű és működőképes szoftvermegoldást.

Merőben más az az eset, amikor valaki gyakorlatilag bújtatva, de előadja magát fene nagy adatelemzőként, ismer is néhány látványos eszközt, de a tényleges tudás fájdalmasan hiányzik. Márpedig az ilyen nagydumás tahókkal alaposan el lettünk eresztve, akik végülis kifogták a szelet a big data vitorlából. Van-e esélye egy céges döntéshozónak megállapítani, hogy ha adatelemzésről vagy big data módszerek bevetéséről van szó, akivel tárgyal, kókler vagy profi? Az én véleményem, hogy határozottan van.

Mindenek előtt, ahogy más területen is, félre kell tenni azt a hiedelmet, hogy aki bele mer kérdezni egy-egy módszer mikéntjébe, az kötekedni akar, mert nem. Ha hangzatos terminusokkal találkozik akár egy újságíró, akár egy cégvezető, hirtelen kérdezzen bele és ne hagyja, hogy a szakértő úr valami kommunikációs csellel megkerülhesse a választ. Persze, persze, ha nem tudja a választ, az lehet azért is, mert esetleg nem érti jól vagy izgul, de ha már sorozatban fordul elő, az nem sok jót sejtet. Amit pedig a profiktól megtanulhatunk, hogy nem félnek azonnal rávágni, hogy „nem tudom”, ha valamit nem tudnak, jó esetben azt viszont igen, hogy milyen irányban lenne érdemes elindulni, hiszen a profizmus megköveteli, hogy az illető ismerje behatóan annak a szakirodalmát, amiről beszél.

A másik, hogy a kóklerek gyakran használnak igencsak látványos, már-már szemet gyönyörködtető ábrákat, dobbantanak demókat, arra viszont már nem tudnának szakmailag elfogadható választ adni, hogy miért pont azt az eszközt használják, amit. Lehet ilyen az SPSS, R, Rapidminer és számos más szoftvercsomag vagy programozási nyelv, ami viszont fontos, hogy a kókler azt használja, amit meg tudott tanulni, a profi pedig azt, ami egy-egy adott feladat megoldásához a legideálisabb!

Nem világos, hogy mitől függ az, hogy ki milyen módszertanról milyen véleményt alkot, viszont a profi egy-egy projektben tudatosan kiválasztott módszertant követ, amitől nem fél eltérni, ha az ésszerűség azt diktálja. A kókler kevésbé tervez, ahogy esik, úgy puffan.

A profik folyamatosan figyelnek a visszajelzésekre egyrészt önmagukkal, másrészt a megoldandó feladattal kapcsolatban is, míg a kóklerek csak ritkán, esetleg semennyire. Elcsépelt, de nem is tudnék olyat, ami jobban illik ide: „Az a baj a világgal, hogy a hülyék mindenben holtbiztosak, az okosak meg tele vannak kételyekkel.” Nem ritkán szivesen írnék egy témáról, csak aztán belegondolok, hogy elolvasnék még előtte jópár könyvet, hogy véletlenül se kerüljön bele kontárság, aztán végül nem írom meg. Sajnálatos, de igaz, hogy a többség, aki megszólal egy-egy témában, nem így működik, kis lexikális tudással pedig csak a baromság dől hozzáadott érték helyett. Bizonyára voltatok már úgy, hogy egy téma szakértőjétől meghallgattatok egy előadást, aztán a végére megérett az a gondolat, hogy „Ezt az előadást én is tarthattam volna, holott nem is vagyok szakértő. Hihetetlen, hogy aki hivatásszerűen foglalkozik vele, ezzel keres!?”

Ismét csak azt mondom, hogy a jó kutató ismérve többek közt az, hogy képes holisztikusan is szemlélni egy-egy feladatot, míg a kevésbé tehetséges egy bizonyos fogalomrendszerbe bezárva él. Azt vettem észre, hogy ezzel sajátos módon együtt szokott járni az, hogy a kókler fájdalmasan a mainstreamet majmolja, míg a profi tud és mer teljesen máshogy gondolkozni, hiszen attól profi, jelentős értéket teremteni igazából így lehet. Tény, hogy sokszor nem a téma véleményvezérei a legjobb szakértők, csupán a legismertebbek és nagyon gyakran sokkal sikeresebbek, mint akik tényleg tudnak. Egészen addig, amíg meg nem változik a környezet, aztán bambi. Egy gyökeresen megváltozó környezetben ugyanis a profi képes gyorsan váltani, egy kóklernek viszont ez annyi idejébe telik, amennyi idő alatt a cég becsődöl háromszor. A piaci környezet viszont nem változik gyakran. Legalábbis nem eléggé gyakran, sajnos.

Végül meg kell jegyeznem, van benne valami bizarr báj, hogy van valaki, aki mondjuk egy-egy, tudományos szaksajtóban megjelenő hírt vagy akár csak idézetet valamilyen formában elsőként elhozza hazai közegbe például egy Twitter-bejegyzésként, aztán az egy lap megírja félreértelmezve, megint másik helyen megjelenik már fél fokkal normálisabban, de úgy írnak róla, mintha ők találták volna. Az egyik legnagyobb ismert fehérkalapos hekker mondta nekem, amikor befejezte a blogolást annak kapcsán, hogy miért tészi’ le a lantot, az hogy tele lett vele a bakancsa, hogy az ő blogjáról lopkodják át a híreket azok a szerzők, akik még ahhoz is gyökerek, hogy saját maguk kövessék a nemzetközi sajtót és jó esetben megnézik az eredeti forrást is. Azt hiszem, hogy átérzem a dolgot.

Hölgyeim és Uraim! Azért azt ne felejtsék el, egy idézet eredete, első elfordulása sokszor nehézkesen azonosítható, az viszont már sokkal könnyebben, hogy például magyar szövegkörnyezetbe ki idézte először. A posztot egy korábban általam már idézett, Dan Arielynek tulajdonított idézetével zárnám:

„Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it...”

Ami a művelődnivalót illeti, a technikai jellegű irodalmat ismeri, az tudja, hogy hol keresse, mindenki másnak bevezetőként a posztban mutatott könyveket tudnám javasolni.

Pontosabb, bővebb magyarázat? Kapcsolatfelvétel? Kattints ide!

0 Tovább

bardóczi ákos @post.r

About...