bardóczi ákos @post.r

Szabad szavas turkáló

bardóczi ákos2016. július 22. 14:09

KAT-razzia, szabad információáramlás és a szellemi tulajdonjog érvényesítésének lehetésges jövője

szellemi tulajdon copyright torrent P2P Kickasstorrents szabad információáramlás Miközben százezerrel pörög a Pokemon Go topik a tech rovatokban így a tikkasztó ubiszezonban, nagyon sok oldal csak néhány szót ejtett róla, hogy a napokban szinte példátlan erővel csaptak le a teljes internet egyik, ha nem a legnagyobb fájlmegosztó oldalának egyik tulajdonosára, aki a híradások szerint akár 20 év börtönt is kaphat.

Ezen kívül azt írják - jól mutatva, hogy mennyire ellenőrzés nélkül veszik át a híreket legtöbben - hogy a KAT-nyitóoldal egyben elérhetetlen lett, mert a nyitólapra mutató domaineket elérhetetlenné tették a hatóságok a legtöbb államban. [ez konkrétan nem igaz, de erről kicsit később]

Az anonimitását sokáig egészen pazar módon megtartó Artyom Vaulin hirdetési bevételeken keresztül egy talicska pénzt keresett a KAT üzemeltetésével és ugyanúgy védekezik, ahogy általában szoktak a P2P-rendszerek üzemeltetői az elfogásukkor. A védekezés lényege, hogy ők csak lehetővé tették egy olyan rendszer használatát, amivel a felhasználók tartalmakat oszthatnak meg, arról viszont nem tehetnek, hogy a megosztott tartalmak hatalmas része jogvédett tartalom, ilyen módon a szerzői jog tulajdonosainak közvetetten egészen elképesztő kárt okoztak, ugyan az elvi lehetőség meg is volt rá, hogy egy-egy bejelentés alapján a torrent szerveren elérhetetlenné tegye az üzemeltető adott filmet, könyvet vagy zenét. Azt a csűrést-csavarást most hagyjuk is, hogy nem tehetnek róla ugyan a torrent-üzemeltetők, de tudniuk kell róla, hogy az általuk közvetített forgalom jórésze törvénysértést valósít meg. Szóval nemzetközi jog ide vagy oda, hogy a csávó mennyire fogja megúszni a felelősségre vonást, attól függ, hogy mennyire dolgozik penge védőügyvédekkel.

Amit a szaksajtó meg sem próbál megmagyarázni, hogy miért az USA-beli illetékességű DOJ indított nyomozást, aztán meg hajtóvadászatot az ukrán állampolgárságú, amúgy Lengyelországban élő csávó ellen, arról pedig ugyancsak lehet vitatkozni, hogy iletékesség szempontjából van-e jelentősége annak, hogy magát a szolgáltatást nem is az USA-ból üzemeltették, csak értelme nincs sok.

A magánvéleményem az, hogy egy-egy adott országnak nem lenne szabad ilyen szerepben igazságosztóként eljárnia nemzetközi vizeken, hacsak nem különösen súlyos, például emberiségellenes bűncselekményről van szó, egyébként a nemzetközi jog szerint eléggé világos, hogy mikor lehet más államban elkövetett dolgok miatt eljárni. Ezzel kapcsolatban csak óvatosan merek fogalmazni, mivel behatóan nem értek hozzá, de a lényeg ez. Adja magát a kérdés, hogy hogyan lett ebből a KAT-os esetből az egész világ hatóságait megmozgató felhajtás. A magyarázat egyszerű, és van benne valami megfoghatatlanul kétségbeejtő, legalábbis számomra. Mégpedig az, hogy már megint nyert a kiadói lobbi a szabad információáramlás ellenében, aminek elvi szempontból van jelentősége és ez a lényeg. Tény, hogy a KAT által közvetetten kiadóknak okozott kár szinte felfoghatatlan mértékű dollárosítva', kis túlzással olyan hajtóvadászatot indítottak a KAT ellen, mintha egy terroristasejt lenne, amit szerzői joghoz értő figuraként durván eltúlzottnak tartok, de közel sem tartom meglepőnek.

szellemi tulajdon copyright torrent P2P Kickasstorrents szabad információáramlás

Én magam amúgy szinte sosem használok torrentet, viszont fontosnak tartom, hogy a P2P hálózatokat ne korlátozzák az előbb említett elven túl azért sem, mert éppen a P2P-technológia az, ami a kiadók világát olyan irányba tolhatja, aminek eredményeként új értékesítési modellek bevezetésére kényszerülnek majd idővel, legyen majd az bármi is. Azaz már nem a 19-20. században vagyunk, ahol kevés számú lehetséges modell képzelhető el. Sokáig egy-egy könyv vagy más tartalom fogyasztásának egyetlen legális módja, hogy a tartalomfogyasztó közvetlenül fizet az előre beáratott tartalomért, azaz pénzért megvesz egy könyvet vagy kikölcsönöz egy filmet olyantól, aki megvásárolta a kölcsönbe adáshoz való jogot. Hogy milyen értékesítési megoldások lennének még, amivel a tartalomfogyasztó is, a kiadó is és a szellemi tulajdon előállítója is jól jár? Nem tudom, mert nem értek hozzá. Viszont tanulságos, hogy a web indulásakor a 90-es években a hírportáloknak sem volt semmilyen biztos ötletük azzal kapcsolatban, hogy hogyan lesznek fenntarthatóak, a mostanra általánossá vált hirdetési modellek végülis egy evolúciós folyamat eredményei, de az elején még az sem volt biztos, hogy a hírportálok, egyéb webes szolgáltatások egyáltalán fenntarthatók lesznek hirdetésekkel. Azaz még egyszer, ötletem sincs, hogy milyen értékesítési modellekkel lehetne beújítani. Egy hipotetikus világban én például szivesebben fizetnék egy fontos könyvért, amiben nincs reklám, ha emellett ingyenesen is el lehetne érni olyan feltétellel, hogy tízoldalanként az arcomba tolnak egy reklámot, de alighanem a többség számára ez lenne jobb. Persze az sem kizárt, hogy könyvek esetén az egész nem is lenne megvalósítható, míg például a zenei tartalmak esetén egész egyszerű volt: a Youtube videóklipjei előtti reklámokat a fogyasztó eltűri, a szerző részesül a reklámbevételből, a Youtube szintén, a netező megkapja a kért tartalmat, aztán minden boldog, még ha messze nem is igazságos a mostani rendszer.

Amiben a mostani KAT-os cirkusszal kapcsolatos cikkek ezrei tévednek, hogy az oldal elérhetetlenné vált volna. Persze nem ellenőriztem óránként, de a KAT nálam folyamatosan elérhető volt [most például a http://kat.cm/ címen], más kérdés, hogy más-más domain néven. Az éppen aktuális címet viszont nyilván ne például a "mindent látó" Google-lel keressük, amelyik már találatok millióit nem jeleníti meg régen a DMCA és hasonló szörnyszülött törvénycsomagok miatt, ha használhatunk helyette például Duckduckgo-t, ezen kívül például a Twitter belső keresőjét, amivel hasonló esetekben előkukázható a leginkább elsumákolni kívánt információ is.

képek: Wikipedia

Pontosabb, bővebb magyarázat? Kapcsolatfelvétel? Kattints ide!

1 Tovább

bardóczi ákos2016. július 11. 15:57

Adatelemzéssel azonosították a világirodalom legnagyobb műveinek közös jellemzőit

Big Data Universe 2016 Nextent adatelemzés big data predikció természetes nyelvfeldolgozás szentiment elemzés nyelvtechnológia

Egy nemrég megjelent publikáció szerint, amiben novellák, regények és más irodalmi művek ezreit elemezték főleg az ún. szentiment analízis módszerére támaszkodva megállapították, hogy a világirodalomban kortól és kultúrától függetlenül mi tett egy-egy irodalmi alkotást klasszikussá.

Maga Vonnegut már az 1990-es évek derekán feltételezte, hogy a legnagyobb műveknek lehetnek közös jellemzői, kérdéses volt, hogy ezt sikerül-e valaha kimutatni kvantitatív módszerekkel. A kutatók arra jutottak, hogy a világirodalom legnagyobb műveiben maga a sztori – ha jól értem – bizonyos emocionális íveket tesz meg, ennek megfelelő érzetek sorozatát kiváltva a befogadóban függetlenül attól, hogy azt olvassa vagy például filmen nézi. Összesen hat ilyen patternt sikerült azonosítani, a teljes cikk [The emotional arcs of stories are dominated by six basic shapes ] nem éppen könnyed olvasmány, barátságosabb változata a MIT Tech Reviewban jelent meg nemrég.

Személyes véleményem, hogy az adatelemzés módszerei már nem is olyan kevés ideje rendelkezésre álltak ugyan, valójában csak néhány évvel ezelőtt, a cloud computing általánossá váltásával vált elérhetővé olyan mértékű számítási kapacitás elérhető áron, ami elhozta azt, amit ma big data-érának nevezünk.

Ebbe a világba engedett egy mélyebb, messzemenően szakmai betekintést a közel két hónappal ezelőtt megtartott Nextent által támogatott Big Data Universe 2016 konferencia Budapesten, az előadások közül három, egymástól nagyban eltérő felhasználási területet emelek ki példaként.

Ma már gépi tanulást használó algoritmusok segítik az informatikai biztonsági incidensek kezelését, ami természetesen csak akkor lehet hatékony, ha az valós időben történik. A magatartás-elemzésen alapuló behatolásérzékelő Blindspotter ha átlagosan 7 percenként ad ki riasztást szokatlan felhasználói aktivitás miatt, nyilvánvaló, hogy lehetetlen kivizsgálni ezeket külön-külön annak megállapításához, hogy valódi támadásról van-e szó.

Egyre gyakrabban van szükség big datából átvett módszerek bevetésére a nyelvtechnológia területén is. Egyre gyakrabban felmerülő igény egy-egy óriáscég vagy például politikai párt számára, hogy képet kapjon azzal kapcsolatban, hogy hogyan is változott a tömeg velük kapcsolatos megítélése, aminek kézenfekvő adatforrása az interneten adott időintervallumban keletkezett, főként közösségi médiából származó szöveges felhasználói tartalmak elemzése. A pozitív és negatív jelzők megkülönböztetése már rég nem jelent problémát a nyelvtechnológia számára, viszont ettől még a feladat bőven rejt magában buktatókat.

Ha elfogadjuk azt a tézist, hogy a big data valódi paradigmaváltás olyan szempontból is, hogy olyan mennyiségű információ kezelésére van szükség, amire a klasszikus módszerek nem alkalmasak, mik lehetnek azok, amik viszont igen? A megoldandó probléma jellegétől függően előfordulhat, hogy a legkomolyabb relációs adatbázis-kezelő rendszerek sem képesek elfogadható futásidő alatt annyi információt kezelni, amennyit szükséges. Itt lépnek képbe a gráf-adatbázisok.

Ahogy írtam, ha átlagosan 7 percenként fut be egy-egy riasztás, esélytelen lenne mindről felelősségteljesen megállapítani, hogy valódi támadási vagy támadási kísérlet-e vagy egyszerűen csak akkor lefutó szkript miatt jelenik meg egy-egy anomália. Viszont közel sem annyira könnyű megállapítani automatizáltan, hogy szokatlan felhasználó magatartásról vagy ún. robotról van szó.

A Balabit kutatói az ember természetes aktivitásának időbeli eloszlását veszik alapul.

Számításba vették, hogy nincs olyan alkalmazott, amelyik folyamatosan dolgozna, míg szkriptek közt természetesen lehetnek olyanok, amiknek folyamatosan vagy bizonyos, pontos időközönként futnak le. Ez pedig markerként használható annak megállapításához, hogy Valamilyen tevékenység közvetlenül emberi eredetű vagy egyszerűen kódfuttatás eredménye.

A robotdetektáló modul második fontos eleme ugyancsak az időre, mint adatforrásra támaszkodik. Egy húsvér felhasználó ha periódusonként vagy rendszeres időközönként is csinál valamit, azt időben nem annyira pontosan kezdi és fejezi be, mint egy robot, ezen kívül a tevékenység időbeli eloszlása mindegy ujjlenyomatként szolgál a felhasználó – vagy éppenséggel robot – azonosításához.

Big Data Universe 2016 Nextent adatelemzés big data predikció természetes nyelvfeldolgozás szentiment elemzés nyelvtechnológia

Röviden szólva, a Blindspotter időben riasztást tud kiadni olyan esetben, ha az emberitől eltérő aktivitást észlel a hálózat valamelyik felhasználójánál.

Big Data Universe 2016 Nextent adatelemzés big data predikció természetes nyelvfeldolgozás szentiment elemzés nyelvtechnológia

A Neticle szentiment elemzéssel foglalkozó előadásában a hallgatóság megismerkedhetett a műfaj 10 szabályával. A szentiment elemzés egyszerűsítve annak gép feldolgozása, hogy egy-egy adott szöveg milyen érzelmi töltést tükröz, ami közel sem olyan egyszerű, mint amilyennek tűnik. Ugyanis a gép számára alapvetően teljesen strukturálatlan adathalmazt, az emberi szöveget kell elemezhető egységekre bontani, azokat kontextusában vizsgálni. Több buktató viszont csak a tényleges elemzés közben derül ki, például egy 2013-as kutatásban mutatták ki, hogy a felháborodott, negatív hangvételű, dühös vélemények határozottan jobban terjednek mint a neutrális vagy pozitív hozzászólásokban hordozott üzenetek.

Hasonlóan kihívást jelent megtanítani a gépet az irónia kezelésére és osztályozására.

Big Data Universe 2016 Nextent adatelemzés big data predikció természetes nyelvfeldolgozás szentiment elemzés nyelvtechnológia

Viszont a jelzős szerkezetek előtt álló negáció azonosítása mára már minden nagyobb nyelvben megoldott.

Big Data Universe 2016 Nextent adatelemzés big data predikció természetes nyelvfeldolgozás szentiment elemzés nyelvtechnológia

Nem meglepő módon a gépi alapú elemzés pontosságát nagyban befolyásolja, ha előre tudott, hogy mit is kell elemezni. Így például olyan kifejezés, ami más helyen előfordulva pozitív töltésű lenne, adott szövegkörnyezetben vagy topikban gyakorlatilag nem hordoz semmilyen töltést.

Big Data Universe 2016 Nextent adatelemzés big data predikció természetes nyelvfeldolgozás szentiment elemzés nyelvtechnológia

A szövegbányászok egyetértenek abban, hogy ma már nem csak bizonyos írásművek szerzőinek azonosításában lehet segítségükre a nyelvtechnológia, de bizonyos folyamatok akár elő is jelezhetők a hagyományos- és közösségi médiában megjelent tartalmak tömeges elemzésével. Így például már egy 2011. szeptemberében megjelent Nature-cikk is foglalkozott azzal, hogy akár az arab tavasz is elvben előre jelezhető volt, ahogy az az előadásban elhangzott.

A nyelvtechnológiai megoldásokon keresztül azon kívül, hogy elemezhető a múlt és előre jelezhető bizonyos pontossággal a jövő, a nagyobb nyelvek esetén jobb szövegek előállításában is segítséget jelenthet mindenkinek, aki ezzel foglalkozik. Ilyen alkalmazások például a Textio azzal, hogy szinonimákat ajánl az íródó szövegben vagy éppen a Toneapi ami az elkészült szöveg hangulati jellemzőivel kapcsolatban képes egy elemzést adni az újságírók, szerkesztők kezébe.

Az idei Big Data Universen elhangzott előadások diasorai itt érhetők el.

UPDATE: gráfadatbázisokról hamarosan egy másik posztban

Pontosabb, bővebb magyarázat? Kapcsolatfelvétel? Kattints ide!

0 Tovább

bardóczi ákos2016. július 11. 07:54

Wifi-routerek milliói kerülhetnek veszélybe

TP-link router ITsec olcsóság van! Amikor valaki azt kérdezi tőlem, hogy milyen routert érdemes venni otthonra, mindig azt mondom, hogy szinte mindegy, csak ne valamilyen néhány ezer forintos fröccsöntött kínait. Igazából legfeljebb annyit tudok óvatosan mondani, hogy mennyi lehet az az összeg, amennyi fölött szabad otthonra vagy irodába routert venni.

A manapság használt routereket szokásosan már next-next-finish-tematika alapján gyakorlatilag egy perc alatt be lehet üzemelni, bármiféle szaktudás nélkül, hiszen érthető módon a hálózati eszközök gyártóinak egyik elemi érdeke, hogy a vásárlónak csak ki kelljen vennie az eszközt a dobozból, majd kapásból működjön is.

Ha a routerben valamit be kell állítani, általában a böngésző címsorába beütve a 192.168.0.1-es címet máris egy pofás kis webes kezelőfelületre jutunk a belépést követően, de erre az átlag felhasználónak csak a beüzemeléskor van szüksége. Hát persze, hogy voltak gyártók, akik jó ötletnek gondolták, hogy a felhasználónak még csak ne is IP-címet, hanem egy hosztnevet kelljen nyájasan begépelni, mert az hülyebiztosabb. Így tett a TP-Link is, amelyik de facto standarddá tette a saját routerei esetén, hogy a beállítópanel a tplinklogin.net címen legyen elérhető. Fél fokkal növelt user experience, hol itt a probléma?

A tplinklogin.net hosztnév persze nem csak egy belső, routernek szóló név, hanem egy, a weben is létező szabályos domain név, amire ha valaki ellátogatott, TP-Link felhasználóként átirányította a böngésző a saját routere beállítópaneljének bejelentkező oldalára. Még egyszer: routerek milliói működnek így!

Erre olyan történt, amit olvasva néhány másodpercig csak néztem ki a fejemből: egyenlőre nem világos, hogy hogyan, de a nagy és okos TP-Link elfelejtette meghosszabbítani a tplinklogin.net domain nevet! Amire persze rögtön le is csapott egy domainbróker cég, de arról kicsit később.

Mit is jelent ez a gyakorlatban? A domain-lopás vagy domain-eltérítés az elképzelhető incidensek közül az egyik legpusztítóbb, hiszen ha valaki tudja módosítani például az example.org domain név DNS-rekordjait, a mögötte lévő webszerverhez, levelezéshez, minden szolgáltatáshoz hozzáférhet és módosíthat, ami az adott domain alá van bekötve. Ezért is nagyon fontos, hogy például magáncélra megbízható domain regisztrátort és névszerver szolgáltatót válasszunk. Míg egy olyan incidens esetén, amikor a domainnév egy adott nemzeti legfelső szintű domainnév alá tartozik, az adott országban könnyebb lépéseket tenni az elhappolt domain visszaszerzésére, ún. generic TLD-k esetén ez gyakorlatilag esélytelen nemzetközi vizeken.

Az Arstechnica néhány nappal ezelőtt számolt be arról a lehetséges forgatókönyvről, hogy a tplinklogin.net domaint ha olyan vásárolja meg, aki egy adathalász oldalt tákol mögé, a mit sem sejtő TP-Link felhasználók millióinak bejelentkezési adatait és beállításait lophatja el, ezt követően pedig ha átirányítja őket a router valódi bejelentkező felületére, hogy mindez ne legyen feltűnő. Ha első olvasásra annyira nem tűnne problémásnak, hogy valaki hozzáfér más nethozzáférési adataihoz, nos, írom, hogy innentől kezdve bármit megtehet az ügyfél nevében egy kis trükkel.

Viszont nem valószínű, hogy egy adathalász venné meg az elévülését követően azonnal felvásárolhatóvá vált domaint, mivel arra már lecsapott a SEDO domainbróker cég, amelyik a hírek szerint nem kevesebb, mint 2-3 millió dollárért árulja a nevet. A dolog pikantériája, hogy a SEDO-nál nem sok nagyobb féreg van a netes cégek világában, mivel kimondottan arra szakosodott, hogy olyan domainek tulajdonjogát szerzik meg, amik van éppen lejártak és várhatóan a valódi tulajdonosuk jelentkezni fog érte, ezen kívül olyan domainneveket is tulajdonolnak, amik esetleg nem is voltak használatban, viszont valószínűsíthető, hogy egy cég nemzetközi piacra lépése esetén levédené a saját nevét, amit ugyancsak a SEDO-n keresztül tudna majd megvásárolni. Persze annyiért, amennyit a SEDO kér érte.

Hogy a domain brókerek világánál nem igazán van aljasabb a neten, ami még nem ütközik törvénybe, jól mutatja, hogy a domain brókerekhez általában eleve regisztrációs díj befizetése után lehet bejelentkezni, az ajánlattételhez plusz összeget kell fizetni, amit ugyancsak nem térítenek vissza, majd ezt követően mondják meg a tényleges árat, ráadásul gyáva módon, fedett identitással.

Visszatérve a TP-Linkre, nem világos, hogy egy ekkora cég hogyan lehetett annyira ostoba, hogy hagyta a nevet elévülni, mivel a regisztrátor a nevek lejárta előtt több figyelmeztetést is küld a domain név tulajdonosának. A TP-Link alighanem kénytelen lesz fizetni, de nem 10 USD-t, amennyibe kerülne egy éves hosszabbítás, hanem annyit, amennyit a SEDO kér tőlük.

Abban az esetben, ha egy adathalász szerezné meg a nevet, olyan esetben, ha valaki egy TP-Link routert beállításakor a tplinklogin.net címen lépne be, az történne, amit fentebb már ismertettem, csak akkor irányítódna át a normál bejelentkező felületre, ha a router még nincs csatlakoztatva a nethez, ilyen módon a tplinklogin.net adathalász oldal nem érhető el, mivel a router netkapcsolat nélkül nem tudná feloldani a címet.

Csak érzékeltetésképpen: mivel az ún. generic legfelsőbb szintű domainvégződésekre nem vonatkoznak olyan korlátozások, mint több nemzeti, adott ország domain-felügyelete alatt álló domainvégződésre, így számos nevet még a net hőskorában lefoglalták, majd egészen elképesztő összegekért adták tovább a tulajdonosoknak.

Ami a TP-Linket illeti, belegondolni is rossz, hogy az eszközök firmware-jeik mennyire lehetnek biztonságosak, ha ilyen előfordulhat. „Megbízható választás”, mit ne mondjak.

Pontosabb, bővebb magyarázat? Kapcsolatfelvétel? Kattints ide!

0 Tovább

bardóczi ákos @post.r

About...