bardóczi ákos @post.r

Szabad szavas turkáló

bardóczi ákos2016. augusztus 26. 15:32

Nyelvtechnológiával az adathalászat ellen

OpenDNS NLP természetes nyelvfeldolgozás mintázatillesztés adathalászat email scam nyelvtudomány nyelvtechnológia Amikor kérdezik tőlem, hogy a nyelvtudomány, konkrétabb nyelvtechnológia milyen módon hasznosítható az informatikai biztonság és az igazságügyi informatika területén, az első, ami eszembe jut, hogy milyen módon nem, ugyanakkor nem vagyok egyszerű helyzetben, mivel rendszerint nem ugrik be röviden és informatikusok számára is érthetően summázható, de komoly felhasználási módszer.

OpenDNS NLP természetes nyelvfeldolgozás mintázatillesztés adathalászat email scam nyelvtudomány nyelvtechnológia Egyszerűek persze vannak: tudtad, hogy egy bizonyos szövegben az írásjelek aránya, a mondatszerkesztés stílusa, többek szerint pedig a leggyakrabban és a legkevésbé gyakran használt 20-20 szó majdhogynem annyira egyedi, mint az ujjlenyomatunk? A nyelvtudomány pedig ötvözve a ma rendelkezésre álló informatikai eszközökkel, egy re elképesztőbb eredményeket érhet el, példaként írom, hogy bő két évvel ezelőtt a Venturebeat írt róla, hogy a bitcoin máig ismeretlen megalkotóját elvben lebuktathatja az általa használt nyelvezet. Ahogy egyre jobb és jobb, mesterséges intelligenciára támaszkodó szemantikai szótárak készülnek, nagyon közel állunk ahhoz, hogy egy plágiumot akkor is ki lehessen szúrni, ha azt valaki az eredeti, webről származó doksit más nyelvből fordította és még át is fogalmazta a szöveget! Az erre alkalmas algoritmusok ugyan nem számítanak kimondottan újnak, a IT-számítási kapacitás most érkezik oda, hogy ezek már a gyakorlatban is bevethetők legyenek ésszerű időráfordítás mellett, anélkül, hogy szuperszámítógépeket kellene bérelni méregdrágán és le kellene tölteni hozzá a fél internetet.

OpenDNS NLP természetes nyelvfeldolgozás mintázatillesztés adathalászat email scam nyelvtudomány nyelvtechnológia A mostani poszt apropója egy cikk, ami valahogy csak tegnap jutott el hozzám. Az adathalász emailek és oldalak, amik egy-egy szolgáltatás nevében, annak arculati elemeit felhasználva kérik a felhasználót, hogy adja meg a felhasználói nevét és jelszavát, egyre kifinomultabbak és egyre nagyobb károkat okoznak szerte a világon. Többek szerint a világ legnagyobb bankrablását a Carbanak adathalász kampányon keresztül hajtották végre, ahol a felhasználók emailt kaptak különböző bankok nevében és például arra kérték őket, hogy biztonsági okokból lépjenek be és ellenőrizzék a beállításaikat. Ezt követően egy emailben linkelt adathalász oldalra csalták át őket, a felhasználók többségének pedig nem tűnt fel, hogy a böngésző címsorában lévő cím nem pontosan az a cím, amit akkor szoktak látni, amikor belépnek a megszokott ebanking felületre.

Az adathalász kampányt követően az OpenDNS egyik kutatója, Jeremiah O’Connor elkérte az esetről részletes reportot készítő Kasperskytől szinte az összes elérhető adatot. Mindezt azzal a feltevéssel, hogy szofisztikált adathalász kampány ide vagy oda, valamilyen rendszer vagy közös jellemző csak-csak fellelhető az adathalász levelekben. És talált is több ilyen szabályszerűséget, alapvetően a természetes nyelvfeldolgozás eszközeit bevetve.

O’Connor először egy alapos korpuszt épített a scammer levelek szövegezése alapján, ami kiindulási pont egy nyelv vagy nyelvjárás tanulmányozásakor. Az első dolog, aminek megállapításához nyelvtechnológiára sincs szükség, az adathalász levelek azon közös tulajdonsága, hogy egy adott szolgáltató nevéhez hasonló domainre csalják át az áldozatot, ilyen lehet például a microsoft-update-info[.]com, gmailboxes[.]com és hasonlók. Az egyik dolog, ami O’ Connornak feltűnt, hogy az adathalász domainek nevének formátuma rendszerint úgy épül fel, hogy azok tartalmazzák a megcélzott valódi szolgáltatás nevét ehhez van hozzácsapva valamilyen általános kifejezést, ami elaltatja a felhasználó éberségét, ilyen kifejezés lehet például az "update" egy Windows-frissítésre felszólító, valójában az áldozat gépére malware-t telepítő email esetén. Egy jól ismert név és egy általános kifejezés permutációja persze sokféle lehet, de nem végtelen, a felismert szabály alapján egészen pofás kis szótárat épített fel az OpenDNS kutatója, amit valahogy így kell elképzelni egy kamu Java-frissítésre kihegyezett oldal lehetséges neveit.

OpenDNS NLP természetes nyelvfeldolgozás mintázatillesztés adathalászat email scam nyelvtudomány nyelvtechnológia

Ezen kívül gyakori még a domainek torzítása hasonló karakterekkel, így például minden további nélkül lehetne regisztrálni az www.0tpbank.hu domain nevet egy adathalász oldal számára. A kutató viszonylag gyorsan tipizálta az adathalász levelekre jellemző nyelvezetet, természetesen nem szorítkozott a domain-nevek elemzésére. A végül elkészült NLPRank-technológia a leveleket egészében értékeli, azaz a gyanus domainekre mutató hivatkozások mellett azt is vizsgálja, hogy egy-egy levél milyen autonóm alhálózatból, ha úgy tetszik, az internet melyik "városából" érkezett. Ha a levél hosszú fejlécében lévő IP-címből az derül ki, hogy olyan AS felől érkezett, amelyik korábban már ontotta az adathalász emaileket, ezt súlyzottan figyelembe vette az algoritmus.

Ezen kívül az adott domainhez tartozó, a domain tulajdonosának adatait tartalmazó WHOIS-rekordban szereplő adatokat vetette össze olyan WHOIS-rekordokkal, amikkel korábban már találkoztak egy biztosan adathalász emailként azonosított domain kapcsán.

Hogy világosabb legyen, hiába regisztrál be egy spambáró mondjuk 100 domaint, a WHOIS-rekord adatai, amik persze maszkoltak, egyezőek vagy nagyon hasonlóak lesznek, ez pedig sok esetben alkalmas arra, hogy ha egy talicska domain ugyanahhoz a szervezethez vagy személyhez tartozik, természetesen akkor is, ha a valódi nevét és elérhetőségeit a WHOIS-rekord nem tartalmazza. A képet az OpenDNS blogjából csentem át, ebben az esetben adathalász oldalak domain-neveinek tömege volt ugyanahhoz a kamu kínai szervezethez beregisztrálva:

OpenDNS NLP természetes nyelvfeldolgozás mintázatillesztés adathalászat email scam nyelvtudomány nyelvtechnológia

Ugyancsak az algoritmus lelkét adja, a domainek hasonlóságának, jelen esetben csaló voltának megsaccolásához kidolgozott módszer. Tekintsük a domain-nevet egy egyszerű sztringnek, azaz szövegnek. Ahogy írtam, az adathalász oldalak címe sokszor csak néhány betűnyi eltérést mutat a legitim szolgáltatás címéhez képest. Mégis, hogyan automatizálható a gyanus domain-nevek szűrése, azaz mikor mondható, hogy alapos rá a gyanú, hogy adathalász oldalról van szó a domain-név alapján? A scammer domain nevek általános sajátosságát figyelembe véve egy domain akkor gyanus, az a leggyakoribb, ha egy jól ismerthez képest két karakterben különbözik. Így például a googlemail.com és a nullásokkal írt g00glemail.com domain név közti különbség éppen két karakternyi, ami pedig nagyon fontos, hogy a szóban forgó lecserélt karakterek egymás közvetlen közelében vannak. Ezen kívül az okos algoritmus, hála a jól felépített szótárnak, azzal is tisztában van, hogy a o-betű nullával való helyettesítése, az l-betű egyes számjeggyel való helyettesítése és hasonlók az adathalász levelekre jellemző sajátosságok.

Ami miatt fontos a felhasználók biztonsága érdekében, hogy automatizáltan felismerhetőek legyenek a gyanus domain nevek, egy igencsak gyakorlati dolog: az OpenDNS névfeloldó szervereire a 60 millió felhasználótól naponta átlagosan 60 milliárdnyi DNS-kérés érkezett már 2015-ben, ha pedig az OpenDNS a névfeloldás szintjén felismeri a veszélyes domain-neveket, időben tudja figyelmeztetni a felhasználót, ha már rákattintott, de akár feketelistára is teheti az adott domain nevet.

OpenDNS NLP természetes nyelvfeldolgozás mintázatillesztés adathalászat email scam nyelvtudomány nyelvtechnológia A kimondottan apró eltéréseket és azok közti távolságot is figyelembe vevő algoritmusok ismerősek lehetnek a bioinformatika területéről, ahol egy-egy, kóros szövetből származó DNS vagy RNS részletének szekvenciáját kell meghatározni, az eltérés pedig egy-egy "betűnyi", azaz nukleotidnyi, egyszeresen vagy többszörösen, egymástól bizonyos távolságban. Ezek az ún. SNP-k nagyon sok esetben semmilyen életfunkcióban nem okoznak változást, megint más esetben súlyos betegségeket alakít ki egy-egy nukleotidnyi eltérés.

A néhol erős egyszerűsítések miatt elnézést kérek! Ahogy korábban is emlegettem, egy olyan korba csöppentünk, ahol minden korábbinál nagyobb szerepet kap az, hogy a kutató, fejlesztő rendelkezzen multidiszciplináris ismeretekkel és ezeket be is vesse, ha kell. Ezért vallom, hogy az egyetemeken, mi több, ahol lehetséges, már középiskolában meg kellene mutatni a tanulóknak, hogy mivel foglalkozik egy-egy cégnél a matematikus, a fizikus, a vegyész, a biológus, a nyelvész, a közgazdász vagy éppen az informatikus. Ugyanis sajnos ha ez elmarad és az egyik szakma képviselőit tömegesen neveli ki úgy a felsőoktatás, hogy még csak egy szemléletes képük sincs arról, hogy más szakmák képviselői mivel foglalkoznak, az nem csak azzal jár, hogy komolyabb helyeken bunkónak nézik őket. A súlyosabb hatás, hogy még csak az esély sem adatik meg nekik, hogy felkeltse az érdeklődésüket valami számukra egészen új dolog [ahogy az én érdeklődésemet felkeltette a nyelvtudomány olyan 24 éves koromban] illetve nem lesznek képesek olyan komplex problémák megoldására, amik az emlegetett multidiszciplináris tudást és holisztikus szemléletet igényelne.

Képek: wordstodeeds.com, komando.com, OpenDNS blog

Pontosabb, bővebb magyarázat? Kapcsolatfelvétel? Kattints ide!

0 Tovább

bardóczi ákos2016. július 11. 15:57

Adatelemzéssel azonosították a világirodalom legnagyobb műveinek közös jellemzőit

Big Data Universe 2016 Nextent adatelemzés big data predikció természetes nyelvfeldolgozás szentiment elemzés nyelvtechnológia

Egy nemrég megjelent publikáció szerint, amiben novellák, regények és más irodalmi művek ezreit elemezték főleg az ún. szentiment analízis módszerére támaszkodva megállapították, hogy a világirodalomban kortól és kultúrától függetlenül mi tett egy-egy irodalmi alkotást klasszikussá.

Maga Vonnegut már az 1990-es évek derekán feltételezte, hogy a legnagyobb műveknek lehetnek közös jellemzői, kérdéses volt, hogy ezt sikerül-e valaha kimutatni kvantitatív módszerekkel. A kutatók arra jutottak, hogy a világirodalom legnagyobb műveiben maga a sztori – ha jól értem – bizonyos emocionális íveket tesz meg, ennek megfelelő érzetek sorozatát kiváltva a befogadóban függetlenül attól, hogy azt olvassa vagy például filmen nézi. Összesen hat ilyen patternt sikerült azonosítani, a teljes cikk [The emotional arcs of stories are dominated by six basic shapes ] nem éppen könnyed olvasmány, barátságosabb változata a MIT Tech Reviewban jelent meg nemrég.

Személyes véleményem, hogy az adatelemzés módszerei már nem is olyan kevés ideje rendelkezésre álltak ugyan, valójában csak néhány évvel ezelőtt, a cloud computing általánossá váltásával vált elérhetővé olyan mértékű számítási kapacitás elérhető áron, ami elhozta azt, amit ma big data-érának nevezünk.

Ebbe a világba engedett egy mélyebb, messzemenően szakmai betekintést a közel két hónappal ezelőtt megtartott Nextent által támogatott Big Data Universe 2016 konferencia Budapesten, az előadások közül három, egymástól nagyban eltérő felhasználási területet emelek ki példaként.

Ma már gépi tanulást használó algoritmusok segítik az informatikai biztonsági incidensek kezelését, ami természetesen csak akkor lehet hatékony, ha az valós időben történik. A magatartás-elemzésen alapuló behatolásérzékelő Blindspotter ha átlagosan 7 percenként ad ki riasztást szokatlan felhasználói aktivitás miatt, nyilvánvaló, hogy lehetetlen kivizsgálni ezeket külön-külön annak megállapításához, hogy valódi támadásról van-e szó.

Egyre gyakrabban van szükség big datából átvett módszerek bevetésére a nyelvtechnológia területén is. Egyre gyakrabban felmerülő igény egy-egy óriáscég vagy például politikai párt számára, hogy képet kapjon azzal kapcsolatban, hogy hogyan is változott a tömeg velük kapcsolatos megítélése, aminek kézenfekvő adatforrása az interneten adott időintervallumban keletkezett, főként közösségi médiából származó szöveges felhasználói tartalmak elemzése. A pozitív és negatív jelzők megkülönböztetése már rég nem jelent problémát a nyelvtechnológia számára, viszont ettől még a feladat bőven rejt magában buktatókat.

Ha elfogadjuk azt a tézist, hogy a big data valódi paradigmaváltás olyan szempontból is, hogy olyan mennyiségű információ kezelésére van szükség, amire a klasszikus módszerek nem alkalmasak, mik lehetnek azok, amik viszont igen? A megoldandó probléma jellegétől függően előfordulhat, hogy a legkomolyabb relációs adatbázis-kezelő rendszerek sem képesek elfogadható futásidő alatt annyi információt kezelni, amennyit szükséges. Itt lépnek képbe a gráf-adatbázisok.

Ahogy írtam, ha átlagosan 7 percenként fut be egy-egy riasztás, esélytelen lenne mindről felelősségteljesen megállapítani, hogy valódi támadási vagy támadási kísérlet-e vagy egyszerűen csak akkor lefutó szkript miatt jelenik meg egy-egy anomália. Viszont közel sem annyira könnyű megállapítani automatizáltan, hogy szokatlan felhasználó magatartásról vagy ún. robotról van szó.

A Balabit kutatói az ember természetes aktivitásának időbeli eloszlását veszik alapul.

Számításba vették, hogy nincs olyan alkalmazott, amelyik folyamatosan dolgozna, míg szkriptek közt természetesen lehetnek olyanok, amiknek folyamatosan vagy bizonyos, pontos időközönként futnak le. Ez pedig markerként használható annak megállapításához, hogy Valamilyen tevékenység közvetlenül emberi eredetű vagy egyszerűen kódfuttatás eredménye.

A robotdetektáló modul második fontos eleme ugyancsak az időre, mint adatforrásra támaszkodik. Egy húsvér felhasználó ha periódusonként vagy rendszeres időközönként is csinál valamit, azt időben nem annyira pontosan kezdi és fejezi be, mint egy robot, ezen kívül a tevékenység időbeli eloszlása mindegy ujjlenyomatként szolgál a felhasználó – vagy éppenséggel robot – azonosításához.

Big Data Universe 2016 Nextent adatelemzés big data predikció természetes nyelvfeldolgozás szentiment elemzés nyelvtechnológia

Röviden szólva, a Blindspotter időben riasztást tud kiadni olyan esetben, ha az emberitől eltérő aktivitást észlel a hálózat valamelyik felhasználójánál.

Big Data Universe 2016 Nextent adatelemzés big data predikció természetes nyelvfeldolgozás szentiment elemzés nyelvtechnológia

A Neticle szentiment elemzéssel foglalkozó előadásában a hallgatóság megismerkedhetett a műfaj 10 szabályával. A szentiment elemzés egyszerűsítve annak gép feldolgozása, hogy egy-egy adott szöveg milyen érzelmi töltést tükröz, ami közel sem olyan egyszerű, mint amilyennek tűnik. Ugyanis a gép számára alapvetően teljesen strukturálatlan adathalmazt, az emberi szöveget kell elemezhető egységekre bontani, azokat kontextusában vizsgálni. Több buktató viszont csak a tényleges elemzés közben derül ki, például egy 2013-as kutatásban mutatták ki, hogy a felháborodott, negatív hangvételű, dühös vélemények határozottan jobban terjednek mint a neutrális vagy pozitív hozzászólásokban hordozott üzenetek.

Hasonlóan kihívást jelent megtanítani a gépet az irónia kezelésére és osztályozására.

Big Data Universe 2016 Nextent adatelemzés big data predikció természetes nyelvfeldolgozás szentiment elemzés nyelvtechnológia

Viszont a jelzős szerkezetek előtt álló negáció azonosítása mára már minden nagyobb nyelvben megoldott.

Big Data Universe 2016 Nextent adatelemzés big data predikció természetes nyelvfeldolgozás szentiment elemzés nyelvtechnológia

Nem meglepő módon a gépi alapú elemzés pontosságát nagyban befolyásolja, ha előre tudott, hogy mit is kell elemezni. Így például olyan kifejezés, ami más helyen előfordulva pozitív töltésű lenne, adott szövegkörnyezetben vagy topikban gyakorlatilag nem hordoz semmilyen töltést.

Big Data Universe 2016 Nextent adatelemzés big data predikció természetes nyelvfeldolgozás szentiment elemzés nyelvtechnológia

A szövegbányászok egyetértenek abban, hogy ma már nem csak bizonyos írásművek szerzőinek azonosításában lehet segítségükre a nyelvtechnológia, de bizonyos folyamatok akár elő is jelezhetők a hagyományos- és közösségi médiában megjelent tartalmak tömeges elemzésével. Így például már egy 2011. szeptemberében megjelent Nature-cikk is foglalkozott azzal, hogy akár az arab tavasz is elvben előre jelezhető volt, ahogy az az előadásban elhangzott.

A nyelvtechnológiai megoldásokon keresztül azon kívül, hogy elemezhető a múlt és előre jelezhető bizonyos pontossággal a jövő, a nagyobb nyelvek esetén jobb szövegek előállításában is segítséget jelenthet mindenkinek, aki ezzel foglalkozik. Ilyen alkalmazások például a Textio azzal, hogy szinonimákat ajánl az íródó szövegben vagy éppen a Toneapi ami az elkészült szöveg hangulati jellemzőivel kapcsolatban képes egy elemzést adni az újságírók, szerkesztők kezébe.

Az idei Big Data Universen elhangzott előadások diasorai itt érhetők el.

UPDATE: gráfadatbázisokról hamarosan egy másik posztban

Pontosabb, bővebb magyarázat? Kapcsolatfelvétel? Kattints ide!

0 Tovább

bardóczi ákos2016. máj 23. 01:13

Reggeli villámokosság: kifejezések első előfordulása a neten

azelsosprint Reblog Sprint nyelvtechnológia haladó keresés szájbarágó etimológia SZÖKIK A MÁLNA Akár egy komolyabb fórumon folytatott vitában, akár az igényesen végzett kutatásban szükségessé válhat, hogy ésszerű energiabefektetés mellett meg lehessen állapítani egy adott kijelentésről, hogy ki is mondhatta először. Az első előfordulás megsaccolásának persze számos más területe is lehetséges. Hangsúlyozom, egy-egy kifejezés első előfordulását rendszerint csak megbecsülni lehet, ezek egyike sem bizonyító erejű.

Nem akarok túl elméleti felvezetéssel kezdeni, de érdemes tudni, hogy kapcsolódó, de más műfaj az etimológia, ami az önálló kifejezések eredetének feltárásával foglalkozik, ez természetesen magában foglalja, hogy egy kifejezés miből származtatható, hogyan alakulhatott és sokszor azt is, hogy mikor. Az etimológiai eszközökről viszont tudni kell, hogy egy-egy konkrét kérdést nem lehet velük felelősségteljesen megválaszolni mélyebb nyelvtudományi, nyelvtörténeti tájékozottság nélkül. A másik, hogy minél nagyobb korpusz áll rendelkezésre az adott nyelven, annál bőségesebb és pontosabb adatbázisokat tudnak kiépíteni a kutatók, viszont még a legtöbb természetes beszélővel rendelkező nyelvek esetén sem lehet minden kifejezésről 100%-os pontossággal megállapítani a származását és első előfordulását. A magyar pongyolán fogalmazva közepes írásbeliségű nyelv, viszont az etimológiai szótárak közt már több is elérhető a neten, ilyen például a Tótfalusi-féle etimológiai nagyszótár.

Érthetően sokkal nagyobb információtartalommal feltöltött és régebbi, megkockáztatom, hogy az összes közül a legkomolyabb etimológiai adatbázis az Etymonline angol nyelvű változata, ami – az én ismereteim szerint – pontosságában még a több természetes beszélővel rendelkező mandarin kínai, hindi és spanyol etimológiai adatbázisok pontosságát is lepipálja.

Na de mi a helyzet a gyakorlattal? Azaz amikor egy idézet első előfordulását szeretnénk megállapítani. Több eszköz is van, amik közül csak a legegyszerűbbeket említem.

A Google Keresőben adjuk meg a kifejezést idézőjelezve és/vagy válasszuk ki a verbatim keresési módot, ami jelezni fogja a kereső felé, hogy a kifejezés szó szerinti előfordulására vagyunk kíváncsiak. Ezt követően, precízebb találatot kapunk, ha nem a felajánlott opciókat használva, hanem keresőoperátor megadásával állítjuk be, hogy kimondottan időbeli előfordulásra vagyunk kíváncsiak.

Azaz ha arra szeretnénk választ kapni, hogy melyik dokumentumban fordult először elő az a kifejezés, hogy

szökik a málna

akkor a következő keresőkifejezést építhetjük fel. Az egyik valahogy így néz ki

"szökik a málna" before:2016/05/23

természetesen ha nincs találat, akkor a before: és az after: operátorokkal lehet játszani, ezzel szűkíteni a találati halmazt, ami fontos, hogy mivel keresőoperátorokról van szó, a keresőkifejezés literálja(i) után kell, hogy álljanak, csupa kis betűvel, kettősponttal. Ínyencek próbálkozhatnak még a daterange: operátorral, ahol Julianus-naptár szerinti értékkel kell megadni azt a dátumtartományt, amiben a kifejezést keressük.

Bizonyos esetekben hasznos lehet még a Google Trends bevetése, ami ugyan csak tömeges előfordulású kifejezéseknél hatékony, kiindulópontnak jó lehet például olyan szempontból, hogy mikor kezdte el foglalkoztatni a net népét az a téma, amihez az adott fogalom szorosan kapcsolódik.

azelsosprint Reblog Sprint nyelvtechnológia haladó keresés szájbarágó etimológia SZÖKIK A MÁLNA

Miért is kezdtem azzal, hogy csak saccolni lehet ezekkel az egyszerű módszerekkel, pontosan megállapítani az első előfordulást nem vagy csak kivételes esetben? A sok-sok ok közül az egyik az, hogy abban az esetben, ha a dokumentum, amiben a kifejezést elsőként szerepelt, már törölve lett, egy idő után a Google indexből is kikerül, így nyilván nem jelenik meg a keresési kifejezések közt, mint gyorsítótárazott tartalom. A másik ok, hogy a Google igencsak hasonlóan olvassa a webhelyeket, ahogyan az ember, márpedig szinte minden korszerű webhelyen vannak olyan dinamikus elemek, amik más-más tartalmat jelenítenek meg a külön-külön lapletöltések alkalmával. Kevésbé kocka módon fogalmazva: gyakorlatilag minden hírportál ajánlgat korábbi vagy éppen újabb cikkeket az alatt a cikk alatt, amit aktuálisan olvasunk, hasonló témában, amit persze a Google is figyelembe vesz. Ez viszont technikai szempontból azt jelenti, hogy hiába fordul elő például az

"részeg árvíztűrő tükörfúrógép támadt a súlytalan rugóra"

egy olyan posztban, ami mondjuk 2016. május 23-án jelenik meg, mivel nem egy statikus oldalról van szó, lévén, hogy közben újabb elemek jelennek meg a cikk alatt, amikor a Googlebot újra pásztázza az oldalt, az ő kis snapshotjához tartozó időbélyeget meg fogja változtatni egy későbbi időpontra, így olyan, mintha a kifejezést valójában csak később írták volna le. Megoldás: nincs mese, a találatok egy részét külön-külön meg kell nézni, és abban látható a poszt, twit, cikk, akármilyen bejegyzéstípus pontos dátuma.

Ezen kívül segíthet még az inurl: operátor, ha azt úgy adjuk meg, hogy az operátor után az URL-ekben gyakran előforduló formában adjuk meg a dátum egy részét. Példa:

"részeg árvíztűrő tükörfúrógép támadt a súlytalan rugóra" inurl:2016/05

persze több találat esetén az inurl: után megadott dátumnál egyre korábbi dátumokkal lehet próbálkozni, de szóba jöhet még az intitle: is.

Soha ne felejtsük el, hogy nem csak Google Search létezik a világon, más-más keresőkben más-más haladó keresési operátorok érhetők el.

Gépház üzen: a kérdésekre nem fogok tudni a megszokott sebességgel válaszolni pár napig :(

Pontosabb, bővebb magyarázat? Kapcsolatfelvétel? Kattints ide!

0 Tovább

bardóczi ákos2016. máj 21. 10:59

Nyelv, tudat, nyelvhasználat – első találkozásom az idegen nyelvvel

reblog sprint azelsosprint nyelv nyelvtanulás fejlődéspszichológia pszicholingvisztika felzárkóztató nyelvhasználat Nem sok nyomasztóbb téma van annál, mint az, hogy a magyarok mennyire gyengék átlagosan, ha idegen nyelvtudásról van szó. Nem csak a Magyarországon élő magyarok! Ha valaki alaposan szétnéz a tág ismeretségi körében, ideértve mondjuk a volt általános iskolai osztálytársak cikibb felét, nos, azok akik nem amiatt költöztek mondjuk Londonba, mert ott jobb lehetőséget találtak arra, hogy megvalósítsák valamelyik ötletüket, hanem azért, mert nem éppen irigyelni való melóval jobban keresnek, mint Magyarországon, azt találja, hogy hiába élnek kinn több éve, egyáltalán nem biztos, hogy megtanulták a helyi nyelvet. Igaz, hogy idegen nyelvterületen a nyelvtanulás valamennyivel könnyebb, azt viszont csak a full szenilis nagyik gondolhatják, hogy valaki azért tudott megtanulni egy idegen nyelvet, mert külföldön volt vagy hogy ki kell menni külföldre azért, hogy valaki szinte tökéletesen megtanuljon idegen nyelven. Mindkettő egy-egy önmagát makacsul tartó, ostoba és – amint be fogom mutatni: veszélyes – mítosz a nyelvtanulással kapcsolatban.

Az én ismereteim szerint ma még a nyelvtudomány számára sem világos, hogy egyáltalán a mindennapi kommunikáció hogyan bonyolítható le annyira gyenge, az általános iskolás szintűvel is alig összevethető nyelvtudással, mint amennyivel például magyarok – és persze más nemzetek fiainak – százezrei élnek például Londonban olyan helyeken, ahol kevésbé van szükség kommunikációra, azaz kétkezi munkások.

Imádom a nyelveket! A holland játékosságát, a francia diplomatikusságát, a spanyol rejtett kiterjedtségét és gazdagságát, az olasz paggogását, az angolban azt, hogy bármilyen szégyenletes bénasággal beszéli valaki, a lényeg érthető marad előttem, a japánban azt, hogy az elején semmit sem értesz belőle, aztán egy bizonyos ponton megvilágosodsz, csak legyen cérnád eljutni odáig, az oroszt és az [standardizált] arabot azért, mert ezekkel egy-egy teljesen, új addig ismeretlen világ nyílik meg, ami igaz a többi nyelvre is, de a legmarkánsabban ennél a kettőnél éreztem ezt.

Azért félreértés ne essen, ezeket nem beszélem is, mert valamilyen nyelvből nyelvvizsgát szerezni, egy [nem anyanyelvi] nyelvet olvasni és beszélni, valamint választékosan alkalmazni, nos, mind más-más műfaj.

De még mennyire, hogy más! Nem ritka, hogy még magyarul, a saját anyanyelvemen sem tudom normálisan szóban kifejezni magam, egy ideig érdekelt, hogy ennek lehet-e köze ahhoz, hogy régen dadogtam, mára már sokkal kevésbé foglalkoztat a kérdés. Aztán Csernus doktor legyen a talpán, aki megállapítja, hogy vajon a nyelvzabálással megpróbálom túlkompenzálni önmagam sok-sok év után, ha gimnáziumban az egyetlen tárgy, amiből sikerült buknom [egyszer félévkor] pont az angol volt vagy véletlenről van szó.

Ugyancsak szerencsétlen véletlen, hogy hogyan érintkeztem először az idegen nyelvvel az óvodában, majd általános iskolában, majd gimnáziumban hogyan vészeltem át azt, amit merészeltek nyelvoktatásnak nevezni.

Emlékszem, óvodás koromban a szülők egy része kitalálta, hogy legyen fakultatív nyelvtanulás, ami nem tűnik annyira hülye ötletnek, viszont maga a kivitelezés egész egyszerűen tragikus volt. Kezdeném ott, hogy mindegy, hogy milyen fakultatív programról van szó, az óvodás gyerekek egy része egyszerűen nem meri megmondani a szülőnek, ha utálja az elfoglaltságot, amire járatják, aminek több oka is lehet, ezért a szülőnek erre különösen oda kell figyelnie, hacsak nem akarja megkockáztatni, hogy ilyen miatt valamit a gyerkőc egy életre megutáljon. Máig emlékszem, hogy a német nyelvtanulás valami olyasmiből állt, hogy főnevek német nyelvű megfelelőit kell bemagolni 4-5 évesen, természetesen úgy, hogy semmilyen fogalmi keret nem volt, amibe az ovisok ezeket a fogalmakat el tudták volna helyezni, ami minden tanulási folyamatban kulcs tényező. A szülők viszont elvilloghattak vele, hogy az ő gyerekük milyen korán kezd nyelvet tanulni. Ami pedig az egész kivitelezésében totálisan elhibázott volt, hogy olyan szülők kérték az ovis nyelvtanítást, akik nem vagy csak minimális szinten használták az idegen nyelvet, ahogy az én szüleim is!

Fejlődéspszichológiából a modellkövetés a nyelvtanulásban betöltött szerepe eléggé jól ismert, ahogy az is, hogy gyakorlatilag nincs annyira kicsiny gyermek, amelyik ne szúrná ki, ha a felnőtt minta, akár szülői, akár más felnőtt, valamilyen szempontból nem hiteles. Márpedig itt olyan szülők – na nem csak a saját szüleim – szorgalmazták ez a módszertanilag és minden más szempontból messze elhibázott nyelvtanulósdit, akik nem beszéltek idegen nyelven. Innentől komolytalan a gyerek számára az egész, legyen akármilyen kicsi is. Amikor a szülők, az ovónénik, majd később az általános iskolai tanárok az idegen nyelv fontosságáról beszélnek, holott ők maguk sem tudnak semmilyen idegen nyelven, nem látja a gyerek, hogy idegen nyelvű lapokat olvasnának, idegen nyelvű adót néznének, hatalmas csorbát szenved a felnőttek hitelessége. A jelenség hatása majdnem annyira pusztító, mint amikor a kezdetleges drogprevenciós programokban a 60-70-80-as években, majd később is olyanok beszéltek tiniknek ostobaságokat a drogok hatásairól, akiknek fogalmuk nem volt az egészről. A gyerkőcök azt tapasztalták a környezetükben, hogy a bátyus néha elszív egy zöldet, mégsem őrül meg, a nővére lánybúcsúkra bespurizva megy csapatni, azaz a gyerekek tapasztalatai nem igazolták azt, amit a drogprevenciós elődadáson hallottak. A következmény pedig, kultúránként eltérő mértékben ugyan, de még annál is súlyosabb volt, mintha egyáltalán nem kerültek volna szóba az iskolában a drogok – mivel nemzedékek nőttek fel, akik hiteltelennek látták azt, amit a drogokról hallottak és akitől hallották az iskolákban, majd éppen ezért hajmeresztő kockázatoknak tették ki magukat. IMHO ennek isszuk a levét máig, csak éppenséggel államonként, kultúránként eltérő, hogy mennyire gyorsan tudták a rendkívül káros beidegződéseket helyrerakni. Ha úgy tekintünk a nyelvtudás hiányára, mint a mobilitás hiányára illetve a munkaerőpiaci elhelyezkedést nehezítő hatásra, nem túlzás azt mondani, hogy ennek a hatása nemzetgazdasági szinten alighanem a káros szenvedélyek által okozott kárral vethető össze!

Amikor jött az általános iskola, német nyelvet választottam, abból is vittem haza életem első elégséges osztályzatát, ami nem tudom, hogy engem sokkolt jobban vagy az eredetileg pedagógusként dolgozó szüleimet, akik mintadiákot akartak belőlem faragni. Nem túlzok, de kicsit traumatizált, mert miután az ellenőrzőbe bekerült az osztályzat, órákig bóklásztam a városban és azon görcsöltem, hogy otthon hogy fogom kidumálni a dolgot. Ami pedig a német tanárnénit illeti… Azt mondják, hogy az idő mindent megszépít. Körülbelül úgy, ahogy az ember farka élete végéig nő… Ha ma találkoznék vele, nem nagyon lenne más kérdésem, mint az, hogy mi a jóégnek tanított általános iskolában. Ugyanis ha van két dolog, amit a tanárnő nagyon gyűlölt, az egyik az általános iskolások, a másik pedig maga a tanítás, a legkisebb hiába komolyan az volt, hogy nem tudott németül, mivel egy orosz szakosból sürgősségi jelleggel átképezni próbált spiné volt, akinek a gondolatától nem csak a nyelvóra előtt, hanem már aznap reggeltől rendszeresen gyomorgörcsöm volt.

reblog sprint azelsosprint nyelv nyelvtanulás fejlődéspszichológia pszicholingvisztika felzárkóztató nyelvhasználat Gimnáziumban német és angol óráim voltak, a tanáraim jöttek-mentek és egyaránt akadt köztük tehetséges nyelvtanár és olyan is, aki tényleg komplett idióta volt, ezt a részt szerintem ugorjuk is át. Ja, azért annyira hirtelen ne. Ugyanis ami aztán tényleg feltette az i-re a pontot, ami a nyelvtanulást illeti, az a szóbeli érettségimen történt. A saját nyelvtanáromnál érettségiztem, aki adott egy tételt, amiben a rágógumigyártás történetéről volt egy rész, amit el kellett olvasni, majd saját szavakkal összefoglalni angol nyelven pár perccel később fejből. A dolog nem volt különösebben bravúros, mivel egyébként is jó és segítőkész tanár vizsgáztatott, de maga a felelet egyenesen szürreális volt. A vizsgáztató tanár mellett ugyanis ült egy másik nyelvszakos tanár, aki rendszeresen elröhögte magát, amikor belekezdtem egy-egy mondatba. Ismerős lehet a szituáció, amikor azt hiszed, hogy valaki ennyire kretén bunkó már nem lehet, aztán utólag esik le, hogy mégis. Felelet közben azt hittem egy ideig, hogy esetleg mögöttem lehet valami, ami annyira szórakoztató vagy szimplán csak bepiált az érettségi elnökkel, de gyorsan rá kellett jönnöm, hogy nem. Mindig akkor röhögött a képembe, amikor egy-egy elakadás után folytattam a feleletet. Tényleg rajtam röhögött! Ha van valami, amire nem számít senki 18 éves érettségiző lurkóként, na az alighanem az, hogy a szóbeli érettségije közben – amikor egyébként is van egy jóadag para – rajta röhög valaki, felelet közben.

Egyetemen persze nem volt mese, mint minden normálisabb helyen, a nyelvet egyszerűen tudni kell, különben eleve felkészülni sem lehet azokból a tárgyakból, amikből a jobb szakirodalom angol nyelven áll rendelkezésre.

Aztán összeszorított farpofával kerestem egy magán nyelvtanárt, aki lehet, hogy a többi tanítványánál sikerrel alkalmazta azt, hogy az Ezer kérdés, ezer választ című tematikus könyvből bemagoltat mondatokat, majd lecseszi őket, ha nem tudják pontosan visszamondani, nálam nem.

Nincs királyi út. Vagy mégis?

reblog sprint azelsosprint nyelv nyelvtanulás fejlődéspszichológia pszicholingvisztika felzárkóztató nyelvhasználat Ha van még valami, ami makacsul tarja magát a nyelvtanulással kapcsolatos tévhitek közt, hogy csak megfeszített erővel, vérrel, verejtékkel lehet megtanulni egy idegen nyelvet. Szorgalom természetesen kell hozzá. Viszont más-más embernél más-más módszer lehet hatékony, amire viszont mindenkinek saját magának kell rájönnie. Ha ez megvan, onnantól kezdve már feszültségektől mentes a nyelvtanulás. Lomb Katóra utalnék, aki azt vallotta, hogy a nyelvtanulás hatékonysága nagyon nagy részben attól függ, hogy a nyelvvel kapcsolatos szorongásait mennyire tudja valaki félretenni.

Én a könyvesboltban választottam néhány nyelvkönyvet, ami nem tankönyv, de van benne kitöltögetős rész, ami nem hagyja, hogy a figyelmem alábbhagyjon gyakorlás közben, majd azokat töltögettem ki, így nem csak az íráskészségemet fejlesztettem, hanem ezzel párhuzamosan a szókincsem is bővült. Nekem ez vált be. Másoktól hallottam, hogy nekik az, ha idegen nyelvet néztek felirattal. Megint mások beszéltek ahogyan tudtak, majd folyamatosan korrigálták a saját hibáikat. Ami fontos, hogy nettó tévedés kiindulni abból, hogy egy idegen nyelvet azokkal a módszerekkel hatékonyan lehetne tanulni, mint az anyanyelvünket, ugyanis az a nyelv elsajátításának egy speciális esete – elég csak azokra a kisgyerekekre gondolni, akik olyan nyelvet tanulnak, amiben szinte nem is érdemes hagyományos nyelvtanulási módszerekkel szabályszerűségeket keresni [úgy tudni, hogy az európai aggyal legnehezebben tanulható nyelv az inuit eszkimó], a gyerek mégis megtanulja szabályosan használni. Ismét eloszlatok egy hiedelmet: a NYEST.hu ugyan már többször foglalkozott a témával, de nem létezik olyan, hogy legnehezebb nyelv, csupán annyi mondható egy nyelvről, hogy egy bizonyos kultúrával és anyanyelvvel rendelkező számára a legnehezebben értelmezhető és elsajátítható.

Egyébként a jól megválasztott nyelvkönnyel és munkafüzettel történő tanulás nekem mindig bejött, csak azt követően használtam a netet is a nyelvtanuláshoz, amikor már elértem egy bizonyos szintet.

A nem latin írásrendszerrel rendelkező nyelvek esetén a legelején persze szintén tagmondatokat érdemes megtanulni, sokkal nehezebb valamilyen fogalmi keretbe helyezni őket. Így például az orosz és az arab írásjeleit csak úgy tudtam megtanulni annyira, amennyire, hogy kivágott papírsablonokon, majd papírsablonok nélkül rajzoltam meg a különböző betűket, ahogyan tanultam írni általános iskolában is. Azonban itt is jól megfigyelhető, az elsődlegesség, mint sajátosság, nevezetesen az, hogy a cirill betűket még hosszas gyakorlás után is akaratlanul annak megfelelően formáltam egy idő után, ahogy a latin betűket írtam, ha azokban volt hasonlóság, ilyen például a latin b és az orosz

Ha valakinek csak nehézkesen megy a nyelvtanulás, először érdemes átgondolni, hogy megfelelő módszer-e az, amivel egyáltalán próbálkozik. Ezt sajnos a nyelvtanárok többsége sem tudja, csupán azt, hogy általában, a diákok többségénél mi hatékony. Miután ez megvan, le kell vetkőzni a nyelvtanulással kapcsolatos félelmeket, majd úgy nekifutni a feladatnak.

Elképesztően sok ostobaságot hallottam és olvastam a nyelvtanulással kapcsolatban az utóbbi néhány évben, azaz legyünk mindig kellően szkeptikusak, amikor valaki meg akarja mondani a tutit azzal kapcsolatban, hogy mi is az igazi jó módszer. Hogy kinek mi, alighanem nagyban függ attól, hogy az idegen nyelvvel való első találkozása milyen volt. Akit behatóbban érdekel, hogy miért is teljesen más műfaj egy-egy nyelvet beszélni, írni és olvasni, főleg, ha nem az idegen nyelvünk, a fent jelölt könyveket tudom ajánlani.

Kép: Wikipedia

Pontosabb, bővebb magyarázat? Kapcsolatfelvétel? Kattints ide!

0 Tovább

bardóczi ákos2015. szeptember 03. 12:59

Felzárkóztató a nyelvtudomány, a helyesírás és a nyelvi kultúra kapcsolatáról

Avagy néhány tény, amit eddig nem tudtál a témában, pedig érdemes tudni róla, szigorúan szubjektíven.

A 444 már egy augusztus 27-ei cikkében azon vicceskedett, hogy jön az új "helyesírási szabályzat" (sic!) #ésezmijengázmár, a cikket ugyan nem olvastam végig, viszont így is világos, hogy a lényeget még azok sem vágják, akiknek nagyon illene, például az újságírók.

Az első és legfontosabb, hogy a helyesírás avagy ahogyan sokan ismerik nyelvtan és nyelvhelyesség több irányzat szerint nem előírja, hogy hogyan KELL, használni a nyelvet, hanem pont ellenkezőleg, arról ad egy leírást, ahogyan a nyelvet aktuálisan általában hogyan használjuk és ajánlásokat fogalmaz meg azzal kapcsolatban, hogy az adott nyelv logikája alapján, egy-egy kifejezést hogyan érdemes leírni /*helyesírás*/ illetve szövegkörnyezetében használni /*nyelvhelyesség*/.

Amit alighanem szintén nem tud a többség, hogy az MTA Nyelvtudományi Intézetének helyesírással foglalkozó kutatócsoportja nem valamiféle zombikból álló ultrakonzervatív gittegylet, ahol még a golyóstoll is újdonság, hanem többek közt olyan mesterséges intelligenciával rokon, számítógépes nyelvészeti eszközkészleteket vetnek be a nyelv elemzésére, mint amilyen a machine learning és igen, ők történetesen nem csak beszélnek a big datáról, hanem használják is. Amolyan modoros-maníros fanyar tény, hogy programozás területén pont azok a helyesírás kutató nyelvészek vernék le az átlagos képességű programozókat és más, műszaki-természettudományi jómunkásembereket, akik most az új helyesíráson röhögnek és minden valószínűség szerint hülyén halnak meg, ha nem értik meg, hogy hol is a humanities helye a tudományok térképén.

Szóval nem, drága barátaim, nem kevesen épphogy ti vagytok az elmaradott buta faszok, mert nem tudjátok, hogy mi a helyesírás feladata, szerepe, kutatásának módja és mi nem az.

Mindennek a legalja amúgy az volt, amikor néhány éve egy erősen Zs-kategóriás egyetemi informatikus hallgatókat tömörítő csoportban arra pörögtek rá többen, hogy a kommentjeimben helyesírási hiba fordult elő, ésháteztígyhogy. Na, akkor segítek: egy nyelvésztől vagy olyantól, aki foglalkozott nyelvészettel, azt elvárni, hogy a helyesírása tökéletes legyen, pont akkora ostobaság, mintha mondjuk egy matematikustól várnák el, hogy 8-10 számjegyű számokkal tudjon egy pillanat alatt pontosan fejben számításokat végezni.

Ott ugyan próbáltam kiemelni, hogy amire ők gondolnak, az helyesírás avagy "nyelvtan", ami egy külön terület, én viszont nem foglalkoztam ezzel soha, mindez az érvelés hiábavaló volt, mert egy csoportban lévő, korábban egyetemi oktatóként dolgozó, jobb sorsra érdemes szerencsétlen borgőzös, cefreszagú demagóg hőbörgése adta a lovat az Isten adta nép alá, aki pedig értelmesen tudott volna hozzászólni a dologhoz, inkább bölcsen hallgatott.

Szintén fontos megjegyeznem, hogy a témában minimálisan is jártas ember általában nem köt értékítéleteket ahhoz, ha a konvencionálistól eltérő helyesírással vagy nyelvhasználattal találkozik. Amihez már lehet értékítéletet kötni - csak nem feltétlenül elegáns - ha olyan szöveggel találkozunk, amiben amellett, hogy ordas helyesírási hibák vannak, olyan nyelvhasználati kultúrára enged következtetni, ami alapján feltételezhetjük, hogy az írásmű szerzője tényleg nem olvasott összesen 5 könyvet életében :) :) :) Viszont önmagában a szokásostól eltérő nyelvhasználat láttán értékítéletekben gondolkozni, nem elegáns és tudománytalan. Ha én szögletes illetve kerek zárójel jelölésére a C-stílusú kommentjelent használom szivesen, ezen kívül a mondatot néha kötőszóval nyitom, mert csak, ez az idilektusom része, legfeljebb van, akinek nem tetszik.

Márpedig ez fontos, ugyanakkor olyat is láttam, amikor valakinek a helyesírása ugyan nem tért el jelentősen a megszokottól, viszont a nyelvhasználati kultúra mégis annyira gyatra volt, hogy gyakorlatilag a figura képtelen volt egy szövegnek felismerni egynél több konnotációját, aztán feldobta, hogy egy kommentben definiáljam neki a plágium mibenlétét... #szellemi_ökölcsapás_a_múltból #nyomokban_pécsezést_tartalmaz

Pontosabb, bővebb magyarázat? Kapcsolatfelvétel? Kattints ide!

0 Tovább

bardóczi ákos @post.r

About...