• Intelligens keresés
  • szövegbányászat
  • agilis szoftverfejlesztés

Egy okos kereső életeket menthet

2017. december 5., kedd

Terrortámadás a Boston Marathonon

A Boston Marathon a világ legnagyobb múltú éves maraton futóversenye. A világ egyik legismertebb utcai versenyeként több mint harmincezer résztvevőt és több mint fél millió nézőt vonz évente – ezzel New England legnézettebb sporteseményének számít. 2013. április 13-án, a 117. maraton közben két nagy erejű bomba robbant több ezer, a Boylson út mentén álló néző között. Három személy azonnal életét vesztette, további 264 megsérült, akik közül többek végtagjait amputálni kellett. A halálesetek száma még magasabb lett volna, ha nem lett volna a helyszínen több egészségügyi szakember is. A robbantást a 26 éves Tamerlan Tsarnaev és testvére, a 19 éves Dzhokhar Tsarnaev hajtotta végre. Az elkövetőkről kiderült, hogy mindketten a radikális iszlám követői, akik az Al-Qaeda online magazinból tanulták meg, hogyan kell bombát készíteni. Miután elmenekültek a helyszínről, meggyilkoltak egy MIT rendőrt. Az intenzív hajszát és tűzharcot követően Tamerlant megölték, Dzhokhart letartóztatták. Tamerlant és egy másik társát később összefüggésbe hozták egy korábban megoldatlan hármas gyilkosság elkövetésével.

Boston Marathon explosions

Forrás: Wikimedia Commons

Hajsza a terroristák után

2011 márciusában az Orosz Szövetségi Biztonsági Szolgálat (FSB) ügynökei felvették a kapcsolatot az FBI-jal, és figyelmeztették amerikai kollégáikat, hogy Tamerlan Tsarnaev radikálissá vált és biztonsági kockázatot jelent. A megosztott információ igen részletes volt: a Tsarnaev család több tagjainak címét és telefonszámát is tartalmazta. Az oroszok továbbá arról tájékoztatták az amerikaiakat, hogy Tamerlan kapcsolatba került erőszakos iszlám szélsőségesekkel, köztük William Plotnikov-al, akit megöltek a dagestani harcok során.

A Bostoni Közös Terrorizmus elleni Erő (Boston Joint Terrorism Task Force, BJTF), a nyomozás során rögzítette az adatokat Tsarnaevról a vám- és határvédelmi (Customs and Border Protection, CBP) adatbázisba, amelyet Államkincstári Végrehajtó Kommunikációs Rendszernek (Treasury Enforcement Communications System, TECS) neveznek. Ez az adatbázis tulajdonképpen egy megfigyelési lista, amelynek az a célja, hogy minden egyes alkalommal riasszon, amikor Tamerlan belép az USA-ba vagy kilép az ország területéről. 2011 szeptemberében az FSV megkereste a CIA-t, hogy megismételje a figyelmeztetéseket, amelyeket korábban az FBI-nak küldött. A CIA megosztotta a kapott információt a Nemzeti Terror-elhárítási Központtal (National Counterterrorism Center, NCTC), és kezdeményezte, hogy vegyék fel a nevet a központi, az USA kormánya által kezelt adatbázisba, a Terrorista Azonosító Adatbank Környezetbe (Terrorist Identities Datamart Environment, TIDE). Ez az adatbázis 700 000 nevet tartalmaz és az USA kormánya által kezelt további megfigyelési listák forrásául szolgál, úgy mint a TECS; az FBI Terrorista Ellenőrző Adatbázisa (Terrorist Screening Database); vagy a Közlekedés-biztonsági Hivatal „nem repülhet” listája. Az utasítások, amelyeket felvettek az adatbázisba egyértelműek és kötelezőek voltak.

 

Probléma a névazonosítással

Ha Tamerlant elkapták volna a több ezer határátlépése során, akkor azonnal megállították és letartóztatták volna, amint megérkezett a New York-i JFK Nemzetközi Repülőtérre 2012 júliusában. Azonban semmilyen riasztás nem érkezett, mert a számítógépes rendszerek, amelyek a megfigyelési listákat ellenőrizték, nem tudták azonosítani Tamerlan nevét. Az ezt követő nyomozások során, sok megfigyelő, köztük Lindsey Graham szenátor is, a hiba okának a név elírását tartotta. A legtöbb modern számítógépes rendszer azonban, így a keresőmotorok is, képesek az elgépelésből adódó hibákat automatikusan kijavítani. Ha a shakspeer szóra keresünk például, a Google és a Bing is a Shakespeare kifejezésre ad találatot. Ha hasimoto-t gépelünk be, a hashimoto-ra kapunk találatot.

Sajnos a TECS és a TIDE kereskedelmi szoftvereket azonban úgy fejlesztették, hogy csak az angol neveket találják meg, mint például a Jones-t és a Smith-t. Abban az esetben, ha más nyelvekben előforduló nevekkel van dolgunk, több tízezer más karaktert használhatunk, amelyeknek nem mindig van közvetlen megfelelőjük az angol nyelvben. Ilyen például a csecsen eredetű Tsarnaev, amelyet Царна́ев-nek írnak, bár a különböző átírásoknak köszönhetően a Tsarnayev vagy a Carnáev is helyes alakok.
Hasonlóan a 富士田-hoz, amelyet Fujita-nak vagy Huzita-nak is írhatunk. Ezek az átírási alternatívák azonban rendkívül zavarók lehetnek egy olyan tisztviselő számára, aki csak angolul tud.

identity-resolution

Tamerlan Tsarnaev feltartóztatásának elmulasztása nem az első hiba, amelyet a CBP és NCTC számítógépes rendszerek idáig elkövettek. 2009 december 25-én ugyanezek a rendszerek engedélyezték, hogy Farouk Abdulmutallab felszálljon a 253-as észak-nyugati járatra egy oda útra szóló jeggyel a zsebében és egy nagy erejű robbanószerkezettel az alsóneműjében. A gép mind a háromszáz utasa meghalt volna, ha nincs egy éles szemű és bátor utas a szomszéd ülésen, aki visszatartotta Abdulmutallabot és megakadályozta, hogy élesítse a robbanószerkezetet. Abdulmutallab annak ellenére kapott engedélyt a beszállásra, hogy hat héttel előtte az NCTC felvitte a nevét a TIDE-ba. A kísérletet követően a Fehér Ház vizsgálata megállapította, hogy Abdulmutallab nevének elírásából kezdetben az következett, hogy az USA Külügyminisztériuma azt hitte, nincs érvényes amerikai vízuma.

Ki a hibás? A vámőr vagy a hírszerzési elemző, aki elírta a keresett személy nevét? Vagy a számítógépes rendszer, amely nem mutatta ki az egyezést?

 

Hatékony névazonosítás

A Basis Technology az ilyen és hasonló esetek elkerülése érdekében fejleszt szoftvereket és kínál hatékony megoldást a „nem-repülhet” listákra és a pénzügyi megfelelőséget figyelő listákra. Mivel a világ utazóinak neve több tucat nyelvből eredhet, a szoftver – azáltal, hogy képes ezeket a nyelveket felismerni – jelentősen megnöveli az automatizált figyelő listák ellenőrző rendszereinek pontosságát. A pontosság növelése pedig segíthet, hogy a következő Omar Farouk Abdulmutallabot megakadályozzák abban, hogy felszálljon a gépre, illetve a következő Tamerlan Tsarnaevet, hogy átlépje a határt.

Carl Hoffman, Basis CEO írása alapján

 

A Basis Technology szoftver megoldásokat kínál a szövegelemzés, az információ kinyerés, a számítástechnikai bűnüldözés és személyazonosság-meghatározás területén több mint negyven nyelven. RosetteA Rosette, amely az amerikai cég legfontosabb terméke, olyan nyelvészeti platform, amely széles körben használt, nagy teljesítményű és megbízható komponensekkel a keresést, az üzleti intelligenciát, a közösségi média felügyeletét, a pénzügyi megfelelősséget és más vállalati alkalmazást támogat. A Basis Technology nyelvészeti csapata az alkalmazott természetes nyelvfeldolgozás élén jár a statisztikai modellezés, a szakértői szabályok és a korpusz alapú adatok kombinációját használva. A vállalat kriminalisztikai területén úttörő munkát végeznek. Munkájuk célja, hogy a bűnügyi bizonyítékok elérhetővé váljanak, segítve ezzel a törvények végrehajtását és Egyesült Államok kormányát. A cég központja Cambridge-ben (Massachusetts) van, irodáik szerte a világban (Washingtonban, Londonban, Tel Avivban és Tokyoban) megtalálhatók. 

 

Cégünk, a Precognox a Basis Technology egyetlen magyarországi partnereként az amerikai cég által fejlesztett technológiák hivatalos viszonteladója és integrátora. Az általunk készített keresési és szövegbányászati megoldásokban elérhető lehet a cikkben leírt névindexelési megoldás is. További információért keressen bennünket az info@precognox.com e-mail címen, vagy a +36 20/8861391 telefonszámon.

Tagságaink

NLP meetup NLP meetup
Language Technology Innovate
Nyelv- és Beszédtechnológiai Platform
Informatikai Vállalkozások Szövetsége (IVSZ)
Enterprise Europe Network
Információmenedzsment Innovációs Klaszter Információmenedzsment Innovációs Klaszter
Referenciák