• Intelligens keresés
  • szövegbányászat
  • agilis szoftverfejlesztés

Milyen problémákkal szembesülhetünk miközben különböző forrásokból próbálunk szöveges és más adatokat gyűjteni?

Ha olyan adatokra van szükség melyek:

  • egymástól független és nagyon különböző weboldalakon vagy más cégen belüli vagy külső forrásokban (pl. cikkek, PDF, DOC, XLS vagy más formátum) találhatók;

  • strukturálatlan formában vannak jelen, ezért összetett számítógépes feldolgozás vagy manuális munka szükséges ahhoz, hogy a szükséges információt jó minőségben lehessen legyűjteni;

  • tele vannak hibás adatokkal melyeket fel kell tárni, javítani és tisztítani;

  • forrásai minden előzetes bejelentés nélkül változnak, ezért állandó frissítés szükséges.

A felsoroltak közül néhány probléma már a kezdetektől nyilvánvaló lehet, de lesznek olyanok is, melyek csak hosszabb használat során jelentkeznek. Ezért van szükség egy olyan megoldásra, amely nemcsak a technikai akadályokat hárítja el, hanem a fent említett szituációkat is kezeli.

Miért egyedülálló a TAS (Text and Data Analytics System) rendszerünk?

TAS - Precognox Text Analytics System

Létrehoztunk egy felhasználóbarát felületet, ahol az összes projekt könnyen kezelhető, az adatforrások státusza egy helyen látható és könnyen kezelhető, mint egy egyszerű sql tábla.

A TAS technológiai szállító semleges (vendor-agnostic); kiválasztjuk az adott célra szerintünk legjobb eszközt, vagy az Ön által preferált nyelvészeti eszközöket (pl. Rosette API, OpenNLP, Stanford NLP, IBM Watson, Kconnect) illetve szövegfeldolgozási keretrendszereket (pl. GATE, UIMA) használjuk fel.

A legyűjtött szöveges adatokat igény szerint nyers adatként szállítjuk, vagy áttekintő dashboard felületet készítünk hozzá, vagy egy kereshető API-n keresztül a Solr alapú Precognox Search segítségével tesszük elérhetővé.

Holisztikus szemléletmódunknak köszönhetően a megrendelő arra fókuszálhat, amire a legyűjtött adatokat használni kívánja, mi minden mást megoldunk. A háttérben folyamatosan zajlik a fejlesztés, és első osztályú QA csapatunk a szükséges teszt stratégia kidolgozásával és alkalmazásával biztosítja a tiszta adatokat és a megfelelő minőséget.

A szövegbányászat közben felmerülő problémák elhárításához szükséges szakemberek és eszközök mind rendelkezésünkre állnak: annotátorok, szoftverfejlesztők, számítógépes nyelvészeti (NLP)  és mesterséges intelligencia szakértők, különböző adatbányászati eljárások, illetve projekt menedzsment.

Eredményeink:

o Több száz portálról gyűjtöttünk és tettünk kereshetővé álláshirdetéseket.

o Legyűjtöttünk és kereshetővé tettünk ún. „limitált edition” termékeket a Limeset számára.

o Számos ügyfelünk részére gyűjtöttünk le és tisztítottunk meg közbeszerzési adatokat sokféle forrásból.

o  Ügyfeleink részletesebb listáját itt találja

 

Önnek is segítünk!

További információért vegye fel velünk a kapcsolatot! Kérjük, röviden írja le nekünk, hogy miben tudnánk Önnek segíteni.

 

Megosztas Facebook-on     Tweet

Tagságaink

NLP meetup NLP meetup
Language Technology Innovate
Nyelv- és Beszédtechnológiai Platform
Informatikai Vállalkozások Szövetsége (IVSZ)
Enterprise Europe Network
Információmenedzsment Innovációs Klaszter Információmenedzsment Innovációs Klaszter
Referenciák