• Intelligens keresés
  • szövegbányászat
  • agilis szoftverfejlesztés

Milyen problémákkal szembesülhetünk miközben különböző forrásokból próbálunk szöveges és más adatokat gyűjteni?

Ha olyan adatokra van szükség melyek:

  • egymástól független és nagyon különböző weboldalakon vagy más cégen belüli vagy külső forrásokban (pl. cikkek, PDF vagy más formátum) találhatók;

  • struktúrálatlan formában vannak jelen- számítógépes nyelvészeti (NLP – Natural Language Processing) eszközök vagy manuális munka szükséges ahhoz, hogy a szükséges információt jó minőségben lehessen legyűjteni;

  • tele vannak hibás adatokkal melyeket fel kell tárni, javítani és tisztítani;

  • forrásai minden előzetes bejelentés nélkül változnak, ezért állandó frissítés szükséges.

Néhány probléma már a kezdetektől nyilvánvaló lehet de előfordulhatnak olyanok is, melyek csak hosszabb használat során jelentkeznek. Ezért van szükség egy olyan megoldásra mely nemcsak a technikai akadályokat hárítja el, hanem a fent említett szituációkat is kezeli.

Miért egyedülálló a TAS (Text and Data Analytics System) rendszerünk?

TAS - Precognox Text Analytics System

Egy felhasználóbarát felületről van szó, ahol az összes projekt könnyen kezelhető, az adatforrások státusza egy helyen látható és könnyen kezelhető mint egy egyszerű sql tábla.

A TAS technológiai szállító semleges (vendor-agnostic); vagy az Ön által preferált nyelvészeti eszközöket (pl. IBM Watson, Kconnect) illetve szövegfeldogozási keretrendszereket (pl. GATE, UIMA) használjuk fel, vagy ha úgy kívánja kiválasztjuk mi azt az eszközt (Rosette API, OpenNLP, Stanford NLP, etc) ami az adott feladatnak a legjobban megfelel.

A legyűjtött szöveges adatokat igény szerint nyers adatként szállítjuk, vagy áttekintő dashboard felületet készítünk hozzá, vagy egy kereshető API-n keresztül a Solr alapú Precognox Search segítségével tesszük elérhetővé.

Holisztikus szemléletmódunknak köszönhetően a megrendelő arra fókuszálhat, amire a legyűjtött adatokat használni kívánja. A háttérben folyamatosan zajlik a fejlesztés és első osztályú QA csapatunk a szükséges teszt stratégia kidolgozásával és alkalmazásával biztosítja a tiszta adatokat és a megfelelő minőséget.

A szövegbányászat közben felmerülő problémák elhárításához szükséges szakemberek és eszközök mind rendelkezésünkre állnak: annotátorok, szoftverfejlesztők, számítógépes nyelvészeti (NLP)  és mesterséges intelligencia szakértők, különböző adatbányászati eljárások, illetve projekt menedzsment.

Eredményeink:

o Több száz portálról gyűjtöttünk és tettünk kereshetővé álláshirdetéseket.

o Legyűjtöttünk és kereshetővé tettünk ún. „limitált edition” termékeket a Limeset számára.

o Számos ügyfelünk részére gyűjtöttünk le és tisztítottunk meg közbeszerzési adatokat sokféle forrásból.

o  Ügyfeleink részletesebb listáját itt találja

 

Önnek is segítünk!

További információért vegye fel velünk a kapcsolatot! Kérjük, röviden írja le nekünk, hogy miben tudnánk Önnek segíteni.

 

Tagságaink

NLP meetup NLP meetup
Language Technology Innovate
Nyelv- és Beszédtechnológiai Platform
Informatikai Vállalkozások Szövetsége (IVSZ)
Enterprise Europe Network
Információmenedzsment Innovációs Klaszter Információmenedzsment Innovációs Klaszter
Referenciák