Hogyan lehetséges webes adatok felhasználása a RapidMiner-ben?

Rapidminer, Precognox

RapidMiner olyan adatkezelő platform, mely integrált környezetet biztosít az adatok előkészítéséhez, a gépi tanuláshoz és a prediktív elemzéshez. A RapidMiner ezeken felül alkalmas a vállalati belső adatforrások tartalmának vizualizációjára is.
De mit tegyünk akkor, ha a rendelkezésre álló adatbázisokon túlmenően a külső, interneten elérhető adatokat is szeretnénk felhasználni a RapidMiner alkalmazáson belül?
A megoldás alapját a Precognox TAS Data Collector szolgáltatása adja, mely az interneten elérhető strukturálatlan adatok legyűjtését és ezen adatok strukturált adatbázisba történő rendezését is elvégzi. A kapott strukturált adatbázis (MySQL) pedig már alkalmas a RapidMiner alkalmazásban történő munkavégzésre.

A folyamatot az alábbiakban mutatjuk be lépésről-lépésre:

1. Az adott weboldal (mint adatforrás) kiválasztása, letöltése

Rapidminer, Precognox

A kiválasztott webes adatokat (példánkban a Keresővilág Blog weboldal tartalmát mutatjuk) első lépésben a Data Collector szolgáltatás segítségével letöltjük. A weben található strukturálatlan adatok (szöveges tartalmak) esetében a letöltés mellé azonban számos feladat (adattisztítás, validálás) társul, melyeket szakembereink végeznek el. Ezen munkafolyamatok megvalósításának eredményeképpen a letöltött adatokból strukturált adatbázis kerül létrehozásra, melyet a későbbiekben is folyamatosan frissítünk, így mindig az aktuális adatok válnak elérhetővé és felhasználhatóvá.
A letöltött adatokhoz egy biztonságos, jelszóval védett csatornán keresztül kap hozzáférést (server adatot, felhasználónevet és jelszót) a felhasználó.

2. Az adatok betöltése a RapidMiner kezelőfelületén az Import Data menüpontra, majd a Database gombra kattintva lehetséges:

Rapidminer, Precognox

Kattintás a New Connection gombra

Rapidminer, Precognox

Itt kell megadni az adatbázishoz való csatlakozáshoz szükséges adatokat, amelyeket előzetesen tőlünk kap meg a felhasználó, majd OK gombra történő kattintás

Rapidminer, Precognox

3. Az adatbázis kiválasztása, utána kattintás a Next gombra

Rapidminer, Precognox

4. Az adatok betöltése után következhet azok kezelése és vizualizációja a megszokott módon

Rapidminer, Precognox

példa az elkészült vizualizációra

Az elkészült vizualizáció amellett, hogy betekintést nyújt a webes forrás tartalmába, komoly üzleti előnyt is jelent hiszen prezentációk, üzleti jelentések, értékelések vagy akár konkurenciaelemzések alapjául is szolgálhat. Ily módon aknázható ki az Interneten található hatalmas adatmennyiségben rejlő potenciál.

A TAS Data Collector működéséről és előnyeiről a TAS Text Analytics System oldalán olvashat bővebben.

A TAS Data Collector által biztosított strukturált adatbázisok – az integrációnak köszönhetően – a legtöbb ismert business intelligence eszközzel (Tableau, PowerBI, Google Data Studio, IBM SPSS) vizualizálhatók.

Képek: RapidMiner kezelőfelület és vizualizáció