Mintakeresés az adatok tengerében

Ez a bejegyzés a 6 része a 27 sorozatban AI alapok sorozatban

Az elmúlt harminc év során a gépi tanulás (machine learning) vált az mesterséges intelligencia (artificial intelligence, AI) domináns formájává. Ezek a rendszerek rendkívül hatékonyak az adathalmazokban rejlő minták felismerésében, ami részben a digitális adatok széles körű elérhetőségének köszönhető.

Adatok: a gépi tanulás üzemanyaga

Gondoljunk csak bele, ha egy mesterséges intelligencia programot szeretnénk készíteni, amely képes kutyákat azonosítani, mára hozzáférhetünk milliók számára képekhez. Ezeket az adatokat táplálhatjuk a hálózatba, segítve ezzel a tanulási folyamatot. Hasonló a helyzet más adattípusokkal is, legyen szó digitális videóról, hangról, képekről vagy dokumentumokról. Néhány évtizede még rendkívül nehéz lett volna akár csak néhány ezer digitális képet beszerezni, ma már triviális feladat bármilyen adattípus hozzáférhetővé tétele.

Minél több adatot táplálunk a hálózatba, annál könnyebben azonosítja a mintákat a gép. Gondoljunk csak a jelenleg használt rendszerre: egy szakmai közösségi hálózaton keresztül videótréningeket nézhetünk egy online videólejátszón keresztül. Ez a lejátszó gyűjti az adatokat arról, hogy milyen gyakran tekintünk előre, vagy meddig nézzük a videót, mielőtt továbblépünk a következő leckére.

Adatokból minták

Tegyük fel, hogy a lejátszó rögzíti ezeket az adatokat minden egyes néző számára. Ez akár százezrek számára videót és milliók felhasználóit jelentheti. Ez rengeteg adat, amit egyetlen ember sem képes áttekinteni és értelmezni. Viszont a gépi tanulási algoritmusok (machine learning algorithms) átkutatják ezeket az adatokat, és felfedezik a mintákat. Megfigyelhetjük, hogy a felhasználók mely tartalmakat találják érdekesebbnek.

Ez pontosan az a típusú adat, amit sok vállalat keres. Valós időben láthatjuk, hogy a vásárlók hogyan lépnek kapcsolatba a termékkel. Ez az adat nemcsak a vásárlók érdeklődéséről árulkodik, hanem szélesebb iparági trendekről is információt nyújthat.

Adatok értéke

Ezek az adatok óriási értékkel bírnak. Felhasználhatjuk őket új vásárlói termékek kifejlesztésére vagy a meglévő termékek fejlesztésére. Nem véletlen, hogy olyan vállalatok, mint a Google és a Microsoft, a leglelkesebbek az AI fejlesztése terén. Sok tekintetben az ő üzleti modelljük is ezen az alapon épült fel: gépek segítségével értelmeznek masszív adathalmazokat. Ez a típusú mintaegyeztetés (pattern matching) hatalmas versenyelőnyt jelenthet.

A legújabb mesterséges ideghálózatok (artificial neural networks) most már lehetővé teszik a gépek számára, hogy még nagyobb adatkészletekben találjanak mintákat, amiket néhány évtizeddel ezelőtt a hagyományos gépi tanulási algoritmusok észre sem vettek volna.

A „fekete doboz” probléma

Az egyik legnagyobb kihívás a gépi tanulásban, hogy az emberek gyakran nem értik, hogyan azonosítja a gép ezeket a mintákat. Ez a folyamat olyan, mint egy „fekete doboz” (black box) adatokkal és feldolgozási kapacitással. Egyszerűen az emberek nem képesek ugyanazon szinten feldolgozni az adatokat.

Ha egy szervezet saját AI programot indít, tudomásul kell vennie, hogy a hálózat olyan dolgokat érzékelhet, amelyeket az emberek nem. Ez a legtöbb vállalat számára nem jelent problémát, de bizonyos iparágakban, mint az biztosítások és az egészségügy, komoly problémát jelenthet. Nem szeretnénk, hogy ezek a rendszerek olyan döntéseket hozzanak a vásárlók egészségéről és biztonságáról, amelyeket az emberek nem értenek.

Összefoglaló gondolatok

Bár az mesterséges intelligencia nem ugyanaz, mint az emberi intelligencia, és bár hasonló következtetésekre juthatunk, a folyamatok jelentősen eltérnek. Fontos, hogy minden szervezet, amely gépi tanulást alkalmaz, tudatában legyen annak, milyen adatokat gyűjt és milyen mintákat azonosít a gép, és milyen céllal.

Sorozat navigáció<< Mesterséges ideghálózatok megértéseA robotika hatása a mindennapjainkra >>