Adatminőség és AI-kockázatok kezelése a felelős AI irányításban

Egy AI-rendszer kimenete gyakran pontosnak látszik, mert számszerű, gyors és következetes formában jelenik meg. A szervezeti kockázat mégis sokszor nem a modellnél kezdődik, hanem jóval korábban: ott, ahol eldől, milyen adatból tanul, milyen adatot kap működés közben, mit tárol, és mit ad tovább.

Az adatkezelés és az adatminőség ezért nem technikai háttérfeladat, hanem az AI irányítási rendszer egyik központi irányítási kérdése. Egy szervezet csak akkor tud felelősen AI-t használni, ha az adatok eredete, jogszerűsége, pontossága, reprezentativitása, védelme és felhasználási korlátai ellenőrizhetőek. Az ISO/IEC 42001 logikája szerint az AI irányítása nem egyetlen modell jóváhagyását jelenti, hanem a célok, felelősségek, folyamatok, kockázatok és bizonyítékok rendszeres kezelését.

Miért adatirányítási kérdés az AI?

Az AI-rendszerek működését könnyű kizárólag modellkérdésként kezelni. A gyakorlatban azonban a modell csak egy része annak a döntési láncnak, amelyben üzleti célok, folyamatok, adatok, felhasználók, kontrollok és felelősségi pontok kapcsolódnak össze. Ebben a láncban az adat nem bemenet, hanem irányítási kockázat, mert a hibás adat hibás működéshez, hibás döntéstámogatáshoz és gyenge auditálhatósághoz vezethet.

Egy AI-rendszer teljesítménye jelentős részben attól függ, milyen adatból tanul, milyen adatot használ működés közben, milyen adatot tárol, és milyen adatot továbbít más folyamatoknak. Ha az adat hiányos, elavult, torz vagy nem a megfelelő célra gyűlt, a modell kimenete akkor is félrevezető lehet, ha technikailag jól építették meg. Ilyenkor a jó modell sem javítja meg a rossz adatot, legfeljebb gyorsabban és következetesebben termeli újra annak hibáit.

Az AI irányítási rendszer szempontjából ezért az adatkezelés nem szűk adatvédelmi vagy informatikai feladat. Ide tartozik az adatforrások azonosítása, az adathasználati cél tisztázása, a jogszerűség vizsgálata, a minőségi kritériumok meghatározása, az adatvédelem, az adatbiztonság és a működési monitoring. A NIST AI Risk Management Framework is az AI-kockázatok szervezeti kezelését, mérését, irányítását és kommunikációját hangsúlyozza, nem pusztán a technikai modellfejlesztést.

Az adatminőségi hiba többféle következménnyel járhat. Egy ügyfélpanasz-elemző rendszer például rosszul csoportosíthatja a panaszokat, ha a múltbeli kategóriák következetlenek voltak. Egy HR-előszűrő torz rangsort készíthet, ha a korábbi kiválasztási adatok eleve egyenlőtlen mintázatokat hordoznak. Egy csalásfelderítő rendszer túl sok hamis riasztást adhat, ha a működési környezet megváltozott, de a modellhez kapcsolódó adatfrissítési kontrollok nem követték ezt.

A szervezeti felelősség ott jelenik meg, hogy a döntéshozók nem hivatkozhatnak pusztán arra: „ezt adta a rendszer”. Egy AI-kimenet használata mindig szervezeti döntés is. A kontrollált működésben az adatminőség a döntési bizonyíték része, vagyis nemcsak azt kell tudni, mit mondott a modell, hanem azt is, milyen adat alapján mondta.

Az adatirányítási kérdések különösen fontossá válnak, amikor az AI-rendszer emberek jogaira, lehetőségeire, szolgáltatáshoz való hozzáférésére vagy szervezeti megítélésére hat. Ilyen helyzetekben az adatminőség már nem belső hatékonysági kérdés, hanem megfelelőségi, etikai és reputációs kockázat. Ha az adat nem megfelelő, a kimenet nemcsak pontatlan lehet, hanem méltánytalan vagy jogilag problémás is.

Az AIMS célja ebben a környezetben az, hogy az adatkezelési és adatminőségi kérdések ne esetleges fejlesztői megjegyzések maradjanak. A szervezetnek szabályoznia kell, milyen bizonyíték szükséges az adatok elfogadásához, ki hagyja jóvá az adatforrást, mikor kell újraértékelni az adatminőséget, és hogyan kell kezelni az adatból fakadó incidenseket. Ebben az adatkontroll a felelős AI-használat alaprétege, amely nélkül a modellkontroll is bizonytalan marad.

Az adatirányítás tehát nem lassítja az AI alkalmazását, hanem megbízhatóbbá teszi. A szervezet számára az a kérdés nemcsak az, hogy milyen AI-eszközt érdemes használni, hanem az is, hogy az eszköz milyen adatviszonyok között használható felelősen. Ez a gondolkodás teremti meg az alapot a kockázatértékeléshez, a kontrollkiválasztáshoz és az auditálhatósághoz.

Tanítóadat, validációs adat és működési adat

Az AI-rendszerek adatkezelési kockázatait csak akkor lehet pontosan értékelni, ha különbséget teszünk az adatok szerepei között. A tanítóadat, a validációs adat és a működési adat nem ugyanazt a célt szolgálja. Egy szervezetnek ezért az adat szerepe határozza meg a kontrollt, nem pusztán az adat típusa vagy formátuma.

A tanítóadat az a történeti vagy előkészített adatállomány, amelyből a modell mintázatokat tanul. Ha ez az adat pontatlan, egyoldalú, hiányos vagy rosszul címkézett, akkor a modell már a tanulási szakaszban hibás összefüggéseket vehet át. Ez különösen fontos olyan rendszereknél, amelyek ügyfeleket, panaszokat, munkavállalókat, kockázatokat vagy dokumentumokat osztályoznak.

A validációs és tesztadat célja más. Ezek az adatok azt szolgálják, hogy a szervezet ellenőrizze: a modell nemcsak a tanítóadatokra működik jól, hanem új, korábban nem látott adatokon is elfogadható teljesítményt mutat. Itt a validáció nem formalitás, hanem kockázati próba, mert segít felismerni a túlillesztést, a gyenge általánosíthatóságot és a rejtett hibamintákat.

A működési adat az, amellyel a modell éles környezetben találkozik. Ez lehet aktuális ügyfélüzenet, panaszleírás, tranzakciós adat, dokumentum, kérés vagy belső folyamatadat. A működési adat minősége idővel változhat, mert változik az ügyfélviselkedés, a termékkör, a piaci környezet, a belső folyamat vagy a kommunikációs csatorna. Ezért a működési adat nem egyszeri ellenőrzést, hanem folyamatos figyelmet igényel.

A három adatfajta eltérő kérdéseket vet fel:

Adattípus

Fő cél

Tipikus kockázat

Szükséges bizonyíték

Tanítóadat

Mintázatok megtanulása

torzítás, hibás címkézés, hiányosság

adatforrás-leírás, címkézési szabály, minőségi vizsgálat

Validációs adat

Teljesítmény ellenőrzése

túl szűk tesztelés, nem reprezentatív minta

validálási terv, teszteredmény, hibaminta-elemzés

Működési adat

Éles használat

adatdrift, elavulás, hibás bevitel

monitoring, naplózás, újraértékelési szabály

Tárolt adat

Visszakereshetőség és tanulás

túlzott megőrzés, pontatlanság, jogosulatlan hozzáférés

megőrzési szabály, hozzáféréskezelés, törlési rend

Továbbított adat

Integráció más folyamatokkal

célon túli használat, kontextusvesztés

adatáramlási térkép, átadási szabály, felelősségi pont

Az adatminőségi szabványosítás is ezt az irányt erősíti. Az ISO/IEC 5259-2 a gépi tanulási és analitikai környezetekben alkalmazható adatminőségi modellre és mérhető jellemzőkre fókuszál, ami segíti az adatok megbízhatóságának és alkalmasságának szervezeti értékelését.

A tanítóadatoknál az egyik fő kérdés az eredet. Tudni kell, honnan származik az adat, milyen folyamatból keletkezett, milyen időszakot fed le, milyen célra gyűjtötték, és milyen korlátokkal használható. Ha ezek nem tisztázottak, az adatforrás ismeretlensége modellkockázattá válik, mert a szervezet nem tudja megítélni, mire alkalmas az adat.

A validációs adatoknál a reprezentativitás kerül előtérbe. Nem elegendő a modell átlagos pontosságát mérni, ha bizonyos ügyfélcsoportoknál, dokumentumtípusoknál vagy panasztémáknál sokkal rosszabbul teljesít. Az AI-kockázat gyakran nem az átlagban, hanem a kivételekben, peremhelyzetekben és alulreprezentált esetekben mutatkozik meg.

A működési adatok esetében a legnagyobb kihívás a változás. Egy panaszkezelő rendszer például új termékek, új ügyfélcsatornák vagy új panasztípusok megjelenése után más adatokkal találkozhat, mint amelyekre eredetileg felkészítették. Ilyenkor az éles adat változása új kockázatot teremt, és ezt monitoringgal, újrateszteléssel vagy kontrollmódosítással kell kezelni.

A szervezetnek ezért nem elég egyszer felsorolnia az adatforrásokat. Adatéletciklusban kell gondolkodnia: gyűjtés, előkészítés, címkézés, tanítás, validálás, éles használat, tárolás, továbbítás, törlés és újrahasználat. Az AI irányítási rendszer akkor működik felelősen, ha ezekhez a pontokhoz felelőst, kontrollt és bizonyítékot rendel.

Az adatminőségi hiba szervezeti kockázattá válik

Az adatminőség többdimenziós kérdés. Nem elég azt mondani, hogy az adat „jó” vagy „rossz”. A szervezetnek külön kell vizsgálnia a pontosságot, teljességet, következetességet, időszerűséget, reprezentativitást, relevanciát, nyomon követhetőséget és védelmet. Ebben az adatminőség nem egyetlen mutató, hanem egymással összefüggő értékelési szempontok rendszere.

A pontosság azt jelenti, hogy az adat megfelel-e a valóságnak vagy a szervezeti nyilvántartás elfogadott állapotának. Egy ügyfélpanasz-elemző rendszerben például fontos, hogy a panasz dátuma, csatornája, témája és státusza helyes legyen. Ha ezek hibásak, a modell rosszul tanulhatja meg, mely panaszok sürgősek, melyek ismétlődők, és melyek igényelnek vezetői figyelmet.

A teljesség azt mutatja meg, hogy hiányoznak-e lényeges adatelemek. Ha a panaszok egy részénél nincs lezárási ok, ügyfélkategória vagy terméktípus, a modell következtetése torzulhat. Ilyenkor a hiányzó adat is döntési információvá válik, mert a modell vagy a felhasználó kénytelen valamilyen módon kezelni a hiányt.

A következetesség a szervezeti adathasználat egyik legfontosabb feltétele. Ha ugyanazt a panasztípust több osztály eltérően címkézi, vagy ha a kategóriák idővel jelentésváltozáson mennek át, a tanítóadat bizonytalanná válik. A modell ilyenkor nem feltétlenül a valós panaszlogikát tanulja meg, hanem a szervezet múltbeli következetlenségét.

Az időszerűség különösen fontos olyan rendszereknél, ahol az üzleti környezet gyorsan változik. Egy régi ügyfélpanasz-adatbázis nem feltétlenül tükrözi az aktuális termékeket, csatornákat, szabályokat vagy ügyfélelvárásokat. Ebben az elavult adat múltbeli szervezetet tanít, miközben a modellnek jelenlegi döntéseket kellene támogatnia.

A reprezentativitás arra utal, hogy az adat megfelelően lefedi-e azt a működési környezetet, amelyben a modellt használni fogják. Ha egy AI-rendszert több országban, több üzletágban vagy több ügyféltípusra alkalmaznak, akkor a szűk, egyoldalú tanítóadat komoly kockázat. A gyenge reprezentativitás torz kimenethez, alulkezelt érintetti kárhoz és rossz üzleti döntéshez vezethet.

Az adatminőségi problémák gyakran láncszerűen terjednek tovább. Sambasivan és munkatársai „data cascades” fogalma arra mutat rá, hogy a korai adatproblémák összetett, későbbi hibasorozatokat idézhetnek elő nagy hatású AI-rendszerekben. Ez a szervezeti gyakorlatban azt jelenti, hogy egy aprónak tűnő címkézési, gyűjtési vagy dokumentációs hiba később modellhibává, döntési hibává és bizalmi problémává nőhet.

A hibás adatból fakadó modellkockázatok több formában jelenhetnek meg:

téves vagy bizonytalan kimenet;

túlzott hamis pozitív vagy hamis negatív arány;

egyes csoportokat hátrányosan érintő torzítás;

gyenge általánosíthatóság új helyzetekben;

rossz üzleti priorizálás;

jogsértő vagy célon túli adatfelhasználás;

panaszkezelési vagy reputációs probléma;

auditálhatatlan döntési folyamat.

A lista azért fontos, mert az adatminőségi kockázat nem marad az adatgazdáknál. Hatással van a felhasználókra, ügyfelekre, vezetői döntésekre, megfelelőségi vizsgálatokra és a szervezetbe vetett bizalomra. Ilyenkor az adatminőségi hiba szervezeti hatássá alakul, és nem kezelhető pusztán adatjavítási feladatként.

Az adatminőségi kontrollnak ezért megelőző és észlelő elemeket is tartalmaznia kell. Megelőző kontroll lehet az adatforrás jóváhagyása, az adatséma tisztázása, a címkézési szabályok dokumentálása vagy az adatminőségi küszöbértékek meghatározása. Észlelő kontroll lehet a hibaarány figyelése, a kimenetek mintavételes ellenőrzése, a driftmonitoring vagy az incidensek rendszeres elemzése.

A kockázati rangsorolásnál nem minden adatminőségi hiba azonos súlyú. Egy belső riport címkézési hibája kisebb kockázatot jelenthet, mint egy olyan ügyfélminősítési hiba, amely szolgáltatáshoz való hozzáférést befolyásol. A szervezetnek ezért az adatminőségi hibát mindig az AI-használati eset döntési hatásával együtt kell értékelnie.

Adatkezelési jogszerűség és adatvédelmi kockázat

Az adatminőség önmagában nem elég, ha az adatkezelés jogszerűsége nem tisztázott. Egy adat lehet pontos, teljes és technikailag kiválóan használható, de ettől még nem biztos, hogy az adott AI-célra jogszerűen felhasználható. Szervezeti szinten a használhatóság nem azonos a jogszerűséggel, ezért az adatkezelési vizsgálatot nem lehet kihagyni.

A GDPR alapelvei között szerepel a jogszerűség, tisztességesség, átláthatóság, célhoz kötöttség, adattakarékosság, pontosság, korlátozott tárolhatóság, integritás és bizalmas jelleg. AI-rendszereknél ezek a szempontok különösen fontosak, mert a személyes adatok tanítási, validálási és működési célú felhasználása könnyen több folyamatot és több szereplőt érinthet.

Az első adatvédelmi kérdés az, hogy az AI-rendszer kezel-e személyes adatot. Ha igen, tisztázni kell a jogalapot, az adatkezelési célt, az érintetti tájékoztatást, az adattovábbítást, a megőrzési időt és az érintetti jogok gyakorlásának módját. Ez nemcsak jogi dokumentációs feladat, mert ezek a döntések meghatározzák az AI-rendszer megengedett működési határait.

A célhoz kötöttség AI-környezetben különösen érzékeny. Egy adatot lehet, hogy eredetileg ügyfélkezelésre vagy panasznyilvántartásra gyűjtöttek, de nem biztos, hogy automatikusan felhasználható modellképzésre vagy új döntéstámogató célra. Ebben az új AI-cél új jogszerűségi vizsgálatot igényel, még akkor is, ha az adat már a szervezet birtokában van.

Az adattakarékosság szintén gyakorlati kontrollt igényel. AI-fejlesztésnél gyakori kísértés, hogy „minél több adat, annál jobb modell”. Ez a gondolat kockázatos, mert a túl sok, célhoz nem szükséges adat növeli a jogi, biztonsági és etikai kitettséget. Az AI irányítási rendszernek azt kell támogatnia, hogy a szervezet csak olyan adatot használjon, amely a célhoz arányosan szükséges és indokolható.

Az EU AI Act a magas kockázatú AI-rendszerek esetében külön is hangsúlyozza az adatok és adatirányítás jelentőségét, beleértve a tanító-, validációs és tesztadatok minőségét, relevanciáját, reprezentativitását, hibáinak és hiányosságainak kezelését. Ez a kockázatalapú logika szorosan kapcsolódik az AIMS működéséhez, mert a jogi követelmények csak akkor válnak kezelhetővé, ha szervezeti kontrollokhoz és bizonyítékokhoz kapcsolódnak.

Az adatvédelmi kockázat nemcsak külső ügyfeleket érinthet. Munkavállalói, beszállítói, ügyintézői vagy belső teljesítményadatok használata is felvethet arányossági, átláthatósági és hozzáférési kérdéseket. Ilyenkor a belső adat sem kockázatmentes adat, mert az érintetti hatás szervezeten belül is jelentős lehet.

Az AI-rendszerek adatáramlása gyakran összetett. Egy ügyfélpanasz-elemző megoldás például adatot kaphat e-mailből, chatből, telefonos jegyzőkönyvből, CRM-rendszerből és termékinformációs adatbázisból. A kimenet bekerülhet riportba, ügyintézői felületre vagy vezetői dashboardba. Ha az adatáramlás nincs feltérképezve, a szervezet nem tudja pontosan megmondani, ki milyen adatot, milyen célra és milyen következménnyel használ.

Az adatkezelési jogszerűség ezért adatáramlási térképet is igényel. Ebben látszania kell az adatforrásnak, az adatátvételnek, a feldolgozásnak, a modellhasználatnak, a tárolásnak, a továbbításnak és a törlésnek. A térkép nem pusztán technikai ábra, hanem megfelelőségi és auditbizonyíték.

A biztonsági kockázatok szintén részei az adatkezelési kontrolloknak. Ha az AI-rendszer érzékeny vagy személyes adatokat kezel, akkor a hozzáféréskezelés, naplózás, titkosítás, jogosultsági felülvizsgálat és incidenskezelés nem választható külön az AI-irányítástól. Ebben az adatvédelem és információbiztonság összeér, mert az adatok sérülése közvetlenül érintheti az AI-rendszer megbízhatóságát és jogszerűségét is.

Az adatkezelési kockázatok értékelésénél tehát nem elég egyetlen kérdést feltenni. Nemcsak az számít, hogy van-e személyes adat. Azt is vizsgálni kell, hogy az adat milyen célból került be, mennyire szükséges, mennyire pontos, kik férnek hozzá, meddig marad meg, milyen kimenetet befolyásol, és milyen lehetősége van az érintettnek a tájékozódásra vagy panaszra.

Bizonyítékok és kontrollok az AIMS-ben

Az AI irányítási rendszer akkor működik jól, ha az adatkezelési és adatminőségi követelményeket bizonyítékokká alakítja. Nem elég deklarálni, hogy az adatok megfelelőek. A szervezetnek meg kell tudnia mutatni, milyen vizsgálat, döntés, jóváhagyás, monitoring vagy korrekció igazolja ezt. Ebben a kontroll bizonyíték nélkül nem auditálható, legfeljebb szándékként jelenik meg.

A bizonyítékok köre az AI-használati eset kockázatától függ. Alacsony hatású rendszernél elegendő lehet egyszerűbb adatforrás-leírás és alapvető minőségi ellenőrzés. Magasabb hatású, ügyfeleket vagy munkavállalókat érintő döntéstámogatásnál részletesebb adatdokumentáció, jogszerűségi vizsgálat, validáció, monitoring és döntési napló szükséges.

Az adatforrás dokumentálása alapvető kontroll. Rögzíteni kell, hogy az adat honnan származik, ki az adatgazda, milyen időszakot fed le, milyen célból gyűjtötték, milyen korlátokkal használható, és milyen minőségi problémák ismertek. A Datasheets for Datasets megközelítés is azt hangsúlyozza, hogy az adatkészletek motivációjának, összetételének, gyűjtési módjának, ajánlott használatának és korlátainak dokumentálása javíthatja az átláthatóságot és az elszámoltathatóságot.

A címkézési és előkészítési szabályok szintén kritikusak. Ha a szervezet panaszokat, dokumentumokat vagy ügyfélüzeneteket kategorizál, a címkék jelentésének világosnak kell lennie. Ha két ügyintéző ugyanazt az esetet eltérően címkézi, a modell következetlen mintázatot tanulhat. Ilyenkor a címkézési szabály modellminőségi kontroll, nem pusztán operatív útmutató.

A validálási bizonyítékoknak túl kell mutatniuk az átlagos pontosságon. Érdemes vizsgálni a hibák típusát, a téves besorolás következményét, a különböző adatcsoportok közötti teljesítménykülönbséget, valamint azt, hogy a modell mikor bizonytalan. Egy átlagosan jól teljesítő rendszer is lehet kockázatos, ha a kritikus esetekben rosszul működik.

A monitoring bizonyítja, hogy a szervezet nem tekinti az AI-rendszer jóváhagyását egyszeri eseménynek. Működés közben figyelni kell az adatváltozásokat, a kimeneti mintázatokat, a hibaarányt, a felhasználói visszajelzéseket, az incidenseket és az üzleti környezet változását. Ebben a monitoring a működő kontroll memóriája, mert megmutatja, hogy a szervezet észreveszi-e a romló adat- vagy modellminőséget.

A változáskezelés különösen fontos, mert az AI-rendszer adatkapcsolatai gyakran módosulnak. Új adatforrás, új termék, új csatorna, új beszállító, új modellverzió vagy új felhasználási cél mind új kockázatot hozhat. Ha a változást nem értékelik újra adatminőségi és adatkezelési szempontból, a korábbi jóváhagyás könnyen érvényét vesztheti.

Az AIMS-ben az adatkezelési és adatminőségi kontrollok legalább a következő bizonyítékokra épülhetnek:

AI-használati eset és adatkapcsolat leírása;

adatforrás-nyilvántartás és adatgazdai felelősség;

adatáramlási térkép;

jogszerűségi és adatvédelmi előszűrés;

adatminőségi kritériumok és küszöbértékek;

tanító-, validációs és működési adatok elkülönítése;

címkézési és előkészítési szabályok;

validálási és hibaminta-elemzési jegyzőkönyv;

hozzáféréskezelési és adatbiztonsági bizonyítékok;

monitoringjelentés és változáskezelési napló;

incidens- és panaszkezelési kapcsolódás;

vezetői jóváhagyás és maradványkockázati döntés.

Ez a lista nem adminisztratív terhelésként értelmezendő. A cél az, hogy a szervezet következetesen meg tudja indokolni, miért tekinti az adatokat alkalmasnak és jogszerűen felhasználhatónak. A bizonyíték a bizalom működési formája, mert nemcsak azt mutatja, hogy a szervezet mit gondol, hanem azt is, mit ellenőrzött.

A beszállítói AI-eszközöknél külön figyelmet kell fordítani arra, hogy milyen adatminőségi és adatkezelési információ érhető el. Ha a szervezet külső megoldást használ, attól még felelőssége marad a saját használati esetében. Ilyenkor szerződéses feltételekkel, szolgáltatói dokumentációval, adatfeldolgozói megállapodással, változásértesítéssel és kimeneti monitoringgal kell pótolni azt, amit a szervezet nem lát közvetlenül a modell belsejében.

A kontrollok kijelölésénél az is fontos, hogy az adatminőség és adatvédelem ne külön szigetek legyenek. Egy adatminőségi hiba adatvédelmi problémát is okozhat, például ha pontatlan személyes adat alapján születik kimenet. Egy adatvédelmi korlátozás pedig befolyásolhatja a modellfejlesztést, például ha bizonyos adatokat nem lehet felhasználni a tanításhoz.

Az AIMS-ben ezért integrált bizonyítékrendszerre van szükség. A kockázatértékelésnek, adatvédelmi vizsgálatnak, információbiztonsági kontrollnak, modellvalidálásnak és üzleti jóváhagyásnak egymásra kell mutatnia. Ilyenkor az adatirányítás összeköti a megfelelést és a működést, nem pedig külön dokumentumtárakba szorítja őket.

Ügyfélpanasz-elemző rendszer ellenőrzőlistája

Egy AI-alapú ügyfélpanasz-elemző rendszer jó gyakorlati példa az adatkezelési és adatminőségi kockázatok feltárására. A rendszer célja lehet a panaszok kategorizálása, sürgősségi rangsorolása, ismétlődő problémák azonosítása vagy vezetői riportok támogatása. Még egy ilyen látszólag támogató funkciónál is a panaszadat érzékeny szervezeti jelzés, mert ügyfélélményre, hibás működésre és reputációs kockázatra utalhat.

A panaszadatok gyakran több csatornából érkeznek: e-mailből, telefonos jegyzetből, chatből, webes űrlapból vagy ügyfélszolgálati rendszerből. Ezek eltérő részletességűek, eltérő nyelvezetűek és eltérő minőségűek lehetnek. Ha a rendszer ezeket egységesen kezeli, a szervezetnek meg kell vizsgálnia, hogy a különbségek nem torzítják-e a kimenetet.

Az első ellenőrzési pont az adatforrás. Tudni kell, mely panaszcsatornák kerülnek be a rendszerbe, melyek maradnak ki, és ez milyen torzítást okozhat. Ha például a telefonos panaszok kevésbé részletesek, mint az írásos panaszok, a modell eltérően kezelheti a csatornákat. Ilyenkor a csatornakülönbség adatminőségi kockázat, nem pusztán ügyfélszolgálati sajátosság.

A második ellenőrzési pont a címkézés. Ha a múltban a panaszokat nem egységes kategóriarendszer szerint sorolták be, a tanítóadat következetlen lehet. A szervezetnek ezért dokumentálnia kell a kategóriák jelentését, a címkézés szabályait és a vitás esetek kezelését. Enélkül a modell a múltbeli bizonytalanságot tanulhatja meg.

A harmadik pont a személyes adatok kezelése. A panaszok gyakran tartalmazhatnak nevet, elérhetőséget, ügyfélazonosítót, szerződéses adatot vagy érzékeny részleteket. Az adatvédelmi vizsgálatnak tisztáznia kell, hogy ezekre szükség van-e az AI-funkcióhoz, hogyan történik az anonimizálás vagy hozzáféréskorlátozás, és meddig őrizhető meg az adat.

A negyedik pont a működési cél. Nem mindegy, hogy a rendszer csak témákat azonosít, ügyintézői priorizálást támogat, vagy ténylegesen befolyásolja az ügyfél kezelését. Ebben a kimenet döntési súlya határozza meg a kockázatot, ezért a cél és a használati mód dokumentálása alapvető.

Egy ügyfélpanasz-elemző rendszer adatkezelési ellenőrzőlistája így épülhet fel:

Milyen panaszcsatornákból érkezik adat?

Mely csatornák vagy ügyféltípusok maradnak ki?

Van-e egységes panasztípus- és sürgősségi kategóriarendszer?

Hogyan kezelik a hiányos, rövid vagy félreérthető panaszokat?

Tartalmaz-e a panasz személyes vagy különösen érzékeny adatot?

Szükséges-e minden adatmező az AI-funkcióhoz?

Milyen jogalapon és milyen célból történik az adatkezelés?

Hogyan történik az adatminőség mérése?

Milyen hibaarány elfogadható az egyes panasztípusoknál?

Ki vizsgálja felül a kritikus vagy bizonytalan kimeneteket?

Hogyan dokumentálják az emberi felülbírálást?

Milyen gyakran értékelik újra az adatokat és a modellkimeneteket?

Mi történik, ha új panasztípus vagy új termék jelenik meg?

Hogyan kapcsolódik az AI-kimenet a panaszkezelési felelősséghez?

Milyen bizonyíték áll rendelkezésre audit esetén?

A lista célja nem az, hogy minden panaszkezelő szervezet azonos dokumentációt hozzon létre. Inkább azt segíti, hogy a szervezet ne csak az AI-eszköz funkcióját, hanem az adatokból fakadó kockázatokat is végiggondolja. Az ellenőrzőlista a láthatatlan adatfeltételeket teszi láthatóvá, ami nélkül a kockázatértékelés hiányos marad.

A panaszkezelési példában a hibás kimenet többféle kárt okozhat. Egy sürgős panasz alacsony prioritást kaphat, egy ismétlődő hiba nem kerül vezetői figyelembe, vagy egy ügyféltípus panaszai rendszeresen rossz kategóriába eshetnek. Ezek nemcsak modellhibák, hanem ügyfélélményt, megfelelőséget és reputációt érintő szervezeti problémák.

A felelős működéshez ezért szükséges, hogy a felhasználók értsék az AI-kimenet korlátait. Az ügyintézőnek tudnia kell, mikor bízhat a kategorizálásban, mikor kell kézzel módosítania, és mikor kell vezetői vagy szakértői felülvizsgálatot kérnie. Ha a felhasználó nem kap ilyen szabályt, könnyen túlzott bizalom alakulhat ki a rendszerrel szemben.

A vezetőknek más bizonyítékra van szükségük. Látniuk kell, hogy az AI-rendszer valóban javítja-e a panaszok áttekinthetőségét, nem rejt-e el kritikus ügyeket, és nem okoz-e torzítást bizonyos csatornák vagy ügyféltípusok esetében. Ebben a vezetői kontroll a hatásvizsgálatnál kezdődik, nem csak a bevezetési jóváhagyásnál.

Az auditor számára az a kérdés, hogy a szervezet bizonyítani tudja-e az adatforrások, adatminőségi vizsgálatok, jogszerűségi döntések, validálási eredmények, monitoringjelentések és változáskezelési lépések meglétét. Ha ezek összekapcsolhatók, az AI-rendszer irányítása átláthatóbbá válik. Ha hiányoznak, a modell működése akár hasznos is lehet, de az AIMS szempontjából gyenge bizonyítékon áll.

Az adatkezelési és adatminőségi kockázatok kezelése végső soron azt szolgálja, hogy az AI ne önálló, ellenőrizhetetlen döntési rétegként működjön. A szervezetnek képesnek kell lennie megmutatni, milyen adatokból dolgozik a rendszer, miért alkalmasak ezek az adatok, milyen korlátaik vannak, és milyen kontrollok védik a felhasználókat, érintetteket és üzleti döntéseket.

Az AI-rendszer megbízhatósága nem ott kezdődik, hogy mennyire fejlett a modell. Ott kezdődik, hogy a szervezet mennyire ismeri és irányítja az adatokat, amelyekből a modell következtet. Az adatminőség, a jogszerű adatkezelés és az auditálható bizonyíték együtt teremti meg azt az alapot, amelyre felelős AI irányítási rendszer építhető.

Felhasznált szakirodalom

European Parliament & Council of the European Union. (2016). Regulation (EU) 2016/679 on the protection of natural persons with regard to the processing of personal data and on the free movement of such data. Official Journal of the European Union. https://eur-lex.europa.eu/eli/reg/2016/679/oj

European Parliament & Council of the European Union. (2024). Regulation (EU) 2024/1689 laying down harmonised rules on artificial intelligence. Official Journal of the European Union. https://eur-lex.europa.eu/eli/reg/2024/1689/oj

Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J. W., Wallach, H., Daumé III, H., & Crawford, K. (2021). Datasheets for datasets. Communications of the ACM, 64(12), 86–92. https://doi.org/10.1145/3458723

International Organization for Standardization. (2023). ISO/IEC 42001:2023: Information technology — Artificial intelligence — Management system. ISO. https://www.iso.org/standard/42001

International Organization for Standardization. (2024). ISO/IEC 5259-2:2024: Artificial intelligence — Data quality for analytics and machine learning (ML) — Part 2: Data quality measures. ISO. https://www.iso.org/standard/81860.html

National Institute of Standards and Technology. (2023). Artificial intelligence risk management framework (AI RMF 1.0). U.S. Department of Commerce. https://doi.org/10.6028/NIST.AI.100-1

Sambasivan, N., Kapania, S., Highfill, H., Akrong, D., Paritosh, P., & Aroyo, L. M. (2021). “Everyone wants to do the model work, not the data work”: Data cascades in high-stakes AI. Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems, Article 39, 1–15. https://doi.org/10.1145/3411764.3445518