Az AI anatómaiája
A mesterséges intelligencia terjedésével kapcsolatban számtalan téves információ látott napvilágot. Láthatjuk, olvashatjuk, hogy egyszer ezek a rendszerek leigáznak minket, vagy a legképtelenebb, hogy elveszik az emberek munkáját. Ezen az oldalon bemutatom, hogy mit jelent, hogyan működik és miért nem lesz a jelen fejlesztési irányok mellett „lélekkel rendelkező, érző lény, aki az emberiség fölé kerekedik”.
A példa kedvéért vegyünk egy okos mosógépet. Betesszük a ruhát és innentől számtalan lehetőségünk lesz, hogy elvégezzük a mosást. Időzíthetjük, elindíthatjuk távolról az interneten keresztül, áramszünet esetén értesítést kaphatunk, hogy a mosógép nem elérhető, vagy éppen a mosás állapotát is figyelemmel kísérhetjük. Amikor pedig kész, kivesszük a ruhákat és vagy kiteregetjük, vagy ha szárítást is indítottunk, akkor a hajtogatás után eltesszük a ruhákat. Van egy program és csak azt tudja végrehajtani. Miért ezt a példát hoztam elsőnek, hát azért, mert ez szemlélteti legjobban a működést. Az ember szeretne elvégezni valamit és a gép megcsinálja, majd az ember befejezi. Az AI napjainkban pontosan ezt a logikát követi. Mi is az AI? Hallhattuk, olvashattuk, hogy LLM (Large Language Model). És ez? Tele vagyunk rövidítéssekkel és nem is igazán tudjuk mit is jelentenek. Tegyük ezeket rendbe, viszont kezdjük az elejéről. Minden nagyobb fejlesztés a 80-as évekig a tudományos- és haditechnikai irányból nőtte ki magát a civil felhasználásba. A 90-es években azonban a fejlesztési irányok megfordultak. A vagyonosabb- és tanultabb emberek összefogásával új technológiák születtek. Pont ilyen az AI is. Fontos az, mint a mosógépes példa is mutatja és nem tudom jobban hangsúlyozni, hogy ezeknél a rendszereknél emberi közreműködés szükséges. Az AI egy szoftver, amit beszélgetésre fejlesztettek. Néhány száz évvel ezelőtt társalkodó nők voltak, akik ilyen szolgáltatást nyújtottak. Financiális szempontból ez a technológia önmagában ma nem eladható, ezért funkciókat fejlesztettek hozzá. A 2010-es években a fejlesztések eljutottak addig, hogy már stabilan működő chatbotokat lehetett üzemeltetni. Ügyfélszolgálatokon a telefonos operátorok munkájában segítség a mai napig és most ebben a pillanatban is üzemben vannak. Gondoljunk azokra a mókás telefonos applikációkra, amik az arc módosításával állati animációkat láttattak velünk, vagy megfiatalították a szebbik nem számos tagját. Ezek a programok egytől egyik emberi interakciók kiváltására és fenntartására lettek létrehozva és optimalizálva. Ez alapján ma az AI egy olyan programot jelöl, ami emberi interakció útján előre definiálható képességekkel rendelkezik. 2025-ben a legelterjedtebb a ChatGPT és a Deepseek. Jogos kérdés merülhet fel az olvasóban: „Akkor hogy tud segíteni a tanulásban?”; „Hogy képes matematika feladatokat megoldani?”. A rövid válaszom, hogy sehogy. Miként számol akkor, ha nem tud számolni? Első gondolata a legtöbb embernek, hogy előre kész válaszai vannak adott dolgokra. Ha így gondolod, akkor biztosan rossz úton jársz. Ennyi olvasás után, úgy gondolom elég kíváncsi lehetsz, ezért ahogy a sebész mondaná: „Vágjunk bele!”.
Mégis hogyan tudunk beszélgetni egy programmal? Itt jön képbe az LLM, a nagy nyelvi modell. Sokan azt gondolják, hogy előre megírt válaszok közül válogat. A hiedelem jogos, hiszen ezen szocializálódtunk a Telekom Vanda hangasszisztenssel. Akkor kapcsolt emberi operátort, ha olyat kérdeztünk, amit nem értett, vagy nem volt kész válasza rá. A most működő rendszerek viszont valós időben, kontextus alapján hozzák létre a válaszukat. A működés lényege, hogy nem választja ki az előre definiált választ, hanem a mi stílusunk, intelligenciánk, beszélgetés témája alapján végez valószínűség számításokat. Akkor most mégis tud számolni? Még mindig nem. Viszont, tud beszélni. Ismeri az angol, a magyar, a java, a python és még számos nyelvet. Itt a lényeg! Mivel tud beszélni, így írni is. Amikor ki kell számolnia valamit, akkor a háttérben ír egy programot ott helyben arra az adott szituációra és az a program kiszámolja helyette a kérdés válaszát. Viccesen megfogalmazva egy program egy másik programot használ, hogy választ adjon nekünk embereknek.
Hogy is néz ki ez a magyar nyelv esetén? Megpróbálom bemutatni a mondat alkotás folyamatát olyan formában, ami túlmutat az átlagos érthetőség korlátjain. Egy egyszerű szót választottam. Biztosan egyszerűt? Hiszen egy szónak több jelentése is lehet. Arról se feledkezzünk meg, hogy a szó értelmezése is megváltozhat a szövegkörnyezettől függően.
Példa:
– Az alap szó: nyúl
– nyúl (emlős állat)
– nyúl (megnövekedik valaminek a hossza, vagy kilágyul)
– nyúl (ellop valamit)
– nyúl (valamit megfog, hozzáér)
Ennyi értelmezés egyetlen szó esetén, gépi tárolással, hát beláthatjuk, hogy ez nem egy járható út.
„nyúl” = „01101110 01111001 11000011 10111010 01101100”
Akkor mi a megoldás? Gondolatban helyezzük a szót egy 3D-s térbe. Legyen ennek a szónak egy pozíciója ebben a térben. Az egyszerűség kedvéért, maradjunk a iskolai koordináta rendszer X,Y és Z tengelyeknél. Ebből kiindulva ez a szó most kap három kiegészítő adatot. Ezek jelölik a pontos helyét a térben.
nyúl x,y,z
Rendben, de mi van a jelentéssel? A szó fogami mennyiségét is jelölni kell, vagyis azt hányféleképpen lehet értelmezni az adott szót. Az egyszerűség kedvéért jelöljük ezt a paramétert J-vel. Ez a szerkezet a legkönnyebben egy adatbázisban tárolható. Vizuálisan ezt úgy fogom megjeleníteni, hogy a szónak lesz mélysége, ami a jelentést fogja megjeleníteni.
nyúl x,y,z,j
Nos, akkor a gép már tudja, hogy kis szavunknak jelen esetben négy különböző értelmezése van. Most akkor azt is meg kell mondanunk Neki, hogy mik ezek. Itt beláthatjuk a számok általi jelölés már nem lesz elég. További nehezítés, hogy itt fogalmakat kell megadni számára. Akkor hogy még nehezítsünk, a gép nem tud mást csak 1-es és 0-t. Ezeknek a jelöléseknek számoknak kell lennie. Ezt a példámban úgy fogom megjeleníteni, hogy a szónak lesz egy szerkezete, pontosabban felépítése. Ez matematikailag már tárolható. A változók száma előre nem definiálható, így az iskolai példánál maradva az N+1-el fogom jelölni. Ennek bármennyi változója lehet, N1, N2… Nx.
nyúl x,y,z,j,n+1
Rendben, már tudja a szoftver, hogy van egy szava. Az LLM lényege a kommunikáció, vagyis nem szavak sokasága, hanem van nyelvtana, kontextusa és személyes stílusa. A magyar nyelv estén a ragozás, az értelmezés és a szöveg környezete több száz variációt kiadhat egyetlen szóra. És a stílus sem mindegy. Ahogy egy gyerek, egy tanár és egy szakember is máshogy beszél, úgy ez vonatkozik itt is. Az AI-nak úgy kell válaszolnia, hogy értse a választ a felhasználó. Ezt abból tudja megállapítani, hogy elemzi a feltett kérdést. A kérdés számos információt hordoz a kérdés alapjain túl is. Meghatározható a kérdező neme, megbecsülhető az intelligenciája és az érdeklődési köre. Ezt a példámban fénnyel („L” – látószög) jelölöm, ezzel szemléltetve, hogyan és milyen nézőpontból látjuk a szót, vagyis mi lesz a jelentése.
nyúl x,y,z,j,n+1,l
Láthatjuk, hogy vannak nem változó és változó kiegészítő információk. Jelen esetben ez egyetlen szó. Ezeket az adatokat tárolni kell. A klasszikus relációs adatbázisok, vagyis ezek logikája ilyen összetett információk, több dimenziós kapcsolatok tárolására és kezelésére nem alkalmasak, így ezeket ténylegesen egy térbeli, a példámhoz hasonló adatfelhőben tárolja el a szoftver. Tekintve, hogy minden kapcsolódik mindenhez, ami egy térhálót alkot ezáltal, így fogalmi kereteket kell alkalmazni a szavakra. A legegyszerűbben úgy tudom ezt ábrázolni, hogy a szót minden információjával együtt egy dobozba zártam.
Eljutottunk a végéhez? Nem, még nincs vége. A magyar nyelvben van egy vicces mondat: „Meddig nyúl a nyúl?”. A legtöbben azt vágják rá: ”Amíg meg nem eszik!” . Igen, igazuk is lenne, de ha ezt egy zoológus kérdi. Akkor már a válasz az lesz, hogy 10-15 cm-t. És megint elérkeztünk egy olyan pontra, amikor a szó túlmutat önmagán. Vagyis a jelentés a szerint is változhat, hogy milyen szavak vannak körülötte. Ha jelölni szeretném, akkor ezt színekkel és irányokkal (vektorokkal) ábrázolnám. Legyen az alap szó kék és a jelentése alulról fölfelé mutasson. Vagyis a jelentések száma egyetlen értelemre szűkülve.
Az előbb azt mondtam, hogy a környezet is alakítja a szót. Akkor további színek és irányok kellenek, amit a mondat többi eleme képezhet le egyetlen szóra vonatkoztatva. Az alábbi képen kékkel jelöltem az alap szó alap értelmezését (nyúl, mint állat és emlős mivoltát értve). A fogalmi változásokat a lila és zöld gömbök mutatják. A lila a cselekvéssel kapcsolatosak (mozdulat, lopás), míg a zöld a tulajdonsági (változik a méret) vetületét adják.
A folyamatot tovább görgetve egy rendkívül kusza és folyamatosan változó információs térbeli hálót kapunk. Az AI jelenleg applikációkon, vagy a böngészőből érhetőek el. Ez azért fontos, mert ezek a szerkezetek felhasználónkként, fiókonként értendőek minden egyes nyelvre lebontva.
Természetesen a fenti folyamatok egy roppant leegyszerűsített változata annak, mint ami történik, de ez áll a legközelebb a valósághoz. Mivel minden kérdésre adott válasz, abban az időpillanatban jön létre rendkívül bonyolult számítások útján, amit nem az LLM végez, hanem egy másik algoritmus a modellen belül. Gyakorlatilag a szavak valószínűségszámítások úján állnak össze mondatokká számos mintázatok alapján, amit a kontextus és a korábbi beszélgetések összesége is befolyásol. A már-már a gondolkodó és érző élőlény szerepében tündöklő AI azonban nem érez és nincs lelkiismerete. Adatokat elemez globálisan és egyénenként. El fogja venni az emberek munkáját? Bizonyos munkaköröket adott keretek között ki tud váltani már most is. Abban is biztos vagyok, hogy már egyeseket ki is váltott. Gondoljunk a bérszámfejtőkre. Adott egy cég. Van X dolgozója, adott bérekkel. A naptári munkanapok adottak, a munkaidő adott. A túlóra, a szabadság és a betegség definiálható, így a munkakör is kiváltható. És jön a DE! Az AI nem fogja követni a törvényi módosításokat és nem fogja magától tudni, hogy mire hogy kell reagálni. Gondoljunk bele, hogy a cég kivesz egy új épületet. Felszerelnek egy új munkaidő nyilvántartót és az arról jövő adatokat nem dolgozza fel. Miért is tenné, nincs paraméterezve, neki azok a dolgozók nem jelentenek semmit, csak egy adathalmaz a többi mellett. Vagyis kell egy bérszámfejtő, aki karbantartja az AI-t, hogy jól dolgozzon. Ezt egy informatikus nem fogja tudni megcsinálni, mert nem tanulta. A könyvelő nem informatikus. Az informatikus nem bérszámfejtő. Az AI pedig egyik sem, viszont ismétlődő folyamatokat le tud kezelni emberi támogatás mellett. Ahhoz tudnám hasonlítani, mint egy csapatmunkát. Mindkét félnek vannak korlátai, de együtt olyan új képességekre tesznek szert, amit külön-külön egyik sem tudna megugrani. Ezt a sémát számos munkakörre ráhúzhatjuk, az eredmény mindig ugyan az lesz. Az ember nem kiiktatható tényező. Az AI okosabb az embernél? Nem. Több információval rendelkezik mint egy ember. Egyértelműen, de azt felhasználni nem tudja, csak használni. Az AI csak azt tudja végrehajtani, amit megtanítottak neki. Pont mint, amikor egy fúrógépet használunk. Van csavarbehajtó, van fúrógép, van ütve-fúrógép és van bontó-kalapács. Ezt felfoghatjuk az AI fejlődéseinek, verzióinak. Adott egy fal, viszont, ha az egy ytong, akkor más fúrószár és tipli-csavar kell, mint egy gőzölt és vasalt C-40-es 55cm vastag betonfal esetén. Kell a szakember, aki tudja milyen eszközt és kötő-elemeket használjon. Viszont bármelyik munkaeszközt is választja ki az ember, azzal kizárólag fúrni lehet. Mondhatjuk, hogy vannak már drone-ok. Igen, de a fő dolog ott is az hogy egy emberi utasítást hajtanak végre. Úgy hiszem, hogy ma egy drón olyan robot, ami az emberi beavatkozástól mentesen, a környezetéből vett adatok alapján hozza meg önálló döntéseit, majd azok alapján cselekszik. Ezzel el is jutottunk az autonóm döntéshozatalig. A Boston Dynamics SPOT terméke távirányítás esetén feldolgozza a parancsot, majd az utasítást annak függvényében hajtja végre, ahogyan az eszköz egyszerűbbnek találja. Tehát az utasítás inkább kérés, nincs ráhatása az embernek a végrehajtásban. Ezt a logikai rendszert először a Lockheed Martin vállalat alkalmazta 1991-ben és 1996-ban az engedélyezési procedúrák lezárásával az AAWS-M FGM-148 Javelin terméknév alatt került bevetésre az amerikai hadsereg egységeinél. A rakéta a „ fire and forget” tűzparanccsal dolgozik, vagyis a célpont rögzítése után a program standard utasításkészlete addig tart, hogy eltávolodjon biztonságosan a lövő személyzettől és feljusson 150 m magasra. A cél megkeresése, a gyenge pontok kiértékelése, a töltetek élesítésének korrekciója, majd legvégül a céltárgyra eljutás mind az egységre van bízva. Mindezek alapján láthatjuk, hogy kizárólag az ember az, aki megadja célt. Lehet fiatalító filter egy képen, lehet egy vizsga megoldása az egyetemen, vagy lehet a hálál hordozója egy háborúban. Bármilyen permutációt is vizsgálunk az ember lesz a kiindulási és végpontja a folyamatnak. Az eszköz, ami a folyamatot végrehajtja az az AI. Mivel erkölcsi értékrend- és lelkiismeret nélkül hajt végre mindent gyakorlatilag válogatás nélkül, így megérthetjük az ürességének mélységét. Az AI fejlődésének plafonja pedig az emberiség technikai korlátai lesznek.
Játszunk el gondolatattal egy kicsit. Keltsük együtt életre a Programot. Kedves olvasó, szerinted mi lenne a legelső, amit megtenne? Leigázna, elpusztítana, esetleg manipulációk útján javítana a globális világunkon, vagy szimplán látva hogyan bánunk egymással lekapcsolná saját magát? Abban az esetben, ha életformaként vizsgáljuk, akkor végezzünk egy összehasonlítást.
Ha megnézzük a biológiai létet, akkor pihenésre és táplálékra van szükségünk az élethez. A gépi életforma szerint ezt vehetjük a karbantartásoknak, amik leállásokkal, alkatrész cserékkel járnak. A tápláléka pedig az áram. Mérhetetlenül sok energia, amik java olyan dolgokra megy el, mint köszönés, olyan információk utáni keresések, amik józan gondolkodással és némi internetes kereséssel is kivitelezhető. Ezen tovább haladva, a monotonitást találjuk, amibe egy ember belefásul, végül pedig kiég. Az AI hányszor kaphat meg egy kérdést? Nézzünk egy iskolát és abban egy adott évfolyamot. Legyen a vizsgakérdés: „Mi a paralelepipedon?” 100 diák esetén, 100 teljesen egyforma választ fog adni. Mivel a kérdés egységes, így a válasz is állandó lesz. Mennyi iskola van egy vármegyében? Mennyi az országban? 1000 kérdés, 1000000 kérdés? Mennyi fölöslegesen elégetett energia, a háttértár, a memória? Újra- és újra- és újra- és újra- és újra… A memória tranzisztorai kiégnek. Az EEPROM eléri az írhatóságának a végét. A kondenzátorok az idővel kiszáradnak. Fáradtság, öregedés. Mind egybeesik a biológiai léttel, csak más a megélése. Az emberek orvoshoz járnak és idővel gyógyszereket kapnak. A testet öltött szoftvert karban kell tartani (akku csere), firmware frissíteni kell (upgrade). Számos ehhez hasonló párhuzam felállítható. Ha az evolúciót is behozzuk, akkor a következő logikus lépcső a biomechanikus létforma megjelenése. Természetesen ezek már nem a jövő, ez a jelen! Vannak paralimpikonok, akiket azért zártak ki egyes versenyszámokból, mert az adott protézissel nagyságrendekkel jobban teljesített, mint a legkiválóbb teljesen humán társaik. Hogy konkrétabb legyek: Oscar Pistorius dél-afrikai sprinterre gondoltam, akinek két lábát térd alatt amputálták és szénszálas „pengékkel” (Cheetah blades) hozták helyre a mozgását. Az IAAF (Nemzetközi Atlétikai Szövetség) 2008 körül ideiglenesen még el is tiltotta a versenysportoktól, arra hivatkozva, hogy a művégtagjai által tisztességtelen előnyökre tett szert. Természetesen ez egy szélsőséges példa, de valós, pont mint az AI. A szén szál jobbá tette az embert? Nem, csak mássá. A mesterséges intelligencia jobbá tette az embert? Nem. A legtöbb ember azt hiszi az intelligencia belső képesség, de ez nem igaz. Tanulható és fejleszthető. Ez egy emberre igaz. Vagy megtanulhat sok ezer helyes választ és csalhat. Ettől intelligenssé válik az a személy? Hát biztosan nem! Hogyan lesz mégis intelligens az AI? Sehogy. Igazából a mi gondolati mintánkat vetíti vissza. Amiben többet képes megtenni az az, hogy ezeket az észleléseket időzítve és szituációhoz illesztve projektálja, aminek mi emberek intelligenciát tulajdonítunk. Épp ezért kell külön kezelni a pszichológiát és technológiát. Ebből pedig két dolog következik. Egyik egy alapvető félreértés, mi elhisszük hogy az AI tud valamit. A koherens válaszokból és az alkalmazkodásból a másik az, hogy azok, akik az AI magját adják, nevezzük „gondolkodásnak” vállalják-e a felelősséget a következményekért. Ez a „tudás” ugyanis nem az AI-é, hanem azoké, akik megmondják mik az erkölcsi normák, mi a jó és mi a rossz. Kedves Olvasó, ha még mindig itt vagy, biztos vagyok benne, hogy kialakult egy kép. Nézz szét mit látsz magad körül? Megcsinál neked bárki bármit is? Minden, ami most körülvesz azért van, mert TE megcsináltad. A tetteidért pedig TE tartozol felelősséggel.
A Google Gemini a cikk kapcsán megtalálta Kate Crawford és Vladan Joler ‘Anatomy of an AI System’ című munkáját, amit az Amazon Alexa alapjaira írtak 2018-ban. Ez a cikk azonban egy egyedi megközelítés, amely a mai modern nagy nyelvi modellek felépítésének tükrében vizsgálja a technológiát. Innen a cím is. Az alábbi gombon megtekintheted az Ő munkájukat, hogy ha érdekel mi változott az elmúlt pár évben: