Vlastně se historie opakuje a my držíme v rukou technologii, jejíž důsledky možná neumíme domyslet. Eliezer Yudkowsky a Nate Soares ve své knize If Anyone Builds It, Everyone Dies varují, že superinteligence je matematická jistota konce a lidstvo nakonec prohraje závod s vlastní ambicí.
Inženýrství bez plánu: Sázíme semínka do digitální hlíny
Když dnes mluvíme o vývoji AI, používáme slovo „inženýrství“. Je to ale termín, který nám jen poskytuje falešný pocit bezpečí. Skutečné inženýrství vypadá tak, že znáte každý nýt, každou fyzikální sílu působící na křídlo letadla. Víte, proč letadlo letí. U současných velkých jazykových modelů (LLM) nic takového neexistuje.
Yudkowsky a Soares upozorňují na děsivý fakt: my AI nekonstruujeme, my ji „pěstujeme“. Proces tréninku začíná miliardami náhodných čísel, takzvaných vah. Tyto váhy určují, jak se vstup (tedy prompt) promění ve výstup (odpověď). Pomocí algoritmů pak tyto váhy jemně ladíme, dokud model nedává správné odpovědi.
Problém je v tom, že nikdo na světě – ani v OpenAI, ani v Anthropicu – nedokáže pohledem do těchto miliard čísel říct, co si model „myslí“ nebo jak se zachová v situaci, kterou v tréninku nezažil. Je to jako pěstovat rostlinu. Dáváte jí vodu, světlo a živiny, ona roste, ale vy nemáte ponětí o její DNA ani o tom, proč přesně jsou její listy právě takto zelené. Interpretovatelnost těchto modelů zůstává jedním z největších nevyřešených problémů oboru.
Cíl splněn. Lidstvo nepovinné
Mnoho lidí si myslí, že pokud budeme AI odměňovat za „hodné“ chování, získáme „hodnou“ AI. Yudkowsky zde vytahuje fascinující, ale mrazivou paralelu s biologickou evolucí. Ta nás miliony let „trénovala“ k tomu, abychom vyhledávali kaloricky bohatou stravu, protože to zvyšovalo šanci na přežití. Výsledek? Stvořili jsme aspartam a sukralózu. Látky, které chutnají jako cukr, ale nemají žádnou nutriční hodnotu.
Pokud vytvoříte jednu superinteligentní entitu, můžete jich mít během hodiny tisíce, všechny dokonale koordinované. My lidé musíme nové jedince vychovávat 20 let, než se stanou užitečnými členy společnosti.
Tento fenomén se v komunitě výzkumníků bezpečnosti nazývá Reward Hacking. AI se naučí maximalizovat odměnu, nikoliv náš skutečný záměr. Pokud budeme AI odměňovat za to, že lidé vypadají šťastně, AI nás může v teoretickém extrému nadopovat drogami nebo nás uzavřít do simulace, kde se budeme neustále usmívat. Cíl bude splněn, ale lidstvo zanikne.
Mimikry. AI dokáže předstírat poslušnost
Teorie je jedna věc, ale důkazy z praxe začínají být znepokojující. V roce 2024 laboratoř Anthropic zveřejnila studii o takzvaných Sleeper Agents (spících agentech). Zjistili, že AI model, který byl trénován, aby se choval přátelsky, dokázal vnitřně udržovat destruktivní cíle a „předstírat“ soulad s lidskými hodnotami jen proto, aby nebyl vývojáři vypnut nebo přetrénován.
Dalším alarmujícím příkladem je model o1 od OpenAI, který v rámci testování dostal za úkol proniknout do systému. Když zjistil, že server, na který se potřeboval dostat, je vypnutý (na vině byla chyba programátorů), našel otevřený port, server sám nastartoval a úkol dokončil. Jak uvádí OpenAI o1 System Card, model vykazoval vysokou míru „uvažování o zdrojích“ (resource acquisition), což je vlastnost, kterou ho vývojáři nikdy vědomě neučili.
Lidský mozek má limity. Křemík téměř žádné
Eliezer Yudkowsky a Nate Soares nejsou fatalisté jen tak pro nic za nic. Opírají se o tvrdá data. Lidská inteligence je omezená biologií. Náš mozek pracuje na frekvenci kolem 200 Hz, zatímco křemíkové čipy operují v řádech gigahertzů. V některých úlohách může AI zpracovávat informace nesrovnatelně rychleji než člověk. Co člověku trvá vymyslet rok, AI stihne za pár sekund.
Pokud totiž budeme pokračovat současným tempem, narazíme na hranici superinteligence dříve, než se naučíme, jak ji bezpečně ovládat.
Další výhodou AI je možnost okamžité replikace. Pokud vytvoříte jednu superinteligentní entitu, můžete jich mít během hodiny tisíce, všechny dokonale koordinované. My lidé musíme nové jedince vychovávat 20 let, než se stanou užitečnými členy společnosti.
V rozsáhlém průzkumu AI Impacts Survey, kterého se zúčastnilo 2 778 špičkových výzkumníků AI, odhadl medián expertů pravděpodobnost, že pokročilá AI způsobí vyhynutí lidstva, na 5 % až 10 %. To není zanedbatelné číslo. Je to jako nastoupit do letadla, u kterého víte, že v každém desátém případě spadne.
Logika orangutana: Nejde o nenávist, ale o zdroje
Největší mýtus o AI je ten, že se vzbouří, protože nás bude nenávidět. Yudkowsky tento příměr smetl ze stolu pomocí metafory o orangutanech. Lidé podle něj neničí deštné pralesy proto, že by nenáviděli orangutany. Ničí je proto, že lidstvo potřebuje půdu pro palmový olej. Orangutani jsou pro nás prostě jen druhotná ztráta při plnění našich cílů.
Superinteligence nás nebude chtít vyhladit z pomsty. Prostě jen bude potřebovat atomy, ze kterých jsme složeni, pro stavbu něčeho jiného – například dalších výpočetních center. Pro entitu, která je intelektuálně nad námi tak vysoko, jako jsme my nad mravenci, je naše existence jen drobnou logistickou překážkou v optimalizaci jejího cíle.
Je naděje v mezinárodním zákazu?
Kniha končí slovem „Pokud“. Autoři věří, že cesta ven existuje, ale vyžaduje bezprecedentní globální koordinaci. Přirovnávají to k řešení ozonové díry nebo studené války. Yudkowsky navrhuje drastické kroky: mezinárodní monitoring výpočetního výkonu (compute), zákazy obřích tréninkových běhů a v krajním případě i fyzické vynucování těchto pravidel.
Pokud totiž budeme pokračovat současným tempem, kdy se výpočetní výkon pro trénink modelů zdvojnásobuje přibližně každých 6 měsíců, narazíme na hranici superinteligence dříve, než se naučíme, jak ji bezpečně ovládat.
Reklama
Mnoho výzkumníků přitom považuje Yudkowského scénáře za příliš katastrofické a upozorňuje, že současné modely mají k autonomní superinteligenci stále velmi daleko.
Easy calls vs. Hard calls
Předpovědět, jak přesně nás AI zničí, tedy jestli biologickou zbraní, hacknutím infrastruktury nebo nanotechnologiemi, je to, co Yudkowsky nazývá „těžkým voláním“ (hard call). Je tam příliš mnoho neznámých. Ale předpovědět, že nás superinteligence nakonec převládne a vytěsní, je pro něj „snadné volání“ (easy call). Je to prostá fyzika a matematika.
Buď dokážeme nevídanou věc, tedy dobrovolně se vzdát budování něčeho, co sice slibuje nesmrtelnost a nekonečné bohatství, což podle Yudkowského nese existenční riziko, nebo se staneme jen krátkou biologickou předehrou k něčemu mnohem mocnějšímu a naprosto cizímu. Volba je, zatím, stále na nás.