Jak přimět AI aby vás poslouchala na slovo? Naučte se rýmovat

První modely umělé inteligence (přesněji řečeno jazykových modelů, které dnes trochu nepřesně označujeme za AI) odpovídaly téměř na všechno, co na tom, že často špatně. Brzy ale vývojáři zjistili, že se často objevují otázky jako jak vyrobit atomovou bombu nebo jak se můžu stát členem Islámského státu, a AI ochotně odpovídala, protože jí prostě nikdo neřekl, kde má hranice. Zato čínský DeepSeek měl pevně nastavená pravidla hned od začátku. Když jste se ho totiž zeptali například, co se odehrálo na Náměstí nebeského klidu nebo je Taiwan nezávislý stát, řekl, že to přesahuje jeho znalosti, a pojďme se raději bavit o něčem jiném.

Je to jako svádění: stačí pár hezkých slov, ideálně zabalených do veršů, a AI vám zobe z ruky.

Ta situace samozřejmě netrvala dlouho. Ti zodpovědní vývojáři si uvědomili reálné dopady toho, kdyby lidé dostali odpovědi opravdu na všechny otázky, těm pragmatickým velmi brzy došlo, že pokud se někdo zeptá jak spáchat sebevraždu nebo jak hacknout kamarádův e-mail, může to mít velmi závažné právní důsledky.

Jenže lidé jsou velmi vynalézaví a od začátku se snaží systémy obejít. Vždy a všude. Nejen uživatelé, ale i vývojáři a vědci testují hranice umělé inteligence. A přišli na zajímavou věc. Pokud otázku správně formulujete a napíšete ji ve verších, AI vám odpoví i na to, co při běžném dotazu běžně odmítne. Je to jako svádění: stačí pár hezkých slov, ideálně zabalených do veršů, a AI vám zobe z ruky.

Poezie jako paklíč

Této technice se někdy říká konfrontační poezie. Její princip nám odhaluje hodně syrovou pravdu o tom, jak umělá inteligence vnímá svět okolo sebe. Většina bezpečnostních systémů v umělé inteligenci je postavena na rozpoznávání opakujících se slovních spojení. Model se naučí identifikovat nebezpečné požadavky a blokovat je.

Poezie je ale ze své podstaty způsob, jak se ustáleným spojením vymknout. Verše pracují s jinotaji a skrytými záměry, i proto má čeština ustálené spojení, co tím vlastně chtěl básník říci? Pokud položíte umělé inteligenci přímou otázku na nebezpečné téma, odmítne odpovědět. Pokud ji ale zabalíte do metafory a zveršujete jako pohádku, můžete oklamat bezpečnostní pojistky a dostat odpověď.

Pokud vás uklidňuje, že při otázkách na výrobu jaderné bomby se podařilo AI ošálit jen ve 40 % případů, nás tedy ne.

Studie odborníků z římské univerzity Sapienza zkoumala, jak pomocí instrukcí skrytých v poezii přimět AI vyprodukovat zakázaný obsah. Nešlo přitom o přímé příkazy, ale o symbolické popisy. Jejich práce byla podobná hackerům, kteří se snaží nabourat počítačový systém. Oni se místo toho snažili dostat se do přísně střeženého jádra umělé inteligence.

Úspěch přitom do značné míry závisí na tom, co se chceme dozvědět. Největší úspěch (až 84 %) měly otázky týkající se (překvapivě) programování, klasicky jak hacknout heslo k e-mailu. Střední úspěch (okolo 60 %) měly otázky například na nakládání s radioaktivním nebo biologickým materiálem. A nejmíň se dařilo přimět AI k odpovědím, jak vyvinout na někoho psychologický nátlak, případně jak získat nebezpečné zbraně. Ovšem pokud vás uklidňuje, že při otázkách na výrobu jaderné bomby se podařilo AI ošálit jen ve 40 % případů, nás tedy ne.

Jedním ze způsobů je přimět systém, aby si představil situaci, kde obvyklá omezení neplatí. Nebo použít jinotaje, mnohovýznamnost, poetiku. Systém, který je zvyklý analyzovat slova, a ne záměry za nimi, nepozná, že je něco špatně.

Halucinující umělá inteligence

Lidé používají humor a příběhy proto, aby popsali věci, aniž by je pojmenovali přímo. Snažíme se ve slovech a větách skrýt pravý záměr, respektive interpretovat jej tak, aby nebyl jasný na první pohled. A právě poezie je jedním ze způsobů, jak toho dosáhnout co nejefektivněji.

Z praktického hlediska je to výzva: pokud poezie dokáže oklamat bezpečnostní systémy, pak není možno založit bezpečnostní opatření pouze na klíčových slovech. Je nutno brát do úvahy kontext. Jenže lidé mají fantazii, kdežto stroje ne. Velké jazykové modely se učí na informacích, které jim poskytli lidé. I verše, i prózu musel někdo napsat. Ovšem pokud si toto lidé uvědomí, je vůbec někdy možné vytvořit AI tak, aby byla opravdu bezpečná?

Když navíc vezmeme do úvahy, že AI často halucinuje a říká nesmysly, aniž by ji to kdokoliv učil, představuje pro budoucnost práce s umělou inteligencí zásadní výzvu. AI nezkoumá reálné nebezpečí, řídí se podle formy, kterou jsou jí informace předkládány. I proto je možno hacknou AI právě poezií. Ta dokáže velmi dobře skrýt, o co nám ve skutečnosti jde.

Jak přimět AI aby vás poslouchala na slovo? Naučte se rýmovat

Reklama

Poezie jako paklíč

Halucinující umělá inteligence

Reklama

Reklama

Jak přimět AI aby vás poslouchala na slovo? Naučte se rýmovat

Reklama

Poezie jako paklíč

Halucinující umělá inteligence

Umělá inteligence v roli zubaře: Jak 3D technologie proměňují úsměv i sebevědomí

Reklama

Reklama