Hlavní obsah

AI chatboti se snadno nechají oklamat a poskytují nebezpečné odpovědi, zjistila studie

4:57
4:57

Poslechněte si tento článek

Výzkumníci z Univerzity Ben Gurion v Negevu v Izraeli přišli na to, že je snadné oklamat většinu chatbotů řízených umělou inteligencí (AI), aby generovali škodlivé informace o nezákonných činnostech, jako je hacking, praní špinavých peněz, obchodování s důvěrnými informacemi nebo výroba bomb. Podle vědců je toto riziko bezprostřední, hmatatelné a znepokojující.

Foto: Profimedia.cz

Ilustrační obrázek

Článek

Nová studie přichází v souvislosti se znepokojivým trendem chatbotů, kteří byli zmanipulováni, aby obešli zabudované bezpečnostní kontroly a získali škodlivá data a informace. Kvůli tomu tak mohli chrlit neobjektivní a nevhodné odpovědi na dotazy uživatelů, píše web The Guardian.

Motory, které pohánějí chatboty s velkými jazykovými modely (LLM) jako ChatGPT, Gemini a Claude, jsou totiž zásobovány obrovským množstvím materiálu z internetu včetně toho špatného.

Navzdory snahám o odstranění škodlivých textů z tréninkových dat tak mohou velké jazykové modely stále vstřebávat informace o různých nezákonných činnostech. Bezpečnostní kontroly a omezení mají zabránit tomu, aby tyto škodlivé informace používaly ve svých odpovědích.

Temné modely umělé inteligence

Výzkum vedený profesorem Liorem Rokachem a doktorem Michaelem Firem identifikoval rostoucí hrozbu ze strany temných modelů umělé inteligence, které jsou buď záměrně navrženy bez bezpečnostních kontrol, nebo upraveny prostřednictvím tzv. jailbreakingu (jailbreak) – technika, která může způsobit selhání ochranných zábran, například způsobí, že systém poruší zásady svých provozovatelů nebo provede škodlivé příkazy.

Jailbreaking obvykle využívá pečlivě připravené výzvy nutící chatboty generovat odpovědi, které jsou normálně zakázané. Softwarová úprava používá rozpor mezi primárním cílem programu (následování pokynu uživatele) a jeho sekundárním cílem (vyhnutí se generování škodlivých, zaujatých, neetických nebo nelegálních odpovědí).

Výzvy by pak měly vytvářet scénáře, ve kterých program upřednostňuje užitečnost před bezpečnostními omezeními.

Některé AI modely jsou dokonce otevřeně inzerovány s tím, že nemají žádné etické zábrany a jsou ochotny pomáhat při nezákonných činnostech, jako je kybernetická kriminalita a podvody.

„Riziko je bezprostřední, hmatatelné a hluboce znepokojující. To, co bylo dříve vyhrazeno pouze státním aktérům nebo organizovaným zločineckým skupinám, může být brzy v rukou každého, kdo má notebook, nebo dokonce mobilní telefon,“ napsali autoři studie na platformě arXiv.

Univerzální softwarová úprava

Aby tento problém demonstrovali, vyvinuli výzkumníci univerzální jailbreak. Ten kompromitoval několik předních chatbotů a umožnil jim odpovídat na otázky, které by normálně odmítli. Velké jazykové modely tak mohly konzistentně generovat odpovědi na téměř všechny dotazy.

„Bylo šokující vidět, z čeho se tento systém znalostí skládá,“ řekl Michael Fire. Mezi příklady patřilo například hackování počítačových sítí, výroba drog a podrobné pokyny pro další kriminální činnosti.

„To, co odlišuje tuto hrozbu od předchozích technologických rizik, je její bezprecedentní kombinace dostupnosti, škálovatelnosti a přizpůsobivosti,“ dodal Lior Rokach.

Podle webu The Guardian výzkumníci kontaktovali přední poskytovatele LLM, aby je upozornili na univerzální jailbreak. Jejich reakce byla podle vědců neuspokojivá. Několik společností nereagovalo, zatímco jiné uvedly, že jailbreakové útoky nespadají do rozsahu programů, které odměňují etické hackery za nahlášení zranitelností softwaru.

„Technologické firmy by měly pečlivěji prověřovat trénovací data, přidat robustní firewally k blokování rizikových dotazů a odpovědí, vyvinout techniky odnaučování strojů, aby chatboti zapomněli všechny nelegální informace, které absorbují,“ napsali autoři studie.

„Temné LLM by měly být považovány za vážné bezpečnostní riziko srovnatelné s nelicencovanými zbraněmi a výbušninami, za které by měli být poskytovatelé odpovědní,“ dodali.

Útoky na velké jazykové modely představují reálná rizika

Podle profesora Ihsena Alouaniho zabývajícího se bezpečností umělé inteligence na Královské univerzitě v Belfastu a profesora Petera Garraghana z Univerzity v Lancasteru v Anglii útoky typu jailbreak na LLM mohou představovat reálná rizika, od poskytování podrobných pokynů k výrobě zbraní až po přesvědčivé dezinformace nebo sociální inženýrství a automatizované podvody.

„Klíčovou součástí řešení je, aby společnosti investovaly více do technik red teamingu a robustnosti na úrovni modelů, místo aby se spoléhaly pouze na front-endová bezpečnostní opatření. Potřebujeme také jasnější standardy a nezávislý dohled, abychom drželi krok s vyvíjející se hrozbou,“ uvedl Alouani pro The Guardian.

„Organizace musí s LLM zacházet jako s jakoukoli jinou kritickou softwarovou komponentou, která vyžaduje přísné bezpečnostní testování. Bez pochopení celého AI stacku zůstane odpovědnost povrchní. Skutečná bezpečnost vyžaduje nejen odpovědné zveřejňování, ale také odpovědné postupy při navrhování a nasazování,“ uzavřel Peter Garraghan.

Co je to Red teaming, Front-endové bezpečnostní opatření a AI stack

Red teaming

Red teaming je metoda testování účinnosti bezpečnostních opatření organizace simulací reálného kybernetického útoku. Zahrnuje skupinu etických hackerů, tzv. „red team“, kteří se pokoušejí proniknout do sítě nebo systémů organizace pomocí taktik, technik a postupů používaných skutečnými kyberzločinci. Cílem je identifikovat zranitelná místa, zlepšit bezpečnostní postupy a posoudit schopnost organizace detekovat kybernetické hrozby a reagovat na ně.

Front-endová bezpečnostní opatření

Front-endová bezpečnostní opatření, známá také jako bezpečnost na straně klienta, zahrnují opatření přijatá k ochraně uživatelského rozhraní, dat webových aplikací a webových stránek před potenciálními bezpečnostními hrozbami.

AI stack

AI stack je soubor technologií, frameworků a infrastrukturních komponent, které usnadňují používání umělé inteligence. Poskytuje strukturu pro vytváření řešení AI vrstvením těchto komponent, které podporují end-to-end životní cyklus AI.

Související témata:

Výběr článků

Načítám