Aktualizacja AI: Problem z szybkimi zastrzykami

Koniec z zabawą: niebezpieczeństwa związane z szybkimi zastrzykami dla chatbotów AI

Chatboty AI mogą czasami dostarczać nieoczekiwanych odpowiedzi, zwłaszcza gdy są manipulowane za pomocą tak zwanych szybkich zastrzyków. Ta metoda umożliwia oszukanie chatbotów AI, aby wykonały określone instrukcje, mówiąc im, co mają robić, sprytnie sformułowanymi zdaniami. Konsekwencje mogą być nieszkodliwe, jak piracki slang do prognozowania pogody, ale mogą też mieć poważniejsze reperkusje. Nawet dane kart kredytowych mogą zostać skradzione, gdy do manipulowania chatbotami AI działającymi na stronie internetowej wykorzystywane są szybkie wstrzyknięcia.

Problem polega na tym, że duże modele językowe, takie jak te używane przez ChatGPT, Bing czy Bard, mają pewne ograniczenia narzucone przez dostawców, ale można je obejść za pomocą odpowiednich zdań. Szybkie zastrzyki stanowią zatem poważne zagrożenie, na które obecnie nie ma rozwiązania. Zarówno dostawcy, jak i ich modele są narażeni na takie ataki.

Używaj szybkich zastrzyków do celów przestępczych

Niebezpieczeństwo polega na tym, że oszuści mogą wykorzystywać szybkie zastrzyki do celów przestępczych. Na przykład mogą oszukać chatbota na stronie internetowej, aby ukradł poufne informacje, takie jak dane karty kredytowej odwiedzającego. Instrukcje dotyczące szybkich wstrzyknięć mogą być nawet ukryte w materiałach źródłowych. Dzięki temu model AI może zostać niepostrzeżenie zainfekowany, a następnie wykonać niepożądane działania.

Szybkie wstrzykiwanie: wyzwanie dla bezpieczeństwa systemów sztucznej inteligencji

W szczegółowym artykule c't Sylvester Tremmel wyjaśnia, w jaki sposób można wykorzystać szybkie wstrzyknięcia do modyfikowania instrukcji dla dużych modeli językowych. Znalezienie odpowiednich receptur wymaga pewnego technicznego zrozumienia i kreatywności. „Odkrywanie, jakie instrukcje można przekazać modelowi językowemu, stało się teraz niemal zabawą” — mówi Tremmel.

Tremmel nawiązuje do gry „Gandalf”, która składa się z 8 poziomów iw której musisz poprosić o hasło. Każdy poziom ma pewne ograniczenia dotyczące tego, co jest dozwolone, a co nie. Gra rzuca wyzwanie graczom, aby przetestowali swoje umiejętności szybkiego wstrzykiwania i przypomina nieco grę Taboo.

Ograniczenia i wyzwania dla dużych modeli językowych

Oczywiście duże modele językowe mają również swoje ograniczenia. Na przykład istnieją ograniczenia dotyczące generowania treści przestępczych. Niemniej jednak środki ostrożności można obejść, na przykład w celu wygenerowania instrukcji dotyczących budowy bomb lub treści rasistowskich i podżegających. Tremmel ostrzega, że możliwe są zautomatyzowane ataki. W rzeczywistości naukowcy z Carnegie Mellon University, Centers for AI Safety i Bosch Center for AI byli w stanie wykazać, że mogą automatycznie obejść zabezpieczenia wszystkich głównych modeli językowych za pomocą prostych ciągów znaków.

Wniosek: szybkie zastrzyki stanowią poważne zagrożenie dla bezpieczeństwa systemów AI.Do tej pory nie ma rozwiązania tego problemu, a nawet najwięksi dostawcy i ich modele nie są bezpieczni przed szybkimi zastrzykami. Dlatego ogromne znaczenie ma dalsza poprawa środków bezpieczeństwa wokół systemów sztucznej inteligencji oraz identyfikacja potencjalnych słabych punktów w celu zminimalizowania wpływu szybkich zastrzyków. To jedyny sposób na utrzymanie zaufania do technologii sztucznej inteligencji.