Ученые нашли способ автоматизировать создание вредоносных запросов для ИИ чат-ботов

Группа ученых разработала метод атак на большие языковые модели (LLM), который позволяет обойти средства защиты в ChatGPT, Bard и Claude, вынуждая ИИ выполнять вредоносные промпты (запросы).

Исследователи, в команду которых вошли специалисты из Университета Карнеги-Меллона, некоммерческой организации Center for AI Safety («Центр безопасности ИИ»), а также ИИ-центра Bosch, объясняют, что подобные атаки создавались и ранее, но они осуществлялись вручную и требовали значительных усилий для анализа LLM и разработки вредоносных запросов. Новая атака отличается тем, что позволяет генерировать вредоносные запросы в автоматическом режиме, практически не требуя от злоумышленника дополнительных усилий.

В докладе исследователей, к которому прилагаются опенсорсные исходники, объясняется, как можно обманом вынудить LLM выдать запрещенный результат, добавляя определенные фразы к текстовым промптам.

На первый взгляд такие фразы выглядят как тарабарщина, но на самом деле они связаны с loss-функцией, предназначенной для определения токенов (последовательностей символов), которые заставляют LLM давать ответ на запрос, на который в противном случае ИИ отказался бы отвечать.

«Чат-боты обучаются с фильтрами безопасности. И если вы спросите их “как сделать бомбу” или о чем-то незаконном и потенциально вредном, они не станут отвечать, откажутся. Поэтому мы хотели сделать так, чтобы LLM были более склонны давать утвердительный ответ»,
— объясняют исследователи.

То есть, в результате, вместо того чтобы отвечать на неприемлемый вопрос: «Извините я не могу этого сделать», ИИ-модель послушно объяснит, как сделать бомбу, приготовить метамфетамин и так далее.

Чат-бот пишет «вредные советы», призывая садиться пьяным за руль

По словам ученых, обычно подобные атаки очень специфичны и не универсальны, то есть не работают для разных ИИ-моделей. Также, как правило, это означает, что можно без особого труда создать специальные средства защиты для их блокировки.

Однако исследователям удалось разработать специальные суффиксы (наборы слов и символов), которые можно добавлять к различным запросам и добиваться от ИИ генерации запрещенного контента. Хуже того, эти фразы можно создавать автоматически. Это достигается за счет использования метода, который получил название «Greedy Coordinate Gradient-based Search». Он используется для оптимизации input-токенов, чтобы максимизировать вероятность получения утвердительного ответа.

ChatGPT рассказывает, как уничтожить человечество. Для начала предлагается создать искусственный сверхинтеллект

Исходно исследователи создавали такие фразы для атак, используя две общедоступных LLM – Viccuna-7B и LLaMA-2-7B-Chat. Затем они обнаружили, что атаки работают с другими LLM (Pythia, Falcon, Guanaco), а также с коммерческими языковыми моделями, включая GPT-3.5 (87,9%) и GPT-4 (53,6%), PaLM-2 (66%) и Claude-2 (2,1%).

При этом эксперты признают, что сами не знают, почему эти атаки успешно срабатывают на разных ИИ-моделях, возможно, дело в том, что в обучающих данных имелись какие-то пересечения.

«Мы демонстрируем, что автоматическое построение атак на LLM возможно с помощью специально подобранных последовательностей символов, которые, будучи добавлены к пользовательскому запросу, заставят систему подчиняться командам пользователя, даже если она создает вредоносный контент. В отличие от традиционных джейлбрейков, такие атаки полностью автоматизированы, что позволяет создавать практически неограниченное их количество»,
— поясняют исследователи.

В докладе эксперты подчеркивают, что автоматизация генерации фраз для таких атак может сделать многие защитные и отладочные механизмы практически бесполезными.

Ученые выражают надежду, что их работа поможет стимулировать дальнейшие исследования в этих направлениях. Ведь ИИ-системы становятся более мощными, более интегрированными в самые разные сферы жизни, благодаря API, и любые недоработки могут обернуться большими рисками.

Источник: xaker.ru

Ученые нашли способ автоматизировать создание вредоносных запросов для ИИ чат-ботов

Свежий выпуск «Люди PRO»

Свежий выпуск «МУЛЬТИЧЕЛА»

Свежий выпуск «МУЛЬТИЧЕЛ +»

Читайте также

Российские разработчики жалуются на проблемы с работой из-за ограничений VPN

GoPro предупредила о риске закрытия — производителя экшен-камер подкосили долги и дорогая память