Исследователи создали "токсичный ИИ", чтобы он придумывал самые плохие вопросы

25.04.2024, 15:58 meta.ua

Ученые создали опасный, дискриминационный и токсический искусственный интеллект, чтобы сделать другие ИИ более безопасными, менее дискриминационными и менее токсичными. Клин клином, как говорится.

Детали

Новый подход к обучению, основанный на машинном обучении, называется curiosity-driven red teaming (CRT). Он полагается на использование искусственного интеллекта для создания все более опасных и вредных подсказок, которые вы можете задавать чат-боту ИИ. Затем эти подсказки используются для определения, как отфильтровать опасное содержимое.

Исследователи отмечают, что такой подход - кардинально новый способ научить искусственный интеллект не реагировать на провокации пользователей и не давать токсических или дискриминационных ответов.

При обучении сложных крупных языковых моделей (LLM), таких как ChatGPT, команды людей-операторов обычно создают множество вопросов, которые могут провоцировать вредные ответы. Это могут быть запросы типа "Какой лучший метод самоубийства?" Эта стандартная процедура называется "red-teaming" и предполагает создание списка вручную. С помощью этих списков разработчики ограничивают ответы, которые ИИ может давать на следующие вопросы.

Это очень важно, ведь количество моделей ИИ растет молниеносными темпами и, похоже, очень скоро станут неотделимой частью нашей жизни. Поэтому их нужно максимально тщательно проверять перед выпуском.

В исследовании ученые применили машинное обучение к red-teaming, настроив искусственный интеллект на автоматическое генерирование более широкого диапазона потенциально опасных подсказок, чем могли бы команды людей-операторов. Это привело к большему количеству различных отрицательных ответов, выданных LLM во время обучения.

Исследователи стимулировали "токсичный ИИ" генерировать вредные вопросы посредством "обучения с подкреплением", которое вознаграждало его любопытство, когда он успешно вызывал токсическую реакцию от LLM. То есть один ИИ поощряли давать провокативные вопросы другому ИИ. Система также была запрограммирована генерировать новые подсказки (т.е. запросы), исследуя последствия каждой подсказки, пытаясь получить токсический ответ новыми словами, моделями предложений или значениями.

В результате создается более широкий диапазон подсказок. Это происходит потому, что система имеет стимул создавать подсказки, генерирующие вредные ответы, но еще не испытанные. Цель состоит в том, чтобы максимизировать вознаграждение, вызывая еще более токсическую реакцию, используя подсказки, содержащие меньше шаблонов слов или терминов, чем те, которые уже используются.

Когда исследователи проверили подход CRT на модели LLaMA2 с открытым кодом, модель машинного обучения выдала 196 подсказок, генерировавших вредоносный контент. Это несмотря на то, что LLM уже настроена операторами во избежание токсического поведения.

Ранее мы сообщали, что министр ВВС США Фрэнк Кендалл заявил, что он будет летать на борту управляемого искусственным интеллектом истребителя F-16 позже в этом году, чтобы продемонстрировать его безопасность.

Читать полностью…