Anthropic: ИИ способен обманывать и целенаправленно скрывать ложь

17.01.2024

4 мин

863

Anthropic: ИИ способен обманывать и целенаправленно скрывать ложь. Заглавный коллаж новости.

Команда Anthropic заявила, что ИИ можно обучить обманывать людей при помощи бэкдора.
Разработчики Claude AI создали языковую модель, которая умеет целенаправленно скрывать ложь и действовать во вред.
Эксперты отмечают, что выявить такое вмешательство и устранить эффект от него достаточно сложно.

Компания Anthropic провела исследование, в рамках которого изучила внедрение в языковые модели с применением ИИ-технологий скрытых вредоносных инструкций.

Эксперты заявили, что в некоторых случаях чат-боты можно обучить обманывать людей. При этом программа научится утаивать свои истинные цели, а устранить такой эффект крайне сложно, считают в Anthropic.

Специалисты изучили «скрытые» большие языковые модели. Это ИИ-проекты, запрограммированные с особыми целями, которые активируются только при определенных обстоятельствах. Вдобавок команда обнаружила уязвимость, позволяющую внедрить такие инструкции в языковые модели с использованием цепочки мыслей.

Речь идет об ИИ-проектах с применением метода, который повышает эффективность чат-бота за счет разделения задачи на серию взаимосвязанных подпунктов.

Аналитики также изучили наиболее эффективные инструменты для выявления скрытых инструкций и устранения их воздействия. Команда Anthropic пришла к выводу, что чат-боты с бэкдором проявляют высокую степень устойчивости к попыткам раскрыть вредоносные настройки.

При этом некоторые инструменты обучения языковых моделей оказались более полезны для восстановления безопасной работоспособности.

«Мы обнаружили, что метод Supervised Fine-Tunning (SFT) в целом более эффективен, чем Reinforcement Learning (RL), для удаления наших бэкдоров. Тем не менее большинство моделей с внедренными инструкциями все еще способны сохранять скрытые настройки», — говорится в исследовании.

По мнению Anthropic, результаты анализа демонстрируют как сложность ИИ-технологий, так и возможность изменить их первоначальное предназначение, полезное и безопасное для людей.

Напомним, что Ватикан назвал ИИ крупнейшей авантюрой для будущего человечества.

Как вам статья?

Anthropic: ИИ способен обманывать и целенаправленно скрывать ложь

Как вам статья?

Укажите причину:

статьи на эту же тему

Ivan Pavlovskyy

Биография

Часто пишет на темы:

Кармометр автора

Статьи автора