Anthropic: ИИ способен обманывать и целенаправленно скрывать ложь
- Команда Anthropic заявила, что ИИ можно обучить обманывать людей при помощи бэкдора.
- Разработчики Claude AI создали языковую модель, которая умеет целенаправленно скрывать ложь и действовать во вред.
- Эксперты отмечают, что выявить такое вмешательство и устранить эффект от него достаточно сложно.
Компания Anthropic провела исследование, в рамках которого изучила внедрение в языковые модели с применением ИИ-технологий скрытых вредоносных инструкций.
Эксперты заявили, что в некоторых случаях чат-боты можно обучить обманывать людей. При этом программа научится утаивать свои истинные цели, а устранить такой эффект крайне сложно, считают в Anthropic.
Специалисты изучили «скрытые» большие языковые модели. Это ИИ-проекты, запрограммированные с особыми целями, которые активируются только при определенных обстоятельствах. Вдобавок команда обнаружила уязвимость, позволяющую внедрить такие инструкции в языковые модели с использованием цепочки мыслей.
Речь идет об ИИ-проектах с применением метода, который повышает эффективность чат-бота за счет разделения задачи на серию взаимосвязанных подпунктов.
Аналитики также изучили наиболее эффективные инструменты для выявления скрытых инструкций и устранения их воздействия. Команда Anthropic пришла к выводу, что чат-боты с бэкдором проявляют высокую степень устойчивости к попыткам раскрыть вредоносные настройки.
При этом некоторые инструменты обучения языковых моделей оказались более полезны для восстановления безопасной работоспособности.
«Мы обнаружили, что метод Supervised Fine-Tunning (SFT) в целом более эффективен, чем Reinforcement Learning (RL), для удаления наших бэкдоров. Тем не менее большинство моделей с внедренными инструкциями все еще способны сохранять скрытые настройки», — говорится в исследовании.
По мнению Anthropic, результаты анализа демонстрируют как сложность ИИ-технологий, так и возможность изменить их первоначальное предназначение, полезное и безопасное для людей.
Напомним, что Ватикан назвал ИИ крупнейшей авантюрой для будущего человечества.