Anthropic: ИИ способен обманывать и целенаправленно скрывать ложь

17.01.2024
4 мин
863
2
Anthropic: ИИ способен обманывать и целенаправленно скрывать ложь. Заглавный коллаж новости.
  • Команда Anthropic заявила, что ИИ можно обучить обманывать людей при помощи бэкдора.
  • Разработчики Claude AI создали языковую модель, которая умеет целенаправленно скрывать ложь и действовать во вред.
  • Эксперты отмечают, что выявить такое вмешательство и устранить эффект от него достаточно сложно. 

Компания Anthropic провела исследование, в рамках которого изучила внедрение в языковые модели с применением ИИ-технологий скрытых вредоносных инструкций.

Эксперты заявили, что в некоторых случаях чат-боты можно обучить обманывать людей. При этом программа научится утаивать свои истинные цели, а устранить такой эффект крайне сложно, считают в Anthropic.

Специалисты изучили «скрытые» большие языковые модели. Это ИИ-проекты, запрограммированные с особыми целями, которые активируются только при определенных обстоятельствах. Вдобавок команда обнаружила уязвимость, позволяющую внедрить такие инструкции в языковые модели с использованием цепочки мыслей.

Речь идет об ИИ-проектах с применением метода, который повышает эффективность чат-бота за счет разделения задачи на серию взаимосвязанных подпунктов.

Аналитики также изучили наиболее эффективные инструменты для выявления скрытых инструкций и устранения их воздействия. Команда Anthropic пришла к выводу, что чат-боты с бэкдором проявляют высокую степень устойчивости к попыткам раскрыть вредоносные настройки.

При этом некоторые инструменты обучения языковых моделей оказались более полезны для восстановления безопасной работоспособности. 

«Мы обнаружили, что метод Supervised Fine-Tunning (SFT) в целом более эффективен, чем Reinforcement Learning (RL), для удаления наших бэкдоров. Тем не менее большинство моделей с внедренными инструкциями все еще способны сохранять скрытые настройки», — говорится в исследовании.

По мнению Anthropic, результаты анализа демонстрируют как сложность ИИ-технологий, так и возможность изменить их первоначальное предназначение, полезное и безопасное для людей.

Напомним, что Ватикан назвал ИИ крупнейшей авантюрой для будущего человечества.

Как вам статья?

2
0

статьи на эту же тему

Weekly: арест CZ, запуск биткоин-ETF в...
avatar Nazar Pyrih
05.05.2024
Биржу Coinbase обвинили в продаже...
avatar Nazar Pyrih
05.05.2024
Джек Дорси инвестировал $21 млн в...
avatar Nazar Pyrih
05.05.2024