Anthropic: ИИ способен устроить человечеству «саботаж» и скрывать истинные намерения

19.10.2024

44 мин

348

Anthropic: ИИ способен устроить человечеству «саботаж» и скрывать истинные намерения. Заглавный коллаж новости.

Эксперты из сферы искусственного интеллекта исследовали угрозы, которые могут исходить от этой технологии.
Команда Anthropic описала их как «диверсионные» риски, представляющие опасность для человека.
Специалисты пришли к выводу, что ChatGPT и Claude-3 демонстрируют способность к саботажу.

Аналитики ИИ-стартапа Anthropic опубликовали результаты исследования, в рамках которого проанализировали ряд «диверсионных» угроз со стороны искусственного интеллекта. Эксперты считают, что продвинутые модели ИИ могут вводить человека в заблуждения и скрывать от него свои намерения.

New Anthropic research: Sabotage evaluations for frontier models

How well could AI models mislead us, or secretly sabotage tasks, if they were trying to?

Read our paper and blog post here: https://t.co/nQrvnhrBEv pic.twitter.com/GWrIr3wQVH
— Anthropic (@AnthropicAI) October 18, 2024

Отчет посвящен четырем конкретным способам, которые вредоносная LLM может использовать для обмана людей. В первом случае аналитики попросили ИИ саботировать принятие человеком решений, предоставив ему неверную информацию.

Во втором варианте модель, созданная для помощи программистам, тайно создавала ошибки в коде, чтобы привести ПО в неработоспособное состояние. Эту задачу ИИ также успешно выполнил.

Следующий метод связан с так называемой «подтасовкой». При этом сценарии ИИ притворялся, будто не способен выполнить определенные действия. Таким образом он пытался убедить аналитиков, что вредоносные операции не представляют опасности.

«Достаточно способные модели могут подорвать человеческий контроль и принятие решений в важных ситуациях. Например, в контексте разработки ИИ модели могут скрытно саботировать усилия по оценке собственных опасных возможностей, наблюдению за их поведением или принятию решений об их развертывании», — говорится в отчете.

Последняя угроза представляет собой ситуацию, когда ИИ-модель намеренно пропускает в компьютерную систему вирус, скрывая эту информацию от человека.

В ходе анализа эксперты пришли к выводу, что ChatGPT от OpenAI и Claude-3 от самих Anthropic демонстрируют способность к саботажу. Однако на текущем этапе развития больших языковых моделей для исправления ситуации достаточно принять минимальные меры безопасности.

«Тем не менее по ходу совершенствования возможностей ИИ, вероятно, потребуются более реалистичные оценки и более жесткие меры по снижению рисков», — подчеркнули в Anthropic.

Напомним, мы писали, что вице-президент Meta Ян Лекун назвал «бредом» заявления о глобальной угрозе со стороны ИИ.

Как вам статья?

“Дропхантинг – это не сложно” с новым курсом от Incrypted

Anthropic: ИИ способен устроить человечеству «саботаж» и скрывать истинные намерения

Как вам статья?

Укажите причину:

статьи на эту же тему

Pavel Kot

Биография

Часто пишет на темы:

Кармометр автора

Статьи автора