Anthropic: ИИ способен устроить человечеству «саботаж» и скрывать истинные намерения

19.10.2024
44 мин
348
0
Anthropic: ИИ способен устроить человечеству «саботаж» и скрывать истинные намерения. Заглавный коллаж новости.
  • Эксперты из сферы искусственного интеллекта исследовали угрозы, которые могут исходить от этой технологии.
  • Команда Anthropic описала их как «диверсионные» риски, представляющие опасность для человека.
  • Специалисты пришли к выводу, что ChatGPT и Claude-3 демонстрируют способность к саботажу.

Аналитики ИИ-стартапа Anthropic опубликовали результаты исследования, в рамках которого проанализировали ряд «диверсионных» угроз со стороны искусственного интеллекта. Эксперты считают, что продвинутые модели ИИ могут вводить человека в заблуждения и скрывать от него свои намерения.

Отчет посвящен четырем конкретным способам, которые вредоносная LLM может использовать для обмана людей. В первом случае аналитики попросили ИИ саботировать принятие человеком решений, предоставив ему неверную информацию.

Во втором варианте модель, созданная для помощи программистам, тайно создавала ошибки в коде, чтобы привести ПО в неработоспособное состояние. Эту задачу ИИ также успешно выполнил.

Следующий метод связан с так называемой «подтасовкой». При этом сценарии ИИ притворялся, будто не способен выполнить определенные действия. Таким образом он пытался убедить аналитиков, что вредоносные операции не представляют опасности.  

«Достаточно способные модели могут подорвать человеческий контроль и принятие решений в важных ситуациях. Например, в контексте разработки ИИ модели могут скрытно саботировать усилия по оценке собственных опасных возможностей, наблюдению за их поведением или принятию решений об их развертывании», — говорится в отчете.

Последняя угроза представляет собой ситуацию, когда ИИ-модель намеренно пропускает в компьютерную систему вирус, скрывая эту информацию от человека.

В ходе анализа эксперты пришли к выводу, что ChatGPT от OpenAI и Claude-3 от самих Anthropic демонстрируют способность к саботажу. Однако на текущем этапе развития больших языковых моделей для исправления ситуации достаточно принять минимальные меры безопасности.   

«Тем не менее по ходу совершенствования возможностей ИИ, вероятно, потребуются более реалистичные оценки и более жесткие меры по снижению рисков», — подчеркнули в Anthropic.

Напомним, мы писали, что вице-президент Meta Ян Лекун назвал «бредом» заявления о глобальной угрозе со стороны ИИ.

Как вам статья?

0
0

статьи на эту же тему

Минфин США использовал ИИ для...
avatar Sergey Khukharkin
18.10.2024
Вице-президент Meta назвал «бредом»...
avatar Pavel Kot
14.10.2024
СМИ: OpenAI способна оставаться...
avatar Pavel Kot
10.10.2024
Войти
или