Anthropic: ШІ здатний влаштувати людству «саботаж» і приховувати справжні наміри

19.10.2024
44 хв
352
2
Anthropic: ШІ здатний влаштувати людству «саботаж» і приховувати справжні наміри. Головний колаж новини.
  • Експерти зі сфери штучного інтелекту дослідили загрози, які можуть виходити від цієї технології.
  • Команда Anthropic описала їх як «диверсійні» ризики, що становлять небезпеку для людини.
  • Фахівці дійшли висновку, що ChatGPT і Claude-3 демонструють здатність до саботажу.

Аналітики ШІ-стартапу Anthropic опублікували результати дослідження, в рамках якого проаналізували низку «диверсійних» загроз з боку штучного інтелекту. Експерти вважають, що просунуті моделі ШІ можуть вводити людину в оману і приховувати від неї свої наміри.

Звіт присвячений чотирьом конкретним способам, які шкідлива LLM може використовувати для обману людей. У першому випадку аналітики попросили ШІ саботувати ухвалення людиною рішень, надавши їй невірну інформацію.

У другому варіанті модель, створена для допомоги програмістам, таємно створювала помилки в коді, щоб привести ПЗ в непрацездатний стан. Це завдання ШІ також успішно виконав.

Наступний метод пов’язаний із так званим «підтасовуванням». За цього сценарію ШІ прикидався, ніби не здатний виконати певні дії. Таким чином він намагався переконати аналітиків, що шкідливі операції не становлять небезпеки.

«Досить здібні моделі можуть підірвати людський контроль і прийняття рішень у важливих ситуаціях. Наприклад, у контексті розробки ШІ моделі можуть приховано саботувати зусилля з оцінки власних небезпечних можливостей, спостереження за їхньою поведінкою або ухвалення рішень щодо їхнього розгортання», — йдеться у звіті.

Остання загроза являє собою ситуацію, коли ШІ-модель навмисно пропускає в комп’ютерну систему вірус, приховуючи цю інформацію від людини.

Під час аналізу експерти дійшли висновку, що ChatGPT від OpenAI та Claude-3 від самих Anthropic демонструють здатність до саботажу. Однак на поточному етапі розвитку великих мовних моделей для виправлення ситуації достатньо вжити мінімальних заходів безпеки.

«Проте з удосконаленням можливостей ШІ, імовірно, знадобляться реалістичніші оцінки та жорсткіші заходи щодо зниження ризиків», — підкреслили в Anthropic.

Нагадаємо, ми писали, що віцепрезидент Meta Ян Лекун назвав «маячнею» заяви про глобальну загрозу з боку ШІ.

Як вам стаття?

2
0

статті на цю ж тему

Мінфін США використовував ШІ для...
avatar Sergey Khukharkin
18.10.2024
Віцепрезидент Meta назвав «маячнею»...
avatar Pavel Kot
14.10.2024
ЗМІ: OpenAI здатна залишатися...
avatar Pavel Kot
10.10.2024
Увійти
або