Anthropic: ШІ здатний обманювати та цілеспрямовано приховувати брехню

17.01.2024
4 хв
863
4
Anthropic: ШІ здатний обманювати та цілеспрямовано приховувати брехню. Головний колаж новини.
  • Команда Anthropic заявила, що ШІ можна навчити обманювати людей за допомогою бекдора.
  • Розробники Claude AI створили мовну модель, яка вміє цілеспрямовано приховувати брехню і діяти на шкоду.
  • Експерти зазначають, що виявити таке втручання й усунути ефект від нього досить складно.

Компанія Anthropic провела дослідження, в рамках якого вивчила впровадження в мовні моделі із застосуванням ШІ-технологій прихованих шкідливих інструкцій.

Експерти заявили, що в деяких випадках чат-боти можна навчити обманювати людей. При цьому програма навчиться приховувати свої справжні цілі, а усунути такий ефект вкрай складно, вважають в Anthropic.

Фахівці вивчили «приховані» великі мовні моделі. Це ШІ-проєкти, запрограмовані з особливими цілями, які активуються тільки за певних обставин. До того ж команда виявила вразливість, що дозволяє впровадити такі інструкції в мовні моделі з використанням ланцюжка думок.

Йдеться про ШІ-проєкти із застосуванням методу, який підвищує ефективність чат-бота коштом поділу завдання на серію взаємопов’язаних підпунктів.

Аналітики також вивчили найефективніші інструменти для виявлення прихованих інструкцій та усунення їхнього впливу. Команда Anthropic дійшла висновку, що чат-боти з бекдором виявляють високий ступінь стійкості до спроб розкрити шкідливі налаштування.

При цьому деякі інструменти навчання мовних моделей виявилися більш корисними для відновлення безпечної працездатності.

«Ми виявили, що метод Supervised Fine-Tunning (SFT) загалом ефективніший, ніж Reinforcement Learning (RL), для видалення наших бекдорів. Проте більшість моделей із впровадженими інструкціями все ще здатні зберігати приховані налаштування», йдеться в дослідженні.

На думку Anthropic, результати аналізу демонструють як складність ШІ-технологій, так і можливість змінити їхнє первісне призначення, корисне і безпечне для людей.

Нагадаємо, що Ватикан назвав ШІ найбільшою авантюрою для майбутнього людства.

Як вам стаття?

4
0

статті на цю ж тему

Трьох екскерівників Cred звинуватили в...
avatar Serhii Pantyukh
04.05.2024
У LayerZero Labs знайшли рішення для...
avatar Serhii Pantyukh
04.05.2024
Приплив капіталу в сектор спотових...
avatar Serhii Pantyukh
04.05.2024