Нідерландські дослідники створили ШІ-детектор сарказму
- Дослідники з Гронінгенського університету створили ШІ-алгоритм, здатний розпізнавати сарказм.
- Для його навчання розробники використовували датасет з уривками з американських ситкомів, включно з «Друзями» і «Теорією великого вибуху».
- Після тренування точність моделі становила 75%.
Дослідники з Гронінгенського університету розробили мультимодальний ШІ-алгоритм для виявлення сарказму. Роботу представили на спільному засіданні Американського акустичного товариства і Канадської акустичної асоціації, пише The Guardian.
«Ми здатні надійно розпізнавати сарказм і прагнемо розвивати цю технологію. Ми хочемо подивитися, як далеко можемо зайти», ― заявив один із розробників моделі Метт Колер.
За його словами, сарказм пронизує людський дискурс більше, ніж суспільство здатне уявити. Його розуміння має вирішальне значення для безперешкодного спілкування людей і машин, додав Колер.
Під час створення детектора дослідники виявили, що ШІ потрібні численні сигнали, які дають змогу відрізнити сарказм від щирості.
Фахівці навчили нейромережу на мультимодальних даних ― аудіокліпах, тексті та анотованому емоційному контенті. Вони використовували уривки з американських ситкомів, включно з «Друзями» і «Теорією великого вибуху». Їх взяли з розміченого датасету MUStARD.
Однією зі сцен, на якій тренувався ШІ, була спроба Леонарда втекти із замкненого приміщення в серіалі «Теорії великого вибуху». Інша зображувала Росса з «Друзів», який пропонує Рейчел допомогти Джоуї і Чендлеру зібрати меблі.
Дослідники витягли з мови акустичні параметри, включно з висотою тону, швидкістю та енергією. Потім за допомогою автоматичного розпізнавання сказаного вони перевели її в текст для аналізу настроїв.
«Ми присвоїли кожному сегменту мови смайли, що відображають його емоційний зміст. Інтегруючи ці мультимодальні сигнали в алгоритм машинного навчання, наш підхід використовує сукупні переваги слухової та текстової інформації разом зі смайликами для всебічного аналізу», ― пояснили фахівці.
Після тренування ШІ навчився виявляти сарказм у немаркованих репліках із ситкомів майже в 75% випадків. Потім розробники використали синтетичні дані для підвищення точності моделі, але це дослідження ще не опубліковано.
За словами авторів, алгоритм можна поліпшити за рахунок додавання в датасет візуальних підказок на кшталт руху брів і посмішок.
«Чи вийде у нас на 100% точна система? Цього не можуть досягти навіть люди», ― зазначив один із дослідників.
Нагадаємо, нещодавно OpenAI представила ШІ-модель GPT-4o, здатну виражати емоції.