Сподіваюся, що ШІ не зробить нас повністю безкорисними: співзасновник NEAR про розвиток штучного інтелекту

03.10.2024
35 хв
2029
3
Сподіваюся, що ШІ не зробить нас повністю безкорисними: співзасновник NEAR про розвиток штучного інтелекту. Головний колаж новини.

Ще 2017 року команда NEAR ставила перед собою завдання створити загальний штучний інтелект (artificial general intelligence; AGI), але згодом — через наявні тоді технічні обмеження та відсутність ресурсів — змістила фокус у бік проєктування блокчейн-платформи.

Однак розробники остаточно так і не відмовилися від цієї ідеї. У 2024 році команда знову зробила розворот і запустила дослідницьку лабораторію NEAR AI, яка ставить перед собою аналогічні цілі.

Редакція Incrypted поспілкувалася з ідейним натхненником цієї ініціативи — співзасновником NEAR Олександром Скидановим. Ми поговорили про роль блокчейну в розвитку децентралізованого ШІ, труднощі, з якими стикаються розробники, і ризики, пов’язані з появою сильного штучного інтелекту.

Наскільки я розумію, ви саме та людина, яка «топить» у NEAR за ШІ-складову.

Так. Я почав говорити про це ще 2021 року. Тоді мене особливо ніхто не слухав. Із 2021 року я вже робив якісь проєкти. Минулого року я запустив компанію, яка була повністю сфокусована на ШІ-дослідженнях. Зараз нарешті NEAR знайшов ресурси, щоб працювати над штучним інтелектом. Ця компанія зараз увійшла в NEAR і зараз називається NEAR AI.

З чим пов’язаний розворот, який зробив NEAR? Ви розвивали блокчейн-платформу і зараз вирішили працювати над штучним інтелектом. Наскільки я розумію, мета NEAR AIстворити загальний ШІ.

Це була наша з Іллею [Полосухіним] мрія і, я думаю, багатьох інших людей цього покоління. Тому що відчувається, що AGI вже недалеко.

Коли ми починали NEAR AI у 2017 році, завданням було написати AGI. Але потім ми зробили розворот у бік блокчейну.

Тому що поки ми працювали над AGI у 2017 році, основна проблема була все-таки з анотацією даних. Ще ми помітили, що просто навіть платити людям через PayPal у різних країнах було дуже складно. І ми почали будувати блокчейн.

Тоді, фактично, з блокчейнів був Ethereum, біткоїн і IOTA, і не було можливості легко здійснювати оплату через подібні мережі. Ми з Іллею, обидва будучи досить технічними людьми, подумали, що цю проблему явно можна розв’язати, якщо досить багато розумних, системних людей займеться нею. Так з’явився NEAR.

Проте, як я сказав, я ще з 2021 року топив і будував якісь цікаві АІ-проєкти всередині NEAR. У нас уже є величезна платформа для анотації даних. Зараз у NEAR загалом таке бачення — ми хочемо, щоб люди володіли власними грошима і власними даними та контролювали їх.

ШІ зараз буде розвиватися дуже швидко. Але фактично наразі у нас знову та сама траєкторія: коли маленька кількість компаній — OpenAI, Anthropic, можливо, Google — повністю контролюватимуть усе. Як це було, наприклад, із пошуковими системами.

Що більше даних отримують такі компанії, то більше вони можуть покращувати свої продукти, і тим складніше якимось зовнішнім учасникам їх наздогнати.

Знову виходить «обгороджений сад».

Так. І одним із великих напрямів роботи NEAR завжди було, що ми називаємо Open Web. Але побудувати його не вийде, якщо зараз ШІ-сегмент «захоплять» Google і Anthropic, тому що стверджується, що ШІ буде досить великою частиною інтернету. Усе до цього йде, тому що навіть просто взаємодіяти з додатками ми будемо по-новому.

Я сьогодні показував демо — його буде складно описати в тексті, але ідея в тому, що ми поступово рухаємося у світ, у якому фронтенд застосунку може в моменті підлаштуватися прямо під потреби користувача. Тобто ШІ дуже сильно може змінити нашу взаємодію з інтернетом, додатками та інфраструктурою.

І якщо ШІ повністю контролюється компаніями, то Open Web просто не відбудеться. Тому нам потрібно вже зараз думати, що ми можемо зробити.

Як ми можемо переконатися, що базові моделі в майбутньому продовжать існувати у форматі відкритого коду і при цьому змагатися з моделями великих компаній. Як ми можемо переконатися, що в нас у принципі є інфраструктура для розгортання застосунків, у якій дані нікуди не витікають.

Зараз ми перебуваємо в такому унікальному моменті, коли всі останні прориви в галузі ШІ більш менш відомі. Тобто найостанніше, що OpenAI робила — це їхній Q-sharp або Strawberry — ми не знаємо, що це, так. Але ось те, як саме було натреновано GPT-4, більш-менш відомо. Інформація про більшість ноу-хау витекла, або їх взагалі створювали відкрито.

Але я думаю, дуже ймовірно, що в наступний рік або два будуть якісь прориви, які відбудуться всередині OpenAI або всередині Google. І вони не будуть доступні за їхніми межами.

І як ми можемо зробити так, щоб у людей, які хочуть займатися дослідженнями в галузі ШІ, але не хочуть іти в OpenAI, був доступ до необхідних ресурсів? Що ми можемо поставити на противагу всім цим дослідженням, які відбуваються за закритими дверима? Ці напрямки дуже важливі для того, щоб прорив відбувся. Тому ми запустили лабораторію NEAR AI.

І яке місце блокчейн NEAR займає в цьому баченні? Це буде рівень доступності даних або рівень інсентивізації ШІ-агентів — які функції він має виконувати?

Для різних аспектів різні. Наприклад, анотація даних — вона сьогодні повністю відбувається в контексті блокчейна NEAR. Тобто всі платежі учасникам, які займаються розміткою, відбуваються в блокчейні, як і верифікація.

Для тих, хто не розбирається — що таке анотація даних?

Припустимо, ви хочете застосувати ШІ в якомусь контексті. Сьогодні окремі моделі дуже добре справляються із завданнями, які часто зустрічаються в інтернеті. Наприклад, чому моделі так добре пишуть код? Тому що є GitHub і там величезна кількість цього самого коду. Але якщо у вас є якесь завдання, яке рідко зустрічається в інтернеті, модель може галюцинувати, гірше справлятися.

Тому що сам датасет менший.

Так. Тому що в тому величезному датасеті, на якому вона тренувалася, ця конкретна підмножина, яка вам релевантна, істотно менша. І ви приходите до людей, які знаються на цій темі, і кажете: «Хлопці, створіть набір даних, який буде близький до того застосунку, який ми хочемо зробити».

Зазвичай цим займаються спеціальні компанії. Ви пояснюєте, що ви хочете, вони знаходять людей, які можуть створити для вас дані. І все працює досить добре рівно до того моменту, як ви хочете створити великий обсяг даних — підхід перестає працювати.

Чому? Тому що в кінцевому підсумку все одно люди насамперед хочуть заробити грошей і тільки потім уже — створити для вас хороший набір даних. І вони завжди знаходитимуть способи зробити мінімальну кількість роботи, щоб отримати свої гроші.

За незначного обсягу даних ви можете тримати певний штат людей, які будуть цю роботу перевіряти. Але зі зростанням масштабу це стає все складніше і складніше.

І ось те, чим я займався три роки тому, це розробляв таку платформу, де люди будуть верифікувати роботу один в одного таким чином, щоб якість даних не падала.

Блокчейн абсолютно природним чином застосовний тут. І в принципі я вважаю це завдання зараз повністю вирішеним. Ми ще не відкрили платформу для зовнішніх користувачів, але вже розмітили самі величезну кількість даних, які ми спонсорували для наших досліджень. І ми, найімовірніше, відкриємо її або цього року, або на початку наступного. Вона повністю побудована поверх NEAR.

Що ви думаєте про те, що відбувається в галузі децентралізованого ШІ?

Мені здається, де взагалі загалом блокчейн побачить найбільше застосування, крім, зрозуміло, DeFi і фінансових операцій, це, по-перше, [цифрова] ідентичність. Зараз усе відбувається централізовано. У моєму браузері фактично є хардкод — кому я маю довіряти. Ця система не робоча в довгостроковій перспективі.

Блокчейн повністю вирішує проблему довіри. Якщо ти знаєш ім’я мого акаунта, це знання гарантує тобі можливість перевіряти мої підписи. Тому що блокчейн завжди зберігатиме найсвіжіший ключ.

По-друге, контроль якихось речей, які відбуваються поза мережею. Наприклад, Sia — чудовий приклад того, як усе відбувається повністю офчейн, але певні мітки записуються в блокчейн. Те саме відбуватиметься в мережах монетизації даних — усе відбувається офчейн, а в основній мережі перевіряється, що дані були правильно передані тощо.

Зрештою майже всі проєкти, які зараз існують на стику Web3 і штучного інтелекту саме так блокчейн і використовують. Щось відбувається поза мережею, а в децентралізований реєстр записують інформацію, щоб люди знали, що дані використовують у такий-то спосіб, що інсентивізація доходить до тих користувачів, до яких вона має дійти.

Ви говорили, що не вірите в компанії, які будують продукти категорії AI-first. Що означає останнє? Припустимо, OpenAI належить до таких компаній?

Так. Звісно, OpenAI і Anthropic уже далеко позаду залишили той шлях, який проєкту потрібно пройти, щоб люди навколо були впевнені, що він доб’ється успіху. Але ось інший приклад: якщо подивитися на останню групу учасників Y Combinator і прибрати там фільтр AI — залишаться буквально одиниці компаній. Тому що кожен стартап зараз каже: «Ми ШІ для чогось».

Проблема в тому, що ШІ — це лише інструмент. Компанії намагаються поставити його на чолі свого продукту — це призводить до того, що з’являється маса проєктів, які нічим не відрізняються один від одного. Вони використовують однакові моделі, жодної різниці між ними немає. Тому більшість із них не має жодного шансу вижити. Виграє не той, хто краще за всіх побудує, а той, хто має унікальний юзкейс для продукту.

Здебільшого компанії використовують уже наявні моделі, а не розробляють власні. Вірно?

Розробляти власні моделі дуже небезпечно, тому що це дуже дорого. І, звісно, тієї експертизи, яка є всередині OpenAI або Аnthropic, у них теж немає. Тобто розробити свою модель з нуля, я думаю, абсолютно згубна справа сьогодні для більшості компаній. Просто тому, що в них немає ресурсів.

Чи може це змінити блокчейн? Можливо, децентралізоване навчання моделей?

Це дуже цікаве питання. Я не думаю, що блокчейн в ізоляції міг би допомогти. Але якщо не знайдемо способу об’єднати ресурси для навчання моделей, якщо не знайдемо способу робити дослідження в галузі штучного інтелекту, використовуючи якусь розподілену систему грантів, у нас не вийде побудувати майбутнє, у якому OpenAI і Anthropic не контролюють найкращі моделі.

Створення і навчання моделей рівня GPT-4 вимагає величезних обчислювальних потужностей — кластери з тисячами процесорів, таких як H100. І якщо одна компанія контролює такий кластер, зникнення цієї компанії призводить до того, що ми втрачаємо доступ до ресурсів. Ми змушені будувати новий кластер — а це коштує величезних грошей.

Є шанс, що Meta продовжить публікувати моделі. Якби не вони, ми були б у набагато гіршому становищі. Але ми не можемо будувати орієнтоване на open source майбутнє навколо цілком собі закритої компанії.

У короткостроковій перспективі — який найімовірніший сценарій, як може розвиватися спроба блокчейн-спільноти побудувати модель рівня GPT-5 або навіть GPT-4? Це щоб якась сутність побудувала великий кластер, який ком’юніті спільно оплачує. Виходить модель, контрольована цією спільнотою і вона ж ділить дохід від її використання.

Але в довгостроковій перспективі, я думаю, що такий підхід також є небезпечним. Якщо згадана сутність зникає, кластер теж зникає. Щоб продовжити навчати модель, нам потрібен час для побудови нового кластера. І останній має бути дедалі більшим і більшим.

Тобто сьогодні 30 000 процесорів уже важко об’єднати. Але якщо ми хочемо рухатися далі, нам потрібно більше ресурсів. Необхідно, щоб люди знайшли спосіб тренувати модель у системах із великою затримкою.

Ну а потім достатньо просто впустити ресурсу від людей. У кого дешева електрика, у кого простоюють GPU. Якщо ми знайдемо спосіб тренувати моделі подібним чином, це повністю вирішить проблему.

І вже з’являються цікаві статті від DeepMind та інших лабораторій, які описують, як тренувати моделі з високою затримкою.

Що означає висока затримка в контексті навчання ШІ?

Сьогодні нам потрібен швидкий обмін даними між процесорами. Наприклад, усі кластери OpenAI використовують InfiniBand, а Amazon використовують EFA [elastic fabric adapter].

Тобто йдеться про швидкий обмін інформацією між GPU?

Так. Тому що як взагалі тренуються моделі сьогодні? Ви берете модель і шардуєте її між пристроями. Є три напрямки шардування — паралелізація [model parallelism], пайплайнінг і реплікація.

Паралелізація і пайплайнінг зводяться до того, що модель тренується спільно кількома GPU. Тобто одну модель розподіляють на кілька пристроїв. І зазвичай всередині машини — а там, припустимо, 8 GPU — ви використовуєте паралелізацію, а між машинами — використовуєте пайплайнінг. Але в кінцевому підсумку обидва ці методи дозволяють модель «розрізати» — як шардинг у базах даних.

Але зазвичай чим більше ви ріжете, тим гірше це працює. Зазвичай для моделі роблять до восьми шардів всередині GPU і, припустимо, максимум може бути 40 таких машин. Виходить 320 GPU. А вам потрібно 30 000.

Ось цей фактор, що залишився, множник, що залишився, — це буде реплікація. Коли ви одну й ту саму модель багато, багато разів реплікуєте. Створюєте умовно 100 копій цієї моделі.

Але реплікація негативно впливає на навчання. Тому ви не використовуєте великі коефіцієнти.

У рамках паралелізації вам потрібне дуже швидке з’єднання. Тому його роблять тільки між GPU в одній машині. Пайплайнінг — бажано мати дуже швидке з’єднання.

Реплікація менш вимоглива, оскільки кожна копія незалежна. Але потім ви хочете всі градієнти поєднати — це все ще має працювати порівняно швидко. Тому що прямий або зворотний переходи займають секунди, а ось градієнти — вся модель — це гігабайти даних.

Навіть якщо у вас 200 млрд параметрів — це вам потрібно гігабайт передати. Якщо затримка висока, і у вас навіть гігабітне з’єднання — це вісім секунд виходить.

Тобто ми робимо прямий або зворотний переходи за дві секунди, а потім витрачаємо вісім, щоб градієнти з’єднати. Це не працює.

І всі ідеї крутяться навколо одного й того ж — давайте використовувати старіший градієнт. Тобто ми реально витрачатимемо вісім секунд на з’єднання, але в цей час продовжимо робити переходи.

Чи буде такий підхід працювати? Поступово — так. Є надія на те, що вже через рік це все буде повністю вирішеною проблемою. А може бути й ні.

Але у світі, де цю проблему розв’язано, ми маємо бути готові зібрати ресурси разом, побудувати систему, де люди можуть спільно надавати GPU, почати тренування великої моделі. Нам потрібно розуміти, як відбуватиметься реєстрація, як ця модель може бути монетизована.

В основу такого децентралізованого ШІ ляже не якийсь окремий проєкт, а група протоколів? Тобто, умовний Akash надаватиме потужності для навчання, а якийсь інший проєкт — рівень інсентивізації тощо.

Я цілком собі можу уявити ситуацію, коли якийсь проєкт самотужки може побудувати щось велике. Складно так говорити, але ми точно будемо намагатися.

Зрештою, мені здається, для нас як для спільноти важливо, щоб існував шлях до децентралізованого тренування конкурентних моделей, які будуть завжди на передовій.

Ходять чутки, що скоро вийде GPT-5. А наша передова модель [з відкритим вихідним кодом] — 405B абсолютно не здатна змагатися з GPT-4. Виходить, виходить GPT-5 і ми відстаємо вже на два покоління.

Чи можна говорити про те, що централізовані моделі мають певний мережевий ефект? Що більше користувачів, то більше даних, то швидше вони розвиваються і то складніше їх наздогнати.

Так, однозначно.

Якщо загалом говорити про ШІ, як ви ставитеся до побоювань людей щодо самого факту появи сильного або навіть загального штучного інтелекту?

Я загалом дуже песимістичний. Я думаю, що сценаріїв, у яких усе це закінчується добре, менше, ніж протилежних.

Але сценарій, де все закінчується добре, — вони дуже приємні. Звісно, коли ми дивимося навколо, зрозуміло, що глобально пересічна людина — вона скоріше нещаслива. Вона не може досягти свого потенціалу, бо змушена щодня водити Uber, щоб звести кінці з кінцями. Вона не може прагнути до своїх мрій.

Штучний інтелект, потенційно, дасть змогу створити світ, у якому набагато більше людей зможуть досягти своєї мрії, як стверджується. Я не можу з упевненістю казати, так це чи ні, але стверджується, що кількість рутини зменшуватиметься, а кількість ресурсів у світі — ні. Відповідно, у середньої людини буде набагато більше можливостей.

Вам не здається, що в будь-якому разі, за будь-якого сценарію це все веде до світу, де людина вже нічого не вирішує, де все вирішує ШІ?

Високий шанс.

Є особисто моя надія — я не дуже вірю, що так станеться, але шанс не нульовий, що в найближчій перспективі, у найближчі кілька десятиліть ШІ знову досягне якоїсь стелі, яку ми не зможемо пробити.

Думаю, що в кінцевому підсумку, в дуже довгостроковій перспективі, якщо людство не вимре з якоїсь причини і продовжить розвивати ШІ, рано чи пізно штучний інтелект стане недосяжним для нас. Ми станемо нерелевантними.

Але я сподіваюся, що є шанси на досягнення якоїсь стелі, за якої ШІ прибере більшу частину рутини, значно поліпшить наше життя. Але при цьому або ще не усвідомить себе, або, навіть якщо усвідомить, не зробить нас повністю марними.

Це було б просто чудовим розвитком подій. Але для цього нам потрібно потрапити в таку вузьку зону, що все виглядає малоймовірним. Швидше може початися сингулярність.

Я можу сказати, що з погляду пересічного користувача, який застосовує ChatGPT для розв’язання якихось пересічних завдань, те, що відбувається зараз, має навіть трохи страшний вигляд. Те, наскільки добре ШІ справляється з окремими завданнями, викликає одночасно і захоплення, і жах.

Так. Але на захист того, що нам, можливо, ще не кінець, хочу навести такий приклад. У 2017 році, коли ми почали працювати над NEAR, ми були приблизно в такому самому моменті — у період з 2015 до 2017 року неймовірні прориви відбувалися постійно, щомісяця. І здавалося, що це вже неможливо зупинити.

Але з 2017 року — аж до виходу ChatGPT — спостерігалося дуже сильне уповільнення. Навіть якщо говорити про GPT-3, модель вийшла 2019 року, але вона була дуже незручною, поріг входу був дуже високим. Більшість людей навіть не знала, що вона існує. А потім з’явився зручний інтерфейс і люди усвідомили, що у них з 2019 року був доступ до технології.

Існуючі моделі забрали терабайти даних, які ми як людство створили за весь час свого існування. Усі ці прориви, які відбувалися за останні кілька років, відбувалися завдяки тому, що ми дедалі краще «вичавлювали» корисну інформацію з цих даних. І вони можуть нас до певного моменту довести, безумовно. А далі нам будуть потрібні нові датасети. А згенерувати новий терабайт даних не так легко.

Тобто є високий шанс, що ми дійдемо до стелі того, що модель може отримати з наявного інтернету. І далі вже постає питання — хто може будувати моделі, які більш ефективно витягують дані? Хто може генерувати дані для навчання? Можливо, ми здатні генерувати чисті дані — а їх потрібно значно менше — у необхідних обсягах?

Є шанс, що ми упремося в стелю даних. А є ймовірність, що насправді інтернет уже містить у собі все необхідне — просто зараз ми не вміємо цю інформацію достатньо ефективно витягувати. І поступово ми просто прийдемо до того, що якась модель обробить усю цю інформацію і пізнає себе.

Як вам стаття?

3
0

статті на цю ж тему

Чому обвалився біткоїн і що може...
avatar Artem Galunov
12.07.2024
Шлях від Qualcomm до Solana Foundation — велике...
avatar Ivan Pavlovskyy
04.07.2024
Майбутнє масштабованості: Анураг...
avatar Artem Galunov
28.06.2024
Увійти
або