Генератор видео, быстрая Gemini и Project Astra: все ИИ-анонсы Google на I/O 2024

15.05.2024
18 мин
790
3
Генератор видео, быстрая Gemini и Project Astra: все ИИ-анонсы Google на I/O 2024. Заглавный коллаж новости.
  • Компания Google провела конференцию для разработчиков I/O 2024, на которой продемонстрировала множество ИИ-новинок.
  • Среди прочего, корпорация представила генератор видео Veo, новую версию алгоритма Imagen и умного помощника Project Astra.
  • Также Google рассказала об интеграции модели Gemini в свои продукты.

14 мая корпорация Google провела конференцию для разработчиков I/O 2024.

За примерно 110 минут, которые длилось мероприятие, техгигант упомянул искусственный интеллект 121 раз. Генеральный директор компании Сундар Пичаи сослался на эту цифру в завершении презентации, заявив, что корпорация выполнила «тяжелую работу» по подсчетам.

Incrypted сделал обзор самых важных ИИ-новинок из основного доклада Google I/O 2024.

Поиск по видео через Google Lens

Ранее система позволяла находить информацию по тексту и изображениям. Теперь инструмент предлагает возможность поиска по видео.

Согласно компании, это сэкономит время и избавит от подбора правильных слов для описания какой-либо проблемы. После анализа ролика ИИ предоставит обзор с инструкциями и ресурсами для решения задач.

Поиск по видео «скоро» станет доступен для тестировщиков Search Labs на английском языке в США. Позже компания расширит технологию на другие регионы.

Функция «Спросите фотографии»

Летом компания запустит ИИ-функцию «Спросите фотографии» в Google Photos. Система использует модель Gemini для изучения библиотеки изображений и предоставления ответов на вопросы пользователя.

Во время конференции Пичаи спросил алгоритм о номерном знаке своего автомобиля. ИИ изучил данные о местоположении, количестве появлений на фото за последние годы и другую информацию. В результате он выдал фактическое число и прикрепил фото, подтверждающее эти сведения.

Демонстрация функции «Спросите фотографии» на конференции I/O 2024. Данные: Google.
Демонстрация функции «Спросите фотографии» на конференции I/O 2024. Данные: Google.

По словам Пичаи, функция «Спросите фотографии» также способна помочь «глубже изучить свои воспоминания».

О семействе генеративных ИИ-моделей Gemini

Gemini в Gmail

Пользователи Gmail смогут искать, обобщать и составлять электронные письма с помощью алгоритма Gemini. Технология также позволит выполнять более сложные задачи.

Например, ИИ поможет обработать запрос на возврат электронной коммерции ― провести поиск в почтовом ящике, найти квитанцию ​​и заполнить онлайн-форму.

Во время презентации компания показала, как родитель захотел узнать происходящее в школе ребенка. Он попросил Gemini суммировать все последние электронные письма из учебного учреждения.

Помимо текста, эта функция также способна анализировать вложения, например PDF-файлы. Итоговое резюме содержит ключевые моменты или действия.

Обновление Gemini 1.5 Pro

Компания обновила семейство генеративных моделей искусственного интеллекта Gemini. Теперь алгоритм может анализировать более длинные документы, базы программного кода, видео и аудиозаписи.

На конференции компания объявила о закрытом предварительном просмотре новой версии Gemini 1.5 Pro ― текущей флагманской модели компании, которая может принимать до 2 млн токенов. Это соответствует примерно 1,4 млн слов, двум часам видео или 22 часам аудио.

Новая версия алгоритма поддерживает самый большой объем ввода среди всех коммерческих моделей. Следующей в топе является нейросеть Claude 3 от Anthropic, которая может обрабатывать 1 млн токенов.

Демонстрация обновленной версии алгоритма Gemini 1.5 Pro на конференции I/O 2024. Данные: Google.
Демонстрация обновленной версии алгоритма Gemini 1.5 Pro на конференции I/O 2024. Данные: Google.

Более быстрая модель Gemini 1.5 Flash

Компания представила новую мультимодальную модель Gemini 1.5 Flash, оптимизированную для «узких, высокочастотных задач с малой задержкой». По данным Google, она такая же мощная, как Gemini 1.5 Pro или другие алгоритмы Gemini, но намного быстрее.

Gemini 1.5 Flash может анализировать аудио, видео, изображения и текст, однако выдавать только последнее.

В корпорации заявили, что новый алгоритм подходит для задач вроде подведения итогов, чат-приложений, создания субтитров к роликам и картинкам, а также извлечения данных из длинных документов и таблиц.

Частный предварительный просмотр станет доступен только через список ожидания с экспериментальным контекстным окном в 2 миллиона токенов.

Gemini Live

Новая функция Gemini Live призвана сделать голосовые диалоги с ИИ более «углубленными» и естественными.

Система будет адаптироваться к речевым моделям пользователей и предлагать более короткие разговорные ответы. Во время беседы пользователи смогут прерывать ИИ на полуслове или попросить его посмотреть через камеру смартфона и предоставлять информацию о происходящем в режиме реального времени.

Gemini также получила новые интеграции, позволяющие модели обновлять или извлекать информацию из Google Calendar, Tasks и Keep. Для этого алгоритм использует мультимодальные функции, например, добавит подробностей из рекламного флаера в личный календарь.

Демонстрация функции Gemini Live на конференции I/O 2024. Данные: Google.
Демонстрация функции Gemini Live на конференции I/O 2024. Данные: Google.

Gemini Nano

Компания интегрировала ИИ-алгоритм Gemini Nano ― самую маленькую из своих моделей искусственного интеллекта ― в настольный клиент Chrome.

Встроенный помощник позволит делать обзоры продуктов, создавать публикации для соцсетей и другие рекламные объявления непосредственно в браузере.

Компания также заявила, что добавит Gemini в Chrome DevTools, который разработчики используют для отладки и настройки приложений. ИИ сможет объяснить сообщения об ошибках, а также предоставит предложения по устранению проблем с написанием программного кода.

Gemini Nano добавят в браузер, начиная с версии Chrome 126.

Gemini на Android

Компания заявила, что вскоре Gemini сможет лучше понимать происходящее на экране устройства.

При установке технологии в качестве помощника по умолчанию на смартфоне, ИИ позволит подвести итоги или ответит на вопросы о веб-странице или снимке экрана. 

Позже Gemini сможет определять наличие видео на экране и предлагать задавать вопросы о нем. Модель сгенерирует автоматические субтитры к ролику для поиска ответов.

Gemini дает ответы на вопросы по видео (слева) и предоставляет информацию о пиклболе (справа). Данные: Google.
Gemini дает ответы на вопросы по видео (слева) и предоставляет информацию о пиклболе (справа). Данные: Google.

Для платных пользователей Gemini Advanced ИИ предложит обработку PDF-файлов.

Также Google анонсировал функцию на базе искусственного интеллекта, позволяющую определять мошенников во время звонков.

Технология использует модель Gemini Nano для обнаружения скам-лексики и других шаблонов разговора, обычно связанных с махинациями.

Пример уведомления, которое получит пользователь при обнаружении подозрительного звонка. Данные: Google.
Пример уведомления, которое получит пользователь при обнаружении подозрительного звонка. Данные: Google.

Эти и другие мультимодальные обновления для Gemini появятся на Android в ближайшие месяцы.

Обновленный ИИ в Google Search

Корпорация запустила «Обзоры ИИ» для пользователей из США. Позже они появятся и в других странах.

«Специализированная» модель Gemini будет создавать и заполнять страницы результатов обобщенными ответами из интернета.

Также компания планирует задействовать Gemini в качестве агента для задач вроде планирования поездок.

Новая версия генератора изображений Imagen 3

Google представила новую версию генератора изображений по тексту Imagen 3.

Демонстрация генератора Imagen 3. Данные: Google.
Демонстрация генератора Imagen 3. Данные: Google.

Глава ИИ-лаборатории DeepMind Демис Хассабис заявил, что алгоритм лучше понимает текстовые подсказки, по сравнению с предыдущей версией, и более «творчески и детально» подходит к созданию картинок. Также модель генерирует меньше «отвлекающих артефактов» и ошибок, добавил он.

«Это наша лучшая модель для рендеринга текста, что было сложной задачей для генераторов изображения», — добавил Хассабис.

Во избежание создания дипфейков компания использует технологию SynthID. Это разработанный DeepMind подход по нанесению невидимых криптографических водяных знаков на медиафайлы.

Демонстрация технологии SynthID. Данные: Google.
Демонстрация технологии SynthID. Данные: Google.

Доступ к Imagen 3 можно получить в режиме частного предварительного просмотра в инструменте Google ImageFX.

Согласно компании, модель также «скоро появится» для разработчиков и корпоративных клиентов, использующих платформу Vertex AI.

Генератор видео Veo

Google также представила свой ответ на ИИ-модель Sora от OpenAI.

Компания анонсировала генеративный инструмент Veo. Он способен создавать «высококачественные» ролики с разрешением 1080p продолжительностью более минуты в разных визуальных и кинематографических стилях.

Согласно пресс-релизу, система обладает «продвинутым пониманием естественного языка» для осознания значений терминов вроде «таймлапс» или «аэрофотосъемка пейзажа».

Пользователи могут «направлять» желаемый результат с помощью текстовых подсказок, изображений или видео. В компании отметили, что ролики получаются «более последовательные и связные», изображающие реалистичные движения людей, животных и объектов на протяжении всего кадра.

Видео, сгенерированное с помощью Veo. Данные: Google.
Видео, сгенерированное с помощью Veo. Данные: Google.

Согласно Google, компания пригласила избранных кинематографистов и авторов для тестирования Veo. Также некоторые функции генератора станут доступны «избранным авторам в ближайшие недели» в закрытом предварительном просмотре в VideoFX.

Создатель чат-ботов Gems

Функция Gems позволяет создавать кастомные версии чат-ботов на базе Gemini с разными характерами.

Пользователю необходимо предоставить инструкции ИИ по настройке вроде специализации и реакций на определенные действия.

В Google заявили, что с помощью Gems можно создать «компаньона» по спортзалу, ассистента шеф-повара, партнера по программированию или тренера по творческому письму.

Project Astra

Это мультимодальный ИИ-помощник, работающий в режиме реального времени. 

Компания надеется, что он станет универсальным виртуальным ассистентом, способным через камеру устройства видеть мир, понимать происходящее, запоминать расположение вещей и отвечать на вопросы.

Напомним, 13 мая лаборатория OpenAI также провела конференцию, где представила улучшенную версию GPT-4 ― «омнимодель» GPT-4o.

Как вам статья?

3
0

статьи на эту же тему

СМИ: Марокко выделит $1,1 млрд на...
avatar Serhii Pantyukh
27.09.2024
Сразу несколько топ-менеджеров OpenAI...
avatar Serhii Pantyukh
26.09.2024
Ученые SETI начали использовать ИИ для...
avatar Pavel Kot
23.09.2024
Войти
или