Генератор видео, быстрая Gemini и Project Astra: все ИИ-анонсы Google на I/O 2024

15.05.2024

18 мин

790

Генератор видео, быстрая Gemini и Project Astra: все ИИ-анонсы Google на I/O 2024. Заглавный коллаж новости.

Компания Google провела конференцию для разработчиков I/O 2024, на которой продемонстрировала множество ИИ-новинок.
Среди прочего, корпорация представила генератор видео Veo, новую версию алгоритма Imagen и умного помощника Project Astra.
Также Google рассказала об интеграции модели Gemini в свои продукты.

14 мая корпорация Google провела конференцию для разработчиков I/O 2024.

За примерно 110 минут, которые длилось мероприятие, техгигант упомянул искусственный интеллект 121 раз. Генеральный директор компании Сундар Пичаи сослался на эту цифру в завершении презентации, заявив, что корпорация выполнила «тяжелую работу» по подсчетам.

Incrypted сделал обзор самых важных ИИ-новинок из основного доклада Google I/O 2024.

Поиск по видео через Google Lens

Ранее система позволяла находить информацию по тексту и изображениям. Теперь инструмент предлагает возможность поиска по видео.

Согласно компании, это сэкономит время и избавит от подбора правильных слов для описания какой-либо проблемы. После анализа ролика ИИ предоставит обзор с инструкциями и ресурсами для решения задач.

And you’ll also be able to ask questions with video, right in Search. Coming soon. #GoogleIO pic.twitter.com/zFVu8yOWI1
— Google (@Google) May 14, 2024

Поиск по видео «скоро» станет доступен для тестировщиков Search Labs на английском языке в США. Позже компания расширит технологию на другие регионы.

Функция «Спросите фотографии»

Летом компания запустит ИИ-функцию «Спросите фотографии» в Google Photos. Система использует модель Gemini для изучения библиотеки изображений и предоставления ответов на вопросы пользователя.

Ask Photos, a new feature coming to @GooglePhotos, makes it easier to search across your photos and videos with the help of Gemini models. It goes beyond simple search to understand context and answer more complex questions. #GoogleIO pic.twitter.com/OsYXZLo5S1
— Google (@Google) May 14, 2024

Во время конференции Пичаи спросил алгоритм о номерном знаке своего автомобиля. ИИ изучил данные о местоположении, количестве появлений на фото за последние годы и другую информацию. В результате он выдал фактическое число и прикрепил фото, подтверждающее эти сведения.

Демонстрация функции «Спросите фотографии» на конференции I/O 2024. Данные: Google.

По словам Пичаи, функция «Спросите фотографии» также способна помочь «глубже изучить свои воспоминания».

О семействе генеративных ИИ-моделей Gemini

Gemini в Gmail

Пользователи Gmail смогут искать, обобщать и составлять электронные письма с помощью алгоритма Gemini. Технология также позволит выполнять более сложные задачи.

Например, ИИ поможет обработать запрос на возврат электронной коммерции ― провести поиск в почтовом ящике, найти квитанцию и заполнить онлайн-форму.

Во время презентации компания показала, как родитель захотел узнать происходящее в школе ребенка. Он попросил Gemini суммировать все последние электронные письма из учебного учреждения.

Помимо текста, эта функция также способна анализировать вложения, например PDF-файлы. Итоговое резюме содержит ключевые моменты или действия.

Обновление Gemini 1.5 Pro

Компания обновила семейство генеративных моделей искусственного интеллекта Gemini. Теперь алгоритм может анализировать более длинные документы, базы программного кода, видео и аудиозаписи.

На конференции компания объявила о закрытом предварительном просмотре новой версии Gemini 1.5 Pro ― текущей флагманской модели компании, которая может принимать до 2 млн токенов. Это соответствует примерно 1,4 млн слов, двум часам видео или 22 часам аудио.

Новая версия алгоритма поддерживает самый большой объем ввода среди всех коммерческих моделей. Следующей в топе является нейросеть Claude 3 от Anthropic, которая может обрабатывать 1 млн токенов.

Демонстрация обновленной версии алгоритма Gemini 1.5 Pro на конференции I/O 2024. Данные: Google.

Более быстрая модель Gemini 1.5 Flash

Компания представила новую мультимодальную модель Gemini 1.5 Flash, оптимизированную для «узких, высокочастотных задач с малой задержкой». По данным Google, она такая же мощная, как Gemini 1.5 Pro или другие алгоритмы Gemini, но намного быстрее.

Introducing Gemini 1.5 Flash ⚡

It’s a lighter-weight model, optimized for tasks where low latency and cost matter most. Starting today, developers can use it with up to 1 million tokens in Google AI Studio and Vertex AI. #GoogleIO pic.twitter.com/I1adecF9UT
— Google (@Google) May 14, 2024

Gemini 1.5 Flash может анализировать аудио, видео, изображения и текст, однако выдавать только последнее.

В корпорации заявили, что новый алгоритм подходит для задач вроде подведения итогов, чат-приложений, создания субтитров к роликам и картинкам, а также извлечения данных из длинных документов и таблиц.

Частный предварительный просмотр станет доступен только через список ожидания с экспериментальным контекстным окном в 2 миллиона токенов.

Gemini Live

Новая функция Gemini Live призвана сделать голосовые диалоги с ИИ более «углубленными» и естественными.

Система будет адаптироваться к речевым моделям пользователей и предлагать более короткие разговорные ответы. Во время беседы пользователи смогут прерывать ИИ на полуслове или попросить его посмотреть через камеру смартфона и предоставлять информацию о происходящем в режиме реального времени.

Gemini также получила новые интеграции, позволяющие модели обновлять или извлекать информацию из Google Calendar, Tasks и Keep. Для этого алгоритм использует мультимодальные функции, например, добавит подробностей из рекламного флаера в личный календарь.

Демонстрация функции Gemini Live на конференции I/O 2024. Данные: Google.

Gemini Nano

Компания интегрировала ИИ-алгоритм Gemini Nano ― самую маленькую из своих моделей искусственного интеллекта ― в настольный клиент Chrome.

Встроенный помощник позволит делать обзоры продуктов, создавать публикации для соцсетей и другие рекламные объявления непосредственно в браузере.

Компания также заявила, что добавит Gemini в Chrome DevTools, который разработчики используют для отладки и настройки приложений. ИИ сможет объяснить сообщения об ошибках, а также предоставит предложения по устранению проблем с написанием программного кода.

Gemini Nano добавят в браузер, начиная с версии Chrome 126.

Gemini на Android

Компания заявила, что вскоре Gemini сможет лучше понимать происходящее на экране устройства.

При установке технологии в качестве помощника по умолчанию на смартфоне, ИИ позволит подвести итоги или ответит на вопросы о веб-странице или снимке экрана.

Позже Gemini сможет определять наличие видео на экране и предлагать задавать вопросы о нем. Модель сгенерирует автоматические субтитры к ролику для поиска ответов.

Gemini дает ответы на вопросы по видео (слева) и предоставляет информацию о пиклболе (справа). Данные: Google.

Для платных пользователей Gemini Advanced ИИ предложит обработку PDF-файлов.

Также Google анонсировал функцию на базе искусственного интеллекта, позволяющую определять мошенников во время звонков.

Технология использует модель Gemini Nano для обнаружения скам-лексики и других шаблонов разговора, обычно связанных с махинациями.

Пример уведомления, которое получит пользователь при обнаружении подозрительного звонка. Данные: Google.

Эти и другие мультимодальные обновления для Gemini появятся на Android в ближайшие месяцы.

Обновленный ИИ в Google Search

Корпорация запустила «Обзоры ИИ» для пользователей из США. Позже они появятся и в других странах.

«Специализированная» модель Gemini будет создавать и заполнять страницы результатов обобщенными ответами из интернета.

Также компания планирует задействовать Gemini в качестве агента для задач вроде планирования поездок.

Новая версия генератора изображений Imagen 3

Google представила новую версию генератора изображений по тексту Imagen 3.

Демонстрация генератора Imagen 3. Данные: Google.

Глава ИИ-лаборатории DeepMind Демис Хассабис заявил, что алгоритм лучше понимает текстовые подсказки, по сравнению с предыдущей версией, и более «творчески и детально» подходит к созданию картинок. Также модель генерирует меньше «отвлекающих артефактов» и ошибок, добавил он.

«Это наша лучшая модель для рендеринга текста, что было сложной задачей для генераторов изображения», — добавил Хассабис.

Во избежание создания дипфейков компания использует технологию SynthID. Это разработанный DeepMind подход по нанесению невидимых криптографических водяных знаков на медиафайлы.

Демонстрация технологии SynthID. Данные: Google.

Доступ к Imagen 3 можно получить в режиме частного предварительного просмотра в инструменте Google ImageFX.

Согласно компании, модель также «скоро появится» для разработчиков и корпоративных клиентов, использующих платформу Vertex AI.

Генератор видео Veo

Google также представила свой ответ на ИИ-модель Sora от OpenAI.

Компания анонсировала генеративный инструмент Veo. Он способен создавать «высококачественные» ролики с разрешением 1080p продолжительностью более минуты в разных визуальных и кинематографических стилях.

Согласно пресс-релизу, система обладает «продвинутым пониманием естественного языка» для осознания значений терминов вроде «таймлапс» или «аэрофотосъемка пейзажа».

Пользователи могут «направлять» желаемый результат с помощью текстовых подсказок, изображений или видео. В компании отметили, что ролики получаются «более последовательные и связные», изображающие реалистичные движения людей, животных и объектов на протяжении всего кадра.

Видео, сгенерированное с помощью Veo. Данные: Google.

Согласно Google, компания пригласила избранных кинематографистов и авторов для тестирования Veo. Также некоторые функции генератора станут доступны «избранным авторам в ближайшие недели» в закрытом предварительном просмотре в VideoFX.

Создатель чат-ботов Gems

Функция Gems позволяет создавать кастомные версии чат-ботов на базе Gemini с разными характерами.

Whether you need a yoga bestie or calculus tutor, in the coming months you’ll be able to customize Gemini, saving time when you have specific ways you interact with Gemini again and again. We’re calling these Gems. #GoogleIO pic.twitter.com/YQOHsUbMWE
— Google (@Google) May 14, 2024

Пользователю необходимо предоставить инструкции ИИ по настройке вроде специализации и реакций на определенные действия.

В Google заявили, что с помощью Gems можно создать «компаньона» по спортзалу, ассистента шеф-повара, партнера по программированию или тренера по творческому письму.

Project Astra

Это мультимодальный ИИ-помощник, работающий в режиме реального времени.

Компания надеется, что он станет универсальным виртуальным ассистентом, способным через камеру устройства видеть мир, понимать происходящее, запоминать расположение вещей и отвечать на вопросы.

Напомним, 13 мая лаборатория OpenAI также провела конференцию, где представила улучшенную версию GPT-4 ― «омнимодель» GPT-4o.

“Дропхантинг – это не сложно” с новым курсом от Incrypted

Генератор видео, быстрая Gemini и Project Astra: все ИИ-анонсы Google на I/O 2024

Поиск по видео через Google Lens

Функция «Спросите фотографии»

О семействе генеративных ИИ-моделей Gemini

Gemini в Gmail

Обновление Gemini 1.5 Pro

Более быстрая модель Gemini 1.5 Flash

Gemini Live

Gemini Nano

Gemini на Android

Обновленный ИИ в Google Search

Новая версия генератора изображений Imagen 3

Генератор видео Veo

Создатель чат-ботов Gems

Project Astra

Как вам статья?

Укажите причину:

статьи на эту же тему

Maryna Hlaiboroda

Биография

Часто пишет на темы:

Кармометр автора

Статьи автора