Генератор видео, быстрая Gemini и Project Astra: все ИИ-анонсы Google на I/O 2024
- Компания Google провела конференцию для разработчиков I/O 2024, на которой продемонстрировала множество ИИ-новинок.
- Среди прочего, корпорация представила генератор видео Veo, новую версию алгоритма Imagen и умного помощника Project Astra.
- Также Google рассказала об интеграции модели Gemini в свои продукты.
14 мая корпорация Google провела конференцию для разработчиков I/O 2024.
За примерно 110 минут, которые длилось мероприятие, техгигант упомянул искусственный интеллект 121 раз. Генеральный директор компании Сундар Пичаи сослался на эту цифру в завершении презентации, заявив, что корпорация выполнила «тяжелую работу» по подсчетам.
Incrypted сделал обзор самых важных ИИ-новинок из основного доклада Google I/O 2024.
Поиск по видео через Google Lens
Ранее система позволяла находить информацию по тексту и изображениям. Теперь инструмент предлагает возможность поиска по видео.
Согласно компании, это сэкономит время и избавит от подбора правильных слов для описания какой-либо проблемы. После анализа ролика ИИ предоставит обзор с инструкциями и ресурсами для решения задач.
Поиск по видео «скоро» станет доступен для тестировщиков Search Labs на английском языке в США. Позже компания расширит технологию на другие регионы.
Функция «Спросите фотографии»
Летом компания запустит ИИ-функцию «Спросите фотографии» в Google Photos. Система использует модель Gemini для изучения библиотеки изображений и предоставления ответов на вопросы пользователя.
Во время конференции Пичаи спросил алгоритм о номерном знаке своего автомобиля. ИИ изучил данные о местоположении, количестве появлений на фото за последние годы и другую информацию. В результате он выдал фактическое число и прикрепил фото, подтверждающее эти сведения.
По словам Пичаи, функция «Спросите фотографии» также способна помочь «глубже изучить свои воспоминания».
О семействе генеративных ИИ-моделей Gemini
Gemini в Gmail
Пользователи Gmail смогут искать, обобщать и составлять электронные письма с помощью алгоритма Gemini. Технология также позволит выполнять более сложные задачи.
Например, ИИ поможет обработать запрос на возврат электронной коммерции ― провести поиск в почтовом ящике, найти квитанцию и заполнить онлайн-форму.
Во время презентации компания показала, как родитель захотел узнать происходящее в школе ребенка. Он попросил Gemini суммировать все последние электронные письма из учебного учреждения.
Помимо текста, эта функция также способна анализировать вложения, например PDF-файлы. Итоговое резюме содержит ключевые моменты или действия.
Обновление Gemini 1.5 Pro
Компания обновила семейство генеративных моделей искусственного интеллекта Gemini. Теперь алгоритм может анализировать более длинные документы, базы программного кода, видео и аудиозаписи.
На конференции компания объявила о закрытом предварительном просмотре новой версии Gemini 1.5 Pro ― текущей флагманской модели компании, которая может принимать до 2 млн токенов. Это соответствует примерно 1,4 млн слов, двум часам видео или 22 часам аудио.
Новая версия алгоритма поддерживает самый большой объем ввода среди всех коммерческих моделей. Следующей в топе является нейросеть Claude 3 от Anthropic, которая может обрабатывать 1 млн токенов.
Более быстрая модель Gemini 1.5 Flash
Компания представила новую мультимодальную модель Gemini 1.5 Flash, оптимизированную для «узких, высокочастотных задач с малой задержкой». По данным Google, она такая же мощная, как Gemini 1.5 Pro или другие алгоритмы Gemini, но намного быстрее.
Gemini 1.5 Flash может анализировать аудио, видео, изображения и текст, однако выдавать только последнее.
В корпорации заявили, что новый алгоритм подходит для задач вроде подведения итогов, чат-приложений, создания субтитров к роликам и картинкам, а также извлечения данных из длинных документов и таблиц.
Частный предварительный просмотр станет доступен только через список ожидания с экспериментальным контекстным окном в 2 миллиона токенов.
Gemini Live
Новая функция Gemini Live призвана сделать голосовые диалоги с ИИ более «углубленными» и естественными.
Система будет адаптироваться к речевым моделям пользователей и предлагать более короткие разговорные ответы. Во время беседы пользователи смогут прерывать ИИ на полуслове или попросить его посмотреть через камеру смартфона и предоставлять информацию о происходящем в режиме реального времени.
Gemini также получила новые интеграции, позволяющие модели обновлять или извлекать информацию из Google Calendar, Tasks и Keep. Для этого алгоритм использует мультимодальные функции, например, добавит подробностей из рекламного флаера в личный календарь.
Gemini Nano
Компания интегрировала ИИ-алгоритм Gemini Nano ― самую маленькую из своих моделей искусственного интеллекта ― в настольный клиент Chrome.
Встроенный помощник позволит делать обзоры продуктов, создавать публикации для соцсетей и другие рекламные объявления непосредственно в браузере.
Компания также заявила, что добавит Gemini в Chrome DevTools, который разработчики используют для отладки и настройки приложений. ИИ сможет объяснить сообщения об ошибках, а также предоставит предложения по устранению проблем с написанием программного кода.
Gemini Nano добавят в браузер, начиная с версии Chrome 126.
Gemini на Android
Компания заявила, что вскоре Gemini сможет лучше понимать происходящее на экране устройства.
При установке технологии в качестве помощника по умолчанию на смартфоне, ИИ позволит подвести итоги или ответит на вопросы о веб-странице или снимке экрана.
Позже Gemini сможет определять наличие видео на экране и предлагать задавать вопросы о нем. Модель сгенерирует автоматические субтитры к ролику для поиска ответов.
Для платных пользователей Gemini Advanced ИИ предложит обработку PDF-файлов.
Также Google анонсировал функцию на базе искусственного интеллекта, позволяющую определять мошенников во время звонков.
Технология использует модель Gemini Nano для обнаружения скам-лексики и других шаблонов разговора, обычно связанных с махинациями.
Эти и другие мультимодальные обновления для Gemini появятся на Android в ближайшие месяцы.
Обновленный ИИ в Google Search
Корпорация запустила «Обзоры ИИ» для пользователей из США. Позже они появятся и в других странах.
«Специализированная» модель Gemini будет создавать и заполнять страницы результатов обобщенными ответами из интернета.
Также компания планирует задействовать Gemini в качестве агента для задач вроде планирования поездок.
Новая версия генератора изображений Imagen 3
Google представила новую версию генератора изображений по тексту Imagen 3.
Глава ИИ-лаборатории DeepMind Демис Хассабис заявил, что алгоритм лучше понимает текстовые подсказки, по сравнению с предыдущей версией, и более «творчески и детально» подходит к созданию картинок. Также модель генерирует меньше «отвлекающих артефактов» и ошибок, добавил он.
«Это наша лучшая модель для рендеринга текста, что было сложной задачей для генераторов изображения», — добавил Хассабис.
Во избежание создания дипфейков компания использует технологию SynthID. Это разработанный DeepMind подход по нанесению невидимых криптографических водяных знаков на медиафайлы.
Доступ к Imagen 3 можно получить в режиме частного предварительного просмотра в инструменте Google ImageFX.
Согласно компании, модель также «скоро появится» для разработчиков и корпоративных клиентов, использующих платформу Vertex AI.
Генератор видео Veo
Google также представила свой ответ на ИИ-модель Sora от OpenAI.
Компания анонсировала генеративный инструмент Veo. Он способен создавать «высококачественные» ролики с разрешением 1080p продолжительностью более минуты в разных визуальных и кинематографических стилях.
Согласно пресс-релизу, система обладает «продвинутым пониманием естественного языка» для осознания значений терминов вроде «таймлапс» или «аэрофотосъемка пейзажа».
Пользователи могут «направлять» желаемый результат с помощью текстовых подсказок, изображений или видео. В компании отметили, что ролики получаются «более последовательные и связные», изображающие реалистичные движения людей, животных и объектов на протяжении всего кадра.
Согласно Google, компания пригласила избранных кинематографистов и авторов для тестирования Veo. Также некоторые функции генератора станут доступны «избранным авторам в ближайшие недели» в закрытом предварительном просмотре в VideoFX.
Создатель чат-ботов Gems
Функция Gems позволяет создавать кастомные версии чат-ботов на базе Gemini с разными характерами.
Пользователю необходимо предоставить инструкции ИИ по настройке вроде специализации и реакций на определенные действия.
В Google заявили, что с помощью Gems можно создать «компаньона» по спортзалу, ассистента шеф-повара, партнера по программированию или тренера по творческому письму.
Project Astra
Это мультимодальный ИИ-помощник, работающий в режиме реального времени.
Компания надеется, что он станет универсальным виртуальным ассистентом, способным через камеру устройства видеть мир, понимать происходящее, запоминать расположение вещей и отвечать на вопросы.
Напомним, 13 мая лаборатория OpenAI также провела конференцию, где представила улучшенную версию GPT-4 ― «омнимодель» GPT-4o.