Генерация видео по тексту: что это и какие ИИ-сервисы использовать

16.09.2023
47 мин
14424
18
Генерация видео по тексту: что это и какие ИИ-сервисы использовать. Заглавный коллаж статьи.

2022 и 2023 годы могут войти в историю как время, когда «изобразительный» искусственный интеллект стал мейнстримом. Бум качественных, построенных на разных алгоритмах инструментов сделал нейротворчество доступным для всех, у кого есть смартфон с подключением к интернету.

ИИ-модели позволяют копировать стили художников, превращать эскизы в фотореалистичные иллюстрации, «оживлять» портреты и создавать новые изображения.

В 2022 году общество заинтересовали нейросети, позволяющие создавать уникальные картины по отрывку текста. DALL-E 2, Midjourney и Stable Diffusion до сих пор пользуются спросом и будут популярны еще долгое время.

Однако в 2023 году компании, исследователи и разработчики перешли к следующему рубежу — ИИ-генераторам видеороликов по текстовому описанию.

Как происходит преобразование текста в видео? 

Преобразование текста в видео (T2V) — это технология на базе искусственного интеллекта, позволяющая создавать ролики на основе подсказки. Она понимает значение введенного пользователем текста и генерирует соответствующие визуальные эффекты и анимацию.

Девиз таких систем — «напечатай и получишь». Пользователь может ввести любой запрос на естественном языке и алгоритм создаст ролик. 

Текстовые описания могут состоять из огромного количества слов, добавление или удаление которых способно кардинально изменить результат. Они имеют ключевую роль в создании видео.

T2V-система анализирует подсказку и извлекает информацию о контексте, повествовании и желаемых графических элементах. Она использует предварительно обученные модели и алгоритмы для создания соответствующего контента, включая анимации, графики, персонажей, сцены или видеопоследовательности.

Результат работы такой системы должен соответствовать представленным в тексте описательным деталям и творческому замыслу.

Технология преобразования текста в видео охватывает несколько подобластей искусственного интеллекта, включая обработку естественного языка, компьютерное зрение и машинное обучение.

Сперва T2V-система с помощью методов токенизации и анализа настроений интерпретирует введенный пользователем текст, определяя его контекст и значение. На основе понятой подсказки ИИ планирует видеоконтент, выбирая подходящие визуальные эффекты и анимацию.

Затем алгоритм создает соответствующие визуальные элементы вроде 3D-моделей или анимации. Для этого часто используют генеративно-состязательные нейросети или извлекают объекты из имеющейся библиотеки видеоматериалов.

После этого ‍ИИ собирает из визуальных эффектов последовательность, которая соответствует тексту, добавляя переходы и синхронизируя их со звуком.

Бесплатные сервисы для генерации видео по тексту

Ввиду популярности технологии в интернете доступно множество ИИ-инструментов для преобразования текста в видео. Они позволяют генерировать уникальные ролики и редактировать существующие, а также «оживлять» изображения.

Некоторые инструменты может попробовать любой желающий. Среди них: Pika Labs, Gen-1 и Gen-2, ModelScope и Genmo.

Pika Labs

Сервис бесплатный, доступ предоставляется в Discord.

Пользователю необходимо зайти на сервер в раздел generate, ввести команду /create и написать запрос. После этого алгоритм сгенерирует соответствующее видео.

Для анимирования иллюстрации нужно описать, что на ней изображено. Затем необходимо нажать «+1» в строке ввода, выбрать /image и загрузить картинку.

Анимированная картинка. Данные: Pika Labs.

Gen-1 и Gen-2

Созданные компанией Runway ML алгоритмы генерируют четырехсекундные ролики. Пользователю необходимо придумать подсказку длиной до 320 символов.

Сгенерированное Gen-2 видео по текстовому запросу «Пиратский корабль плывет по бушующему морю». Данные: Runway ML.

Можно анимировать картинку или использовать комбинацию изображения и текста в качестве запроса. Также есть функции редактирования видео.

Анимированная Gen-2 картинка. Данные: Runway ML.

Сервис предоставляет 125 кредитов бесплатно с некоторыми ограничениями.

ModelScope

Сервис бесплатный и доступен на Hugging Face.

Инструмент использует модель глубокого обучения для создания двухсекундных роликов по подсказке. 

Созданное с помощью ModelScope видео по запросу «Летят бабочки». Данные: Hugging Face.

Genmo

Сервис позволяет создавать эстетически привлекательные и развлекательные видео, сочетая обработку естественного языка с машинным обучением.

Пользователю нужно зарегистрироваться, открыть чат с ботом и написать запрос. Система расширит предложенный текст и создаст ролик.

При необходимости пользователь может попросить бота изменить результат, дополнить подсказку или создать новые видео на заданную тему.

Также есть функции генерации изображений, анимации картинок и создания 3D-объектов.

Созданное Genmo видео по запросу «Робот идет по заснеженному Токио». Данные: Genmo.

В бесплатной версии пользователям доступно 100 единиц «топлива», которые обновляются ежедневно. Результаты генерируются с водяным знаком.

Стоит отметить, что T2V-генераторы очень нестабильны. Для достижения качественных и соответствующих замыслу роликов необходимо редактировать подсказки и повторно генерировать видео.

Где можно использовать технологию T2V?

Технология преобразования текста в ролики имеет большое значение для современной цифровой эпохи.

По данным Hubspot, в 2023 году видео стало наиболее популярным форматом контента. 92% маркетологов заявили, что оно дает положительный ROI.

Рентабельность инвестиций — это соотношение между доходом, полученным от показа объявлений и информации о товарах, размещенной бесплатно, и затратами на рекламу.

Опрос о положительном ROI.
Результаты опроса. Данные: Hubspot.

Пока технология T2V находится на ранней стадии развития, но обладает огромным потенциалом.

В будущем ее можно использовать для создания видеоконтента на основе предоставленного сценария. Она позволит генерировать информативные и привлекательные маркетинговые материалы. Например, ИИ поможет компании разработать ролик о том, как работает ее продукт.

Генераторы видео позволят «оживить» длинный текст вроде публикаций из соцсетей, сообщений в блогах, статей или документов. T2V-модели можно применять для создания более интересных и интерактивных обучающих видео. Например, с помощью ИИ объяснить сложную концепцию из научного материала. 

Технология позволит освещать ежедневные новости в виде ИИ-диктора. Также она способна помочь режиссерам создавать короткометражные фильмы и музыкальные клипы.

Благодаря T2V, компании, исследователи и разработчики сэкономят большое количество времени и денег, по сравнению с традиционными методами производства видео. Она существенно ускорит создание и распространение маркетингового контента.

Кроме того, ИИ-алгоритмы нестандартно «мыслят». Они способны создавать неизвестные ранее образы, непривычно компоновать объекты и оригинально смешивать текстуры. Это может стать источником вдохновения для более значительных проектов.

Вариации моделей преобразования текста в видео

Генераторы роликов по подсказке включают разные вариации в зависимости от входных и выходных данных.

T2V-редактирование

Одной из задач T2V является создание текстового стиля видео и изменение локальных атрибутов. Такие алгоритмы могут упростить выполнение задач вроде обрезки, стабилизации, коррекции цвета и изменения размера роликов.

T2V-поиск

ИИ может выполнять поиск видео, релевантных заданному запросу. 

Чтобы определить ролик, который с наибольшей вероятностью относится к подсказке, необходимо применить семантический, визуальный и временной анализы. С помощью них можно извлечь смысл текста и имеющиеся в видео особенности, а также категоризировать отношения между объектами и действиями в материале.

Текстовое предсказание видео

Это задача генерации видеопоследовательности из текстового описания. Подсказка может быть любой: от простого предложения до подробного рассказа. Цель — создать видео, которое одновременно визуально реалистично и семантически соответствует запросу.

T2V-перевод

ИИ способен переводить видео с одного языка на другой. Также технология позволяет задействовать многоязычную модель. Это может стать полезно для людей, которые предпочитают смотреть видео на непонятном для них языке в качестве обучения.

Например, недавно пользователей украинских соцсетей привлек ИИ-сервис HeyGen. Он позволяет создавать персональные дипфейки и переозвучивать видео с одного языка на другой с сохранением голоса и мимики.

https://twitter.com/i/status/1701463905367712108

Вывод

Технология преобразования текста в видео все еще требует доработок, однако ее потенциал огромен. С ее помощью уже сейчас можно создать уникальные и интересные ролики.

Такие ИИ-инструменты открывают новые горизонты для художников, аниматоров, создателей контента и режиссеров.

Если сервисы вроде Pika Labs и Genmo продолжат трансформироваться в очень сложные художественные движки, то помогут деятелям искусства дополнять свои работы.

При достаточном и постоянном развитии нейросетей люди смогут регулярно использовать технологию для вдохновения и расширения своих идейных возможностей.

Будет интересно

Как вам статья?

18
0

статьи на эту же тему

Как новичку создать и распознать...
avatar Maryna Hlaiboroda
23.10.2023
Что такое машинное обучение? Все, что...
avatar Maryna Hlaiboroda
07.10.2023
Что такое нейронные сети и где их...
avatar Maryna Hlaiboroda
21.08.2023