Поразительно и пугающе: подборка видеороликов, сгенерированных нейросетью
Сегодня искусственный интеллект не только пишет музыку, стихи или картины, но и создает реалистичные видеоролики. Снять свой фильм, не выходя из дома, кажется, теперь под силу каждому. Расскажем и покажем, что умеет новая нейросеть Sora.
Sora — это очередное детище компании OpenAI — создателей чат-бота Chat-GPT. Они научили нейросеть генерировать видеоролики по текстовому запросу, и она способна делать сложные сцены с несколькими персонажами, определенными типами движения и точными деталями объекта и фона. Активно экспериментировать в этой области ИИ начали пару лет назад, но предыдущие модели — Phenaki, Make-A-Video, Imagen Video, Lumiere — не могли похвастаться такой же реалистичностью, как Sora.
В одном из заданий-примеров новую модель попросили показать мамонтов, шагающих в сторону зрителя по снегу. Для этого разработчики детально прописали подсказки: длинный шерстистый мех слегка развевается на ветру, заснеженные деревья и горные вершины, полуденный свет с тонкими облаками и солнце высоко в небе, расстояние создает теплое свечение, вид камеры снизу.
Как отмечают в OpenAI, Sora обладает глубоким знанием языка, что позволяет нейросети интерпретировать подсказки и создавать символы, выражающие реалистичные эмоции. Другим заданием для нее было показать стильную женщину, идущую по токийской улице. Подсказки: улица, наполненная теплым светящимся неоном и анимированными вывесками. Женщина в черной кожаной куртке, у нее длинное красное платье, черные ботинки и черная сумочка. На лице — солнцезащитные очки, на губах — красная помада. Женщина идет уверенно и непринужденно. Дорога влажная и отражает свет, создавая зеркальный эффект разноцветных огней. Много пешеходов вокруг.
Sora понимает не только то, что пользователь написал в командной строке, но и то, как эти вещи существуют в нашем мире. Она способна генерировать видео с разрешением до 1920×1080, хотя продолжительность роликов — не больше минуты. Еще одно задание — показать с воздуха, как волны разбиваются о скалы вдоль пляжа в Биг-Суре (Калифорния). Подсказки: бушующие голубые воды создают волны с белыми кончиками, а золотой свет заходящего солнца освещает скалистый берег. Вдали виднеется небольшой остров с маяком, а край скалы покрыт зеленым кустарником. Крутой спуск с дороги к пляжу представляет собой впечатляющее зрелище, края скалы выступают над морем.
Кроме создания собственного контента, Sora умеет дополнять уже существующие видео новыми кадрами и анимировать статичные изображения. Но без ошибок пока не обходится: нейросеть не всегда точно наделяет предметы нужными характеристиками да и анимация некоторых физических процессов ей дается непросто. Например, ИИ попросили показать, как археологи нашли в пустыне обычный пластиковый стул, тщательно раскапывая и вытирая его. Но нейросеть не смогла идентифицировать стул как твердый объект, что привело к неестественным кадрам.
Также Sora не всегда понимает причинно-следственные связи. Например, она показывает, как человек ест печенье, на котором потом не видны следы от укуса. Также она иногда путает временные рамки или пространственные детали, например лево и право.
Разработчики отметили, что как только модель будет доступна, первыми ее опробуют художники, дизайнеры и режиссеры, чтобы оценить новинку и подсказать авторам проекта, как улучшить нейросеть. Они уверены, что Sora будет полезна творческим людям.