Мы сгенерировали в нейросети 3250 кадров и объединили их в видео о танце
«Киригами» – видео-арт, с публикации которого началась история мультимедиа студии SHUM в 2023 году. Ниже приводится копия статьи, выпущенной для медиа Т-Банка – https://t-j.ru/ai-generated-dance-video/ – от лица Александра Жиганова, сооснователя и креативного продюсера мультимедиа студии SHUM.
Идея ролика и первые шаги
Наша студия активно сотрудничает с Инновационным театром балета Калуги. В декабре 2022 года мы с солисткой Лорой Монжалей решили углубиться в нейроискусство и создать проект, который совместил бы стандартную видеосъемку, современный танец и технологии нейросети Stable Diffusion. Она бесплатная, работает на открытом коде, а еще ее можно установить локально на несколько компьютеров — в нашем случае на 6 сразу. Мы сразу придумали концепт ролика «Киригами». Название отсылает к разновидности оригами, в котором допустимо использование режущих предметов.
Перед съемками мы решили провести небольшое исследование, чтобы понять, как человеческий мозг воспринимает видеоконтент, обработанный с помощью нейросетей. Мы показывали людям примеры уже существующих роликов и опрашивали их — 65% заявили, что такие видео перегружены информацией.
Картинка очень быстро меняется, поэтому человеческому глазу тяжело зацепиться за что-то одно. Из-за этого у зрителей пропадает желание смотреть ролик дальше. Кроме того, мы изучили современные исследования и узнали, что первые 15 секунд — ключевые для удержания зрительского внимания.
Так мы пришли к выводу, что зрители в начале 2023 года еще не готовы воспринимать видеоряд, который целиком сгенерирован или обработан искусственным интеллектом. От идеи мы не хотели отказываться, поэтому начали думать, как создать что-то смелое, но все же доступное для широкой аудитории.
Съемки
Наш режиссер Андрей Горлачев предложил сосредоточиться на плавных переходах — от реальной съемки к кадрам, которые обработала нейросеть. Мы решили, что такой визуальный прием облегчит восприятие картинки. Хотелось сделать так, чтобы зритель очутился в привычном для себя пространстве, а потом попал в мир искусственного интеллекта.
Оборудование, которые мы использовали для съемки:
Беззеркальная камера Sony A7S 3.
Объектив Tamron 17—28mm f/2.8.
Электронный стабилизатор DJI Ronin RS2.
Световые приборы GreenBean.
Первая попытка. Лора придумала танец, а мы сняли его в обычном танцевальном зале и обработали несколько кадров в нейросети. Благодаря первому тесту стало ясно, что нейросеть лучше работает с исходниками видео в высоком разрешении, без цифрового шума, пикселей и с картинкой с высокой выдержкой. Но результат нас все же не устроил — мы решили добавить движений камеры и поменять локацию.
Вторая попытка. Второй ролик мы сняли на лестничной площадке с использованием ручной камеры — получилось неудачно.
Зато мы вновь провели работу над ошибками и сделали правильные выводы. Например, поняли, что во время съемки нужен штатив или стабилизатор. Композиция должна быть минималистичная и не перегруженная объектами, а танцовщица — одета в однотонную одежду.
Третья и четвертая попытки. Казалось, с третьего раза у нас все получится. Мы нашли новую минималистичную локацию и выставили свет, чтобы добавить в композицию теневой рисунок. Команда была уверена, что снимает финальную версию ролика.
Увы, результат вновь разочаровал: картинка все равно осталась перегруженной. Тогда стало ясно, что лучший вариант — первый тест, черно-белый и в танцевальном зале.
После нескольких дней обсуждений мы поняли, как исправить перегруженность картинки. Нужно было создать контраст между фоном и танцовщицей и хорошо осветить площадку, чтобы избавиться от теней. Четвертый тест оказался успешным — после него мы наконец-то сняли финальный вариант ролика.
Работа с нейросетью
После удачной съемки в студии начался этап постпродакшена — тот самый момент, когда нейросеть стала полноценным соавтором ролика.
Оборудование, которые мы использовали для работы с нейросетью и монтажа видео:
ПК с видеокартой GeForce RTX 3080 12 Гб.
Пять ПК с видеокартами GeForce RTX 3060 12 Гб.
Нейросеть Stable Diffusion.
Adobe Premiere Pro.
Ableton Live.
Постпродакшен ролика проходил поэтапно. Сначала мы экспортировали исходник видео в виде png-секвенции: из 130 секунд получилось 3250 кадров. Массив кадров поместили в Stable Diffusion и к каждому применили разработанную заранее «бумажную» стилистику. После этого запустили рендер — он шел 10 часов на шести компьютерах одновременно. Наконец, смонтировали сгенерированные изображения и исходное видео с применением плавных переходов.
Отдельно отмечу, что аудиодорожка также влияет на перегруженность ролика, как и видеоряд. Поэтому мы решили самостоятельно написать музыку для видео, а в бите использовать эффекты разрезания и комкания бумаги.




