Интернет полон впечатляющих демонстраций ИИ, но не так много людей рассказывают о том, что происходит, когда действительно пытаешься что-то построить с помощью этих инструментов. На практике работа превращается в последовательность небольших технических компромиссов: короткие клипы, которые приходится использовать повторно, анимации, ведущие себя непредсказуемо, персонажи, которые двигаются тогда, когда им следовало бы оставаться неподвижными.
То, что со стороны выглядит как «кино, сделанное ИИ», на деле часто ближе к монтажу, маскированию, замораживанию кадров и сшиванию фрагментов до тех пор, пока из них не начинает складываться повествование.
Иными словами, настоящее мастерство заключается не в генерации изображений, а в том, чтобы заставить непредсказуемые инструменты вести себя как съёмочная группа.
Именно это желание определило мой подход к новому проекту.
Когда я начал адаптировать рассказ «Ночной посетитель» в визуальный сценарий, моя цель была простой: убрать описательную прозу и заменить её визуальными образами. Иначе говоря, обращаться с текстом как со сценарием — оставить только диалоги и рассказчика там, где это абсолютно необходимо.
Но этот рассказ внёс неожиданное осложнение.
Рассказ был от первого лица, и рассказчик - был внутренним голосом главной героини — Дженни. Это означало, что фильму требовались две разные версии одного и того же голоса:
Дженни которая говорит вслух с роботом.

Дженни думает про себя, комментируя происходящее.
Эти два голоса должны быть различимы для зрителя, но при этом ощущаться как принадлежащие одному и тому же человеку.
В обычном кино это тривиальная задача. Актёры делают это инстинктивно.
Внутренний голос и произнесённая речь отличаются тонкими нюансами:
тембром
высотой голоса
ритмом
уверенностью
эмоциональным весом
степенью вежливости
ощущением «дистанции» до слушателя
Как режиссёр, вы даже можете использовать двух разных актёров, если между ними есть нужная «химия».
Однако в ситуации, когда один человек делает всё в одиночку, эти качества крайне трудно описать технически, хотя человеческое ухо мгновенно их распознаёт.
Работая с голосами ИИ, я обнаружил любопытную вещь. Можно выбрать разные голоса, но они редко ощущались родственными. Они звучат как два разных человека.
А мне нужно было нечто промежуточное — одна и та же личность, выраженная через два разных состояния сознания.
После множества тестов разных голосов я понял, что не могу добиться такого баланса с доступными мне инструментами.
Это заставило меня принять важное решение.
Вместо того чтобы притворяться, будто история является сценарием, я вернул её к тому, чем она изначально была: озвученным коротким рассказом, сопровождаемым визуальными образами.
Иными словами, фильм превратился в визуализированное повествование, а не в кинематографический сценарий.
Это было не то решение, которого я изначально добивался. Но для тех инструментов, которыми я располагал, оно казалось правильным.
Думаю, что независимые авторы, работающие с инструментами ИИ, довольно быстро усваивают правило:
Навык заключается не только в том, что ты создаёшь, но и в том, чтобы распознавать пределы инструментов и адаптировать форму под них.
Если бы у меня были профессиональные актёры, я, вероятно, разделил бы эти голоса. Но работая в одиночку с бесплатными инструментами, более чистым решением оказалось оставить один повествовательный голос и позволить визуальному ряду нести остальную часть истории.
Парадоксально, но в чем-то это ограничение упростило фильм.
Повествование действует как непрерывная внутренняя монолог Дженни, в то время как визуальные сцены показывают внешние события — странного посетителя, и момент осознания того, что в ту ночь в кафе вошло нечто крайне неестественное.
Инструменты ИИ, доступные мне сегодня, гораздо лучше справляются с иллюстрацией повествования, чем с его заменой. Во многих случаях наиболее эффективный формат — это не «кино, сделанное ИИ», а иллюстрированное повествование — нечто ближе к графической литературе или анимированным аудиокнигам.
Ещё одна проблема возникла при генерации самих видеофрагментов.
Чтобы сохранить визуальную цельность истории, в каждой сцене должен был сохраняться один и тот же внешний вид персонажей. Самым простым способом добиться этого было подавать генератору статическое референс-изображение для каждого кадра. Эта часть сработала: персонажи оставались более менее узнаваемыми.
Но возникла новая проблема.
Когда генератору давали одновременно изображение и текстовый промпт, он полностью игнорировал промпт и просто пытался анимировать само изображение. Получившиеся клипы часто имели очень мало общего с поведением, описанным в промпте. Персонажи шли, когда должны были стоять неподвижно. Появлялись жесты, о которых никто не просил. Иногда движение выглядело скорее как парадный марш, чем как усталый человек, входящий в кафе.
После нескольких попыток я понял важную вещь: генератор на самом деле не воспринимает промпт как строгую инструкцию. Вместо этого он воспринимает уже сгенерированное видео как новую точку отсчёта.
Поэтому практический рабочий процесс неожиданно стал похож на разговор.
Вместо того чтобы пытаться получить правильный результат с первого промпта, я начал принимать первый клип как черновик, а затем просить внести в него исправления.
Разговор буквально звучал так:
«Спасибо, это уже довольно хорошо. Однако можно изменить…»
И дальше я описывал, что именно нужно поправить в только что созданном клипе.
Иными словами, генератор вёл себя не столько как рендер-движок, сколько как ассистент, которого нужно направлять шаг за шагом. Первая попытка задаёт визуальную структуру, а последующие правки постепенно направляют поведение в сторону того, что действительно требуется сцене.
Этот итеративный подход оказался надёжнее, чем попытка сразу написать идеальный промпт.
Инструменты генерации видео с ИИ ведут себя меньше как машины и больше как младшие соавторы. Они быстро создают нечто правдоподобное, но настоящая работа заключается в том, чтобы направлять и корректировать их, пока результат не совпадёт с замыслом.
Мог бы описать некоторые интересные технические детали, но боюсь и так всем надоел.
Короткий фильм ниже — пример именно такого гибридного процесса.
Вот версия на Ютубе:
Вот на VK:







@mgaft1, интересно.... по моему голос девушки слишком четкий и звонкий для такого рассказа. Иногда кажется что она тоже робот, как то без эмоций звучит. Думаю, что живая актриса сыграла бы это лучше.
Слишком резко меняются сцены, будто все происходило не одним вечером. Чисто американская манера рассказа, много лишних слов и описаний...Меня всегда это разжевывание всего напрягало...
Но это чисто мое потребительское мнение зрителя.
А вы, Майкл, молодец. Продвинулись далеко в этом деле! 👍️