Нещодавно в Diana Gloster вийшов кліп на пісню «Кіно», для створення якого було використано штучний інтелект. Редакція MMR поспілкувалася з режисером відеороботи Іваном Кваша щодо залучення ШІ у створення візуальних та музичних творів, дізналася, наскільки він полегшує роботу та чи зможе у майбутньому замінити людський ресурс.
Як саме і де ви використали ШІ під час створення кліпу «Кіно» Diana Gloster?
Ми використали штучний інтелект уже на відзнятих кадрах кліпу. Механіка була такою — ми брали певні фази кадрів по три-чотири секунди та розкладали кадр на фотографії. Кожному фото надавали певний настрій, щоб картинка змінювалась, при цьому залишаючи Діану справжньою. Ми робили кадри більш мультяшними та використовували їх впродовж усього кліпу для того, щоб картинка була різноманітною та динамічною. Насправді кожен раз ми експериментуємо і пробуємо додавати щось нове — так ми вчимося та паралельно досліджуємо, наскільки це буде цікавим у майбутньому.
Розкажіть детальніше про особливості використання штучного інтелекту саме у створенні відеокліпів. Який ШІ для цього підійде найкраще?
Особливість використання ШІ у створенні відеокліпів полягає у можливості автоматизації багатьох процесів, що пов’язані в нашому випадку з монтажем та візуальними ефектами. Ми використали програму Stable Diffusion, яка дає можливість генерувати картинки й перетворювати їх згодом у відео. Тобто, якщо 1 секунда це 25 кадрів, то потрібно створити 25 картинок для однієї секунди. Немає такого поняття «найкращий ШІ для чогось», усе залежить від певних алгоритмів та задач.
ШІ розуміє алгоритми: як робити, змінювати, десь генерувати картинку. Суть у тому, що потрібно завжди відштовхуватися від завдання, і тільки тоді можна зрозуміти, який формат роботи зі штучним інтелектом потрібен. У нашому випадк у Stable Diffusion — а це достатньо велика містка програма — ми відфотографували Діану, вивчили її обличчя, і згодом, якщо ми щось і генерували, то саме лице не змінювалося.
Особливості використання штучного інтелекту полягають в самій ідеї, дуже багато залежить від того, що саме ти хочеш зробити. А підібрати, як це реалізувати за допомогою ШІ, це, у принципі, другорядне завдання. Все одно, як не крути, а дуже багато залежить від ідеї.
Яке місце займає зараз ШІ в музичній індустрії України?
Дуже хороше питання. Якщо брати саме музику, то можу сказати, що в цій сфері ще мало хто працює. Хоча у ШІ є неймовірні можливості, наприклад, можна попросити, щоб написав біт, як у когось приблизно, чи пропрацювати свої вокальні дані. Або згенерувати голос будь-якого артиста, тобто дати вивчити інтелекту, як співає Дрейк або Емінем, чи як розмовляє Морган Фрімен, і запросити у ШІ як озвучування фільму обраним голосом, так і зробити, щоб Вілл Сміт заспівав у тебе в пісні.
Знову ж таки, все залежить від запитів. Але я вважаю, що його потрібно використовувати тільки як доповнення. Можна спробувати знайти прикольний біт, але самому записати вокал. Або, навпаки, прикольно згенерувати свій голос, але при цьому використати свій біт. Так чи інакше, це все одно пошук, і ця робота займає не менше часу, ніж якби ти сам писав біт, тому все дуже індивідуально. Може, тому в нас цього і немає ще, бо простіше, легше і цікавіше все-таки писати самому, і це дуже круто. Насправді, якщо люди масово почнуть брати інструменти ШІ за основу і все робити на ньому, буде відчуватися, що у твору немає душі. Хоча, якщо говорити про біт, допустимо в музиці, не хочу нікого образити, але там душу особливо не відрізниш, адже це по суті математична конструкція.
Як ви вважаєте, чи будуть згодом музичні кліпи створюватись лише за допомогою ШІ?
Якщо брати відео, я бачив, що з’являються на ринку дизайнери, які працюють зі Stable Diffusion та пропонують свої послуги артистам. Наприклад, KOLA, TVORCHI інтегрували ШІ у свої відео, але не на якомусь там супер рівні, як, власне, і ми у кліпі Діани. Поки що просто беремо та анімуємо, стилізуємо під мультики. Якщо брати щось серйозніше, то поки ми знаходимося на етапі вивчення, розуміння, наскільки це потрібно та необхідно.
Я впевнений на сто відсотків, що в майбутньому завдяки штучному інтелекту можна буде робити окремі сцени для музичних відео, знову ж таки, це все залежить від ідеї. ШІ може згенерувати різні світи на запит, вивчити обличчя артиста та інтегрувати його як модель у цей світ, допоможе переміщатися у просторі. Це вже зараз можна робити, але це поки що складно й дуже довго.
Чи впливає ШІ на час монтажу кліпу?
Деякі речі він, звичайно ж, може прискорити, але це, напевно, поки що більше стосується картинок, ніж відео.
Які б ви дали поради креативникам, які хочуть або вже впроваджують ШІ у свої відеороботи?
Я би дав таку пораду: не інтегрувати повністю у свою творчість штучний інтелект. ШІ не розуміє, що таке гарно, для нього намальоване олівцем дерево, ніби руками маленької дитини, це теж красиво. Тому найголовніша краса сьогодні все одно залишається за людиною, за її фантазією. І поки що ми, як люди, які пройшли певні етапи еволюції, розуміємо, де грані гарного, і бачимо справжню красу в тих або інших речах, а в ШІ нема цього розуміння.
Але у ШІ є кроки пропрацювання, що більше крок, то більше він придумує тобі щось незрозуміле або віртуозне, але, знову ж таки, для одних це буде красиво, а для інших — навпаки. Тому нехай краще найважливіша творчість залишається все-таки за людьми, а штучний інтелект тільки допомагає втілити речі, які ми можемо уявити в голові, але не здатні фізично намалювати, в цьому випадку ШІ по деталях може допомогти скласти це все. Отже, працювати з ним у такому форматі — це здорово. Нехай ШІ буде для творчих людей як доповнення, але не як основа, щоб творчість продовжувала йти зсередини, від душі.
Кавер: кадр із кліпу Diana Gloster «Кіно»