Нейросеть Udio оставит авторов музыки без куска хлеба. И скорее рано, чем поздно

Апрель 2024-го преподнес музыкальному бизнесу внешне веселенькую, но на деле мрачную AI-сенсацию. Не успели композиторы и музыкальные продюсеры в достаточной мере ужаснуться возможностям музыкальной нейросети Suno, как вышел в публичное бета-тестирование сервис Udio — еще более «талантливый».

Штаб квартира сервиса находится в Нью-Йорке (США), в его создании задействована тяжелая интеллектуальная артиллерия американской отрасли искусственного интеллекта, но об этом позже. Главное, что следует отметить: продукты генерации Udio достигли качества, которого достаточно, чтобы делать на них реальный музыкальный бизнес.

Буквально с восьмого-десятого раза и примерно за 1,5-3 часа любой человек с хорошим музыкальным вкусом и «наслушанностью» может добиться от Udio рождения коммерчески перспективного трека, который реально можно издавать.

Пока речь идет о том, что сгенерированную песню придется пересоздать в своей студии и перепеть с помощью доступных артистов или самому. Поскольку AI-генератор позволяет скачивать получившиеся фонограммы лишь в низком качестве (mp3, 48 килогерц, 320 кбит/c).

Иногда, но не часто, в звучании вокала у «роботов» Udio встречаются аудио-артефакты. Технология не окончательна готова к коммерции прямо вот на этом уровне фонограмм. Однако уже сейчас блеск сгенерированных вокальных линий повергает в изумление и трепет.

Несуществующие в природе вокалисты Udio поют хорошо, поют с реальным чувством, поют практически неотличимо от человека. И тембры у них приятные, и на любой вкус. Вы можете получить в Udio аутентичный дельта-блюз с голоcом пожившего и выпившего цистерну дешевого виски человека, а можете сгенерить ультра современный дарквейв-аниме-фэнтези трек с ангельскими девичьими напевами.

Udio выдает фолк, все виды металла, старый хард-рок, какую хочешь электронику — хоть ретро, хоть с фронтлайна танцполов, фанк, мотаун, соул, любую попсу, панк, вокальные треки а-ля Pentatonix, симфоническую (!) и киномузыку.

Чтобы это не звучало голословно, послушайте, скажем, официальное промо Udio:

«Ну ладно», — скажет читатель, — «Это ж тщательно отобранное для маркетинга, не все тут чисто». Окей, давайте послушаем, что удалось сгенерировать человеку со стороны — техно-журналисту Райану Морриссону из нью-йоркского издания Tom's Guide.

Он применил следующий промпт: «Текст (песни): «Через пески пустыни и древние знания караван несет невысказанные ранее тайны». Жанр: Оркестровая пьеса в ближневосточном стиле. Сюжет: Эпическое путешествие по обширному пустынному ландшафту, где кочевники перевозят тайны прошлого». И вот результат от Udio:

Впечатляет? Определенно, и полученную от AI идею можно развить очень даже неплохо.

Конечно, мы тоже потестировали Udio. Автору этих строк всего за два часа удалось получить два трека длиной от одной до полутора минут, содержавшие каждый по куплету и по припеву. И эти треки однозначно имели коммерческую перспективу. Интересно (и пугающе) то, что искусственный интеллект применил в них реально классные, драйвовые аранжировочные решения. Прямо вот бери, воссоздавай и выпускай в свет. Руки, честно говоря, чесались…

Не надо быть пророком, чтобы предполагать — техническое качество сгенерированных фонограмм у таких сервисов, как Udio и Suno вырастет в ближайшие пару лет, если не в ближайшие месяцы. Возможно, эти сервисы уже имеют технологии генерации аудио в высоком разрешении, просто пока не сообщают об этом общественности. Ведь судя по «начинке» mp3 файлов от Udio, нейросеть изначально создает их в 16 bit, 48 kHz.

И что — теперь каждый сможет «писать» музыку и издавать ее?

Робот-дирижер

Теоретически так и есть. Udio фактически затевает довольно неоднозначную революцию в музыкальном бизнесе. Его нейросеть, конечно, графоманит от души и выдает много шлака. Однако есть большое, жирное «НО» — доля удачных генераций высока как никогда раньше. Идею хорошего трека уже сейчас можно получить буквально за вечер.

В перспективе Udio и ему подобные, по всей видимости, готовятся предоставить людям без музыкальных навыков и полагающихся только на свой вкус и фантазию возможность создавать популярную музыку при помощи одной только промпт-инженерии (текстовых запросов).

Бета-версия Udio уже позволяет при помощи простых инструментов получить полноформатный трек – со вступлением, куплетами, припевами, бриджем и кодой.

Сначала AI выдает по запросу два фрагмента по 32 секунды. А потом пользователь может их расширять, добавляя новые фрагменты до или после первоначального, компонуя части песни и пошагово отбирая лучшие варианты.

На главной странице сервиса можно послушать результаты наиболее упорных бета-тестеров. Некоторые из них ошеломляют вменяемостью мелодий и гармоний, а также реализмом звучания фонограмм.

И Udio уже на этапе публичного тестирования заявляет, что пользователи имеют право использовать результаты генерации в коммерческих целях. Что? Правда? Да, но не все так радужно.

Грезы о выгодном коммерческом использовании сгенерированной в Udio музыки — пока лишь грезы

Робот пишет музыку

Как говорится, всегда читайте мелкий шрифт. Сенсационный AI-сервис перестраховался почти со всех сторон и сделал все для того, чтобы пользователи начали создавать тонны контента (тем самым дополнительно обучая нейросеть), но не могли на нем реально заработать.

Пункт 6.3 и его подпункт 2 «Условий использования» сообщает, что на свои промпты, стихи и любой другой «входящий контент» пользователь Udio дает компании бесплатную, бессрочную, неотзываемую и буквально вселенскую лицензию практически на любые действия, включая переуступку прав, использование какими угодно способами на любых носителях, в любых медиа. И даже в тех, которые будут изобретены в будущем, а сейчас еще не существуют.

Такую же лицензию пользователь автоматически дает владельцам Udio и на «исходящий контент», то есть — на все сгенерированные треки, их музыкальный текст (гармонии, мелодии), текст слов и фонограммы.

Отдельно оговаривается, что Udio за любое использование трека, созданного по промпту пользователя, не будет платить ему лицензионные отчисления никогда и ни при каких обстоятельствах.

И тут возникает прелестная юридическая коллизия. В разделе «Часто задаваемые вопросы» Udio недвусмысленно заявляет, что пользователь может использовать сгенерированные треки в коммерческих целях — издавать, лицензировать их для рекламы и кино и т. п. Условие якобы одно — указывайте, мол, явным образом сервис в авторах (типа «Вася Пупкин feat. Udio») или в названии трека.

Однако нигде в подробных «Условиях использования» нет ни слова о разделении авторских долей (split) между Васей Пупкиным в качестве музыкального промпт-инженера и Udio (ситуация описана по состоянию на начало мая 2024 года).

И вот что это означает. Представим себе, что пользователь нейросети страдал и парился с генерацией и добился таки появления явно интересного трека. Он издал его с указанием Udio в строке «артист», и указал сервис как соавтора у своего музыкального дистрибьютора. А трек завирусился и начал приносить приличные отчисления со стриминговых платформ. И затем его стали лицензировать в рекламе, сериалах и так далее. Кто получит эти отчисления? Ммм?

Правильно, все получит Udio. Именно так можно интерпретировать редакцию «Условий использования», которая актуальна на время бета-теста сервиса. Ведь Вася Пупкин, как мы помним, самим фактом использования нейросети дал владельцам Udio космическую, железобетонно бесплатную, бессрочную и неотзываемую лицензию на весь «исходящий контент». Где тут доля Пупкина? Нет тут никакой его доли…

Теоретически возможное решение для совестливых

Строго говоря, частично обойти проблему разделения авторских долей, можно, причем легально. Делаем примерно так. При помощи умелых текстовых запросов, терпения и хорошего вкуса добиваемся от AI создания интересной «болванки» трека.

Выбрасываем в корзину текст песни, который сочинила нейросеть, и пишем свой — руками и мозгами. Музыку берем, написанную нейросетью, но аранжировку и фонограмму создаем сами. Вокал пишем тоже сами. Издаем трек — условия сервиса нам это разрешают.

В данном случае в качестве композитора указываем Udio, но в качестве исполнителя — «Вася Пупкин feat Udio», в качестве автора текста — Пупкина (и это будет правдой), и в качестве вокалиста — Пупкина (что тоже правда). Вот и пусть дистрибьютор связывается с Udio и делает ему отчисления как «композитору». А отобрать отчисления за текст (авторские), аранжировку и вокальное исполнение («механические» права при тиражировании) сервис не сможет.

Цикл повторяем до тех пор, пока один из треков не завирусится. А потом снова повторяем. Вторичная выгода здесь в том, что вирусные треки привлекут к исполнителю (артисту, продюсеру) соцсетевую аудиторию, что поработает на его имя.

Хак для бессовестных

По состоянию на начало мая 2024 года Udio позволяет скачивать результаты генерации ДО нажатия кнопки «опубликовать». А также удалять эти самые результаты. То есть, хитрый пользователь может «создать» удачную «рыбу» трека, сохранить ее себе на устройство, и не публиковать результат в сервисе, а тупо его грохнуть.

Неизвестно, сохраняет ли Udio на своих серверах результаты вообще всех генераций — удачных, неудачных, промежуточных и т. п.. Но в публичном доступе и в аккаунте пользователя неопубликованные удаленные треки не сохраняются. Все выглядит так, будто их и не было. Что делать дальше, бессовестные музыкальные продюсеры догадаются сами. Но вероятно, описанная лазейка вскоре будет прикрыта…

Почему появление Udio представляет большую опасность для музыкального бизнеса людей

Робот-музыкант

Мы ничего не знаем о действительных намерениях акционеров AI-генераторов музыки. Но вот как выглядит ситуация при экстраполяции на ближайшее будущее. Несколько гипотез:

1. ИИ заберет полностью или серьезно перекроит рынок стоковой royalty free музыки и так называемой «музыки для лифтов». Она пишется чаще всего по шаблонам и «на потоке». Музыкальные AI-генераторы совершенно точно обучались на существующих массивах таких треков. Например, автор этих строк лично получал отчисления от двух платформ (одна стоковая, другая — «музыка для лифтов») за то, что ИИ обучался на его музыке.

Даже самый трудолюбивый и неразборчивый в средствах композитор не сможет писать так много и быстро, как искусственный интеллект. Эта потенциальная гонка проиграна людьми до ее начала.

2. Рынок более высокого класса — «библиотечной» музыки для ТВ, рекламы, кино второго-третьего ряда, за которую композиторы годами получают роялти — тоже будет перекроен. В этом бизнесе много мастеровитой, тщательно выверенной графомании, а как мы видим по Udio, производить хорошо звучащие графоманские саундтреки ИИ уже умеет.

Вероятно, Udio и другие AI-генераторы создадут подразделения по производству «библиотечных» треков, а выбывших с рынка композиторов-людей они будут нанимать на скромную зарплату в качестве музыкальных редакторов — отборщиков и «доводчиков».

3. Самое интересное — это то, что произойдет с поп-музыкой. ИИ включится в конкуренцию за музыкальные стримы на всю катушку. Скорее всего, будут учреждены гибридные лейблы, которые начнут штамповать псевдоартистов с «фасадами» в лице людей приятной внешности и интеллектуальной «начинкой» в виде AI-генераторов.

Писать многие тысячи поп-хитов станет ИИ, отбирать и доводить до кондиции — люди-редакторы и продюсеры, представлять публике — артисты-пустышки. Собственно, почти так же все происходит и сейчас, но пока один трек могут сочинять до 7 композиторов-людей (и затем получать роялти), а будущем это станут делать нейросети.

Возможно, чтобы соблюсти лицо, AI-генераторы допустят до куска пирога промпт-инженеров из народа. Ведь они публично заявляют, что их цель — «дать возможность создавать музыку не музыкантам».

Возникнет небольшая прослойка «промпт-инженерных артистов». После крупной турбулентности на рынке оформится новая традиция юридического разделения долей между компаниями-собственниками музыкального ИИ и людьми, которые станут музыкальными промпт-инженерами.

И думается, доля владельцев ИИ будет значительно больше доли людей. Жить на свою человеческую долю и оплачивать счета смогут немногие счастливцы. Легче всего ситуацию перенесут рэперы.

Музыкантам в людском обличье придется крайне трудно. Композиторы и музыкальные продюсеры будут конкурировать с могущественными ИИ-авторами. С рынка выпадут все середнячки, работающие по шаблону. Потому что все шаблонное и средненькое AI-генераторы будут производить с легкостью необыкновенной и скоростью неимоверной.

Значительная часть людей-середнячков вынуждена будет наняться в качестве обслуживающего персонала на ИИ-лейблы.

Закономерно появится «элитный» рынок популярной музыки, написанной, сыгранной и записанной только людьми, без какого-либо участия ИИ (в том числе участия в аранжировках или как составной части ПО и плагинов для звукозаписи). Привлекать искусственный интеллект к музыкальном производству в этом бизнесе станет «позором».

Сектор «человеческой музыки для богатых» будет похож на так называемый «рынок современного искусства» и переймет все его двусмысленные нравы.

Также появится «новый андерграунд» — рынок музыки, созданной бунтарями-обличителями «искусственной попсы». С ним со временем произойдет то же, что и с рэп-культурой — он почти полностью станет подконтролен крупным лейблам…

Но перед тем, как все описанное выше осуществится, нас ожидает зрелище эпичной судебной битвы в США, ЕС и Британии между держателями прав на каталоги ранее созданной людьми музыки и компаниями, создавшими AI-генераторы.

Отцам музыкальных нейросетей непременно предъявят факт обучения ИИ на массивах человеческой музыки как циничное действие, нарушающее права сотен тысяч авторов-людей. А также факты нарушения прав компаний-держателей каталогов (правообладателей).

И в судах обязательно будет юридически доказана неприятная правда: некоторые очень успешные в композиторстве нейросети действительно учились на людской музыке, а их создатели отговаривались тем, что она якобы «находится в свободном доступе»…

Почему так серьезно все воспринимают эти нейросети-«самоиграйки»?

А вот почему — над ними работают чуть ли не лучшие умы мирового рынка разработки ИИ на базе нейросетей. Например, Udio создали бывшие сотрудники лаборатории искусственного интеллекта DeepMind, принадлежащей Google.

Мало того, в разработке Udio в качестве инвесторов (и вероятно консультантов) приняли участие несколько дальновидных музыкантов: американский рэпер will.i.am (Уильям Адамс); музыкальный продюсер Тэй Кейт (работал с Трэвисом Скоттом, Дрейком, Эминемом); американский рэпер и актер Common (Лонни Рашид Линн).

Заметим для себя, что все эти люди принадлежат к рэп-культуре, в которой музыка чаше всего выполняет декоративно-вспомогательную функцию.

Также в начальном финансировании стартапа Udio отметился американский дистрибьютор музыки UnitedMasters. Тоже очень дальновидное решение от участника музыкального рынка.

Ну и на закуску — среди инвесторов числится технический директор и сооснователь одной общеизвестной и запрещенной в РФ «соцсети с картинками» Майк Кригер. Смотрите-ка — вокруг проекта собрались проницательные и опытные персоны, которые явно чуют, что в воздухе носится запах крупного передела музыкальных доходов. Даже соцсети к этому готовятся, потому что они тоже косвенные участники рынка…

Назад дороги нет. Suno и Udio выпустили джинна из бутылки, и обратно его загнать не выйдет. Дай бог удастся цивилизовать и ограничить в притязаниях законодательно.

Само собой, один из основателей Udio Эндрю Санчес заявил журналу Rolling Stone: «…Мы создаем продукт, который позволит музыкальным людям создавать отличную музыку и, если быть ясным, зарабатывать на этом деньги».

Только вот, по всей видимости, основную часть отчислений будут получать не «музыкальные люди», а акционеры ИИ-генераторов.

Владимир Лакодин