Компанія Meta представила AudioCraft – генератор музики та шуму на основі штучного інтелекту

    69

    Meta представила ШІ-генератор музики AudioCraft з відкритим вихідним кодом, який створює аудіо, повністю ґрунтуючись на текстовому запиті користувача. AudioCraft об’єднує три окремі моделі ШІ: MusicGen призначена для створення музики та навчена на «20 000 годин музики, що належить Meta або ліцензованої спеціально для цієї мети», AudioGen генерує звуки та ефекти навколишнього середовища, а EnCodec забезпечує якісну обробку звуку.

    Музиканти давно експериментують із електронним звуком, але комп’ютерні програми створюють музику на основі існуючих звукових семплів. Аудіо від AudioCraft генерується лише з текстової підказки. Meta надала журналістам зразки аудіо, згенерованого за допомогою AudioCraft. Шумові ефекти, такі як свист, вітер, виття сирен та автомобільні сигнали звучали достовірно. А ось гітарні партії видалися слухачам неприродними.

    Зараз музика, згенерована AudioCraft, найбільше нагадує muzak (злегка зневажливий термін, який застосовується для більшості форм фонової музики, незалежно від джерела, «музика для ліфта») або невибагливий атмосферний ембієнт, і не претендує на роль такого великого поп-хіта. Проте Meta вважає, що AudioCraft може відкрити нову хвилю музичної моди, як це колись зробили перші синтезатори.

    Meta визнала складність створення моделей ШІ для генерації музики, за твердженням представника компанії це завдання на кілька порядків важче, ніж генерація тексту за допомогою ШІ, подібного до Llama 2. Компанія вважає, що відкритий вихідний код AudioCraft допоможе урізноманітнити дані, що використовуються для його навчання.

    «Ми розуміємо, що набори даних, які використовуються для навчання наших моделей, не відрізняються різноманітністю: більшість музики в західному стилі, пари аудіо-текст з текстом і метаданими написані англійською мовою, — пояснив представник Мета. — Поділившись кодом для AudioCraft, ми сподіваємося, що іншим дослідникам буде легше тестувати нові підходи до обмеження чи усунення потенційної упередженості та неправильного використання генеративних моделей».

    Meta — далеко не піонер у галузі генерації аудіо за допомогою ШІ. Велика мовна модель MusicLM від Google цілком успішно генерує аудіо, щоправда доступна вона лише дослідникам. Згенерована ШІ пісня з голосовою схожістю Drake та The Weeknd миттєво стала вірусною. Нещодавно Граймс (Grimes) дозволила використати імітацію свого голосу у треках ШІ. У свою чергу, звукозаписні лейбли та артисти вже забили на сполох, оскільки багато моделей ШІ можуть використовувати для навчання матеріали, захищені авторським правом.



    • інші новини