Disebut Fugatto (kependekan dari Foundational Generative Audio Transformer Opus 1), ini menghasilkan atau mengubah campuran musik, suara, dan suara yang dijelaskan dengan petunjuk menggunakan kombinasi file teks dan audio.
Misalnya, ia dapat membuat cuplikan musik berdasarkan perintah teks, menghapus atau menambahkan instrumen dari lagu yang ada, mengubah aksen atau emosi dalam suara — bahkan membiarkan orang menghasilkan suara yang belum pernah terdengar sebelumnya.
"Hal ini liar," kata Ido Zmishlany, produser dan penulis lagu multi-platinum — dan salah satu pendiri One Take Audio, anggota program NVIDIA Inception untuk startup mutakhir. "Suara adalah inspirasi saya. Itulah yang menggerakkan saya untuk menciptakan musik. Gagasan bahwa saya dapat menciptakan suara yang sama sekali baru dengan cepat di studio sungguh luar biasa."
Pemahaman Audio yang Sehat
"Kami ingin menciptakan model yang memahami dan menghasilkan suara seperti yang dilakukan manusia," kata Rafael Valle, manajer penelitian audio terapan di NVIDIA dan salah satu dari selusin lebih orang di belakang Fugatto, serta konduktor orkestra dan komposer.
Mendukung berbagai tugas pembuatan dan transformasi audio, Fugatto adalah model AI generatif dasar pertama yang menampilkan properti yang muncul — kemampuan yang muncul dari interaksi berbagai kemampuan terlatihnya — dan kemampuan untuk menggabungkan instruksi bentuk bebas.
"Fugatto adalah langkah pertama kami menuju masa depan di mana pembelajaran multitugas tanpa pengawasan dalam sintesis dan transformasi audio muncul dari skala data dan model," kata Valle.
Contoh Kasus Penggunaan
Misalnya, produser musik dapat menggunakan Fugatto untuk membuat prototipe atau mengedit ide untuk sebuah lagu dengan cepat, mencoba berbagai gaya, suara, dan instrumen. Mereka juga dapat menambahkan efek dan meningkatkan kualitas audio keseluruhan dari trek yang ada.
"Sejarah musik juga merupakan sejarah teknologi. Gitar elektrik memberi dunia rock and roll. Ketika sampler muncul, hip-hop lahir," kata Zmishlany. "Dengan AI, kami menulis bab musik berikutnya. Kami memiliki instrumen baru, alat baru untuk membuat musik — dan itu sangat menarik."
Agensi iklan dapat menerapkan Fugatto untuk menargetkan kampanye yang ada dengan cepat untuk beberapa wilayah atau situasi, menerapkan aksen dan emosi yang berbeda pada sulih suara.
Alat pembelajaran bahasa dapat dipersonalisasi untuk menggunakan suara apa pun yang dipilih pembicara. Bayangkan sebuah kursus online yang diucapkan dengan suara anggota keluarga atau teman mana pun.
Pengembang video game dapat menggunakan model untuk memodifikasi aset yang telah direkam sebelumnya dalam judul mereka agar sesuai dengan tindakan yang berubah saat pengguna memainkan game. Atau, mereka dapat membuat aset baru dengan cepat dari instruksi teks dan input audio opsional.
Membuat Suara yang Menyenangkan
"Salah satu kemampuan model yang sangat kami banggakan adalah apa yang kami sebut kursi alpukat," kata Valle, mengacu pada visual baru yang dibuat oleh model AI generatif untuk pencitraan.
Misalnya, Fugatto bisa membuat gonggongan terompet atau meong saksofon. Apa pun yang dapat dijelaskan pengguna, model dapat dibuat.
Dengan penyetelan halus dan sejumlah kecil data nyanyian, para peneliti menemukan bahwa itu dapat menangani tugas-tugas yang tidak dilatih sebelumnya, seperti menghasilkan suara nyanyian berkualitas tinggi dari perintah teks.
Selama inferensi, model menggunakan teknik yang disebut ComposableART untuk menggabungkan instruksi yang hanya terlihat secara terpisah selama pelatihan. Misalnya, kombinasi petunjuk dapat meminta teks yang diucapkan dengan perasaan sedih dalam aksen Prancis.
Kemampuan model untuk menginterpolasi antar instruksi memberi pengguna kontrol terperinci atas instruksi teks, dalam hal ini beratnya aksen atau tingkat kesedihan.
"Saya ingin membiarkan pengguna menggabungkan atribut dengan cara subjektif atau artistik, memilih seberapa besar penekanan yang mereka berikan pada masing-masing atribut," kata Rohan Badlani, seorang peneliti AI yang merancang aspek-aspek model ini.
"Dalam tes saya, hasilnya sering mengejutkan dan membuat saya merasa sedikit seperti seorang seniman, meskipun saya seorang ilmuwan komputer," kata Badlani, yang memegang gelar master dalam ilmu komputer dengan fokus pada AI dari Stanford.
Model ini juga menghasilkan suara yang berubah dari waktu ke waktu, fitur yang dia sebut interpolasi temporal. Misalnya, itu dapat menciptakan suara badai hujan yang bergerak melalui area dengan crescendo guntur yang perlahan-lahan memudar ke kejauhan. Ini juga memberi pengguna kontrol yang terperinci atas bagaimana lanskap suara berkembang.
Tidak seperti kebanyakan model, yang hanya dapat membuat ulang data pelatihan yang telah mereka hadapi, Fugatto memungkinkan pengguna untuk membuat soundscape yang belum pernah terlihat sebelumnya, seperti badai petir yang mereda hingga fajar dengan suara kicauan burung.
Fugatto adalah model transformator generatif dasar yang dibangun di atas pekerjaan tim sebelumnya di bidang-bidang seperti pemodelan ucapan, vocoding audio, dan pemahaman audio. Versi lengkapnya menggunakan 2,5 miliar parameter dan dilatih pada bank sistem NVIDIA DGX yang mengemas 32 GPU NVIDIA H100 Tensor Core.
Fugatto dibuat oleh beragam kelompok orang dari seluruh dunia, termasuk India, Brasil, Cina, Yordania, dan Korea Selatan. Kolaborasi mereka membuat kemampuan multi-aksen dan multibahasa Fugatto lebih kuat.
Salah satu bagian tersulit dari upaya ini adalah menghasilkan kumpulan data campuran yang berisi jutaan sampel audio yang digunakan untuk pelatihan. Tim menggunakan strategi multifaset untuk menghasilkan data dan instruksi yang secara signifikan memperluas jangkauan tugas yang dapat dilakukan model, sambil mencapai kinerja yang lebih akurat dan memungkinkan tugas baru tanpa memerlukan data tambahan.
Mereka juga meneliti kumpulan data yang ada untuk mengungkapkan hubungan baru di antara data. Pekerjaan keseluruhan berlangsung lebih dari setahun. Valle ingat dua momen ketika tim tahu itu sedang melakukan sesuatu. "Pertama kali menghasilkan musik dari prompt, itu membuat kami terpesona," katanya.
Kemudian, tim mendemonstrasikan Fugatto menanggapi perintah untuk membuat musik elektronik dengan anjing menggonggong tepat waktu mengikuti irama. "Ketika kelompok itu bubar dengan tawa, itu benar-benar menghangatkan hati saya."
Cek Berita dan Artikel yang lain di
Google News
Viral! 18 Kampus ternama memberikan beasiswa full sampai lulus untuk S1 dan S2 di Beasiswa OSC. Info lebih lengkap klik : osc.medcom.id