Lebih dari sekadar AI. Temukan kekuatan ekosistem cerdas yang ditenun untuk Anda. Jelajahi Orkestrasi →

Kirim AI

DeCLaRe Lab: TangoFlux – Text-to-Audio Revolusioner 30 Detik Hanya 3.7 Detik

TangoFlux adalah model generatif Text-to-Audio canggih yang dikembangkan DeCLaRe Lab dan NVIDIA. Dengan teknologi CRPO dan FluxTransformer, model dengan 515 juta parameter ini mampu menghasilkan audio stereo 44.1kHz selama 30 detik hanya dalam 3.7 detik – salah satu yang tercepat di kelasnya. Cocok untuk peneliti, pengembang, dan kreator konten yang butuh solusi generasi audio real-time.

0
10
DeCLaRe Lab: TangoFlux – Text-to-Audio Revolusioner 30 Detik Hanya 3.7 Detik

Nama: TangoFlux

Website/Sumber Utama: https://github.com/declare-lab/TangoFlux

Fungsi Utama: Model generatif untuk konversi teks ke audio (Text-to-Audio) yang sangat cepat dan akurat.

Tipe: Proyek Open Source (Model AI)

Cocok Untuk: Peneliti AI, pengembang aplikasi audio, kreator konten, dan proyek yang membutuhkan generasi audio berkualitas tinggi

Model Harga/Lisensi: Open Source dengan Lisensi Stability AI Community Lihat Detail Lisensi

Highlight Utama: Mampu menghasilkan audio stereo 44.1kHz dengan durasi hingga 30 detik hanya dalam waktu 3.7 detik menggunakan GPU A40 tunggal

Apa Itu TangoFlux?

TangoFlux adalah model generatif Text-to-Audio (TTA) yang efisien dengan 515 juta parameter, dikembangkan oleh DeCLaRe Lab (Singapore University of Technology and Design) dan NVIDIA. Model ini menggunakan teknik Flow Matching dan Clap-Ranked Preference Optimization (CRPO) untuk menghasilkan audio berkualitas tinggi dari deskripsi teks. TangoFlux mampu menghasilkan audio stereo 44.1kHz dengan durasi hingga 30 detik hanya dalam waktu 3.7 detik, menjadikannya salah satu model TTA tercepat dan paling akurat saat ini.

TangoFlux mengatasi tantangan utama dalam aligning model TTA melalui framework CRPO yang menghasilkan dan mengoptimalkan data preferensi secara iteratif untuk meningkatkan keselarasan audio dengan teks. Dengan pendekatan ini, TangoFlux mencapai performa state-of-the-art dalam berbagai benchmark objektif dan subjektif.

Fitur Utama / Andalan

(Disimpulkan dari eksplorasi halaman fitur/dokumentasi)

Arsitektur FluxTransformer

  • Deskripsi: TangoFlux menggunakan blok FluxTransformer yang terdiri dari Diffusion Transformers (DiT) dan Multimodal Diffusion Transformers (MMDiT) yang dikondisikan pada prompt teks dan embedding durasi.
  • Manfaat/Contoh: Arsitektur hybrid ini memungkinkan efisiensi parameter yang lebih baik dan kemampuan untuk menghasilkan audio dengan durasi yang bervariasi hingga 30 detik.
  • Info Lebih Lanjut: Pelajari Lebih Lanjut

CRPO (CLAP-Ranked Preference Optimization)

  • Deskripsi: Framework inovatif yang secara iteratif menghasilkan dan mengoptimalkan data preferensi untuk meningkatkan keselarasan TTA.
  • Manfaat/Contoh: CRPO menghasilkan dataset preferensi audio yang lebih unggul dibandingkan alternatif yang ada, memungkinkan model untuk lebih memahami apa yang dianggap sebagai output audio berkualitas baik.
  • Info Lebih Lanjut: Pelajari Lebih Lanjut

Kecepatan Inferensi Super Cepat

  • Deskripsi: TangoFlux dapat menghasilkan audio stereo 44.1kHz hingga 30 detik dalam waktu sekitar 3 detik pada GPU A40 tunggal.
  • Manfaat/Contoh: Kecepatan inferensi yang tinggi memungkinkan penggunaan real-time dalam berbagai aplikasi praktis seperti asisten virtual, game, atau aplikasi multimedia.
  • Info Lebih Lanjut: Coba Demo Interaktif

Antarmuka yang Fleksibel

  • Deskripsi: TangoFlux menyediakan beberapa cara untuk menggunakannya: Web Interface, CLI, Python API, dan integrasi dengan ComfyUI.
  • Manfaat/Contoh: Fleksibilitas ini memungkinkan peneliti dan pengembang untuk dengan mudah mengintegrasikan TangoFlux ke dalam alur kerja mereka yang sudah ada.
  • Info Lebih Lanjut: Pelajari Cara Inferensi

Kelebihan (Pros)

(Disimpulkan dari berbagai halaman)

  • Kecepatan inferensi yang luar biasa cepat (3.7 detik untuk 30 detik audio pada GPU A40)
  • Kualitas audio yang sangat baik dengan skor CLAP 0.48 dan skor FD 75.1, lebih unggul dari model serupa
  • Jumlah parameter yang lebih sedikit (515M) dibandingkan model sejenis seperti AudioLDM 2 (712M) atau Tango 2 (866M)
  • Kemampuan menghasilkan audio dengan durasi yang lebih panjang (hingga 30 detik)
  • Kerangka CRPO yang memungkinkan peningkatan performa model secara iteratif melalui data preferensi
  • Kode sumber dan model dibuka untuk mendukung penelitian lebih lanjut

Kekurangan (Cons) / Batasan

(Disimpulkan dari eksplorasi)

  • Membutuhkan sumber daya komputasi yang cukup besar untuk pelatihan (GPU)
  • Instalasi dan penggunaan memerlukan pengetahuan teknis dasar tentang Python dan model AI
  • Keterbatasan panjang audio maksimum 30 detik
  • Dataset pelatihan memiliki batasan lisensi khususnya untuk data dari WavCaps yang hanya diperbolehkan untuk penggunaan akademis

Harga / Lisensi

(Dicari secara aktif dari tautan Pricing/License)

Model: Open Source dengan batasan penggunaan

Ketentuan Utama:

  • Stability AI Community License: Model hanya untuk tujuan penelitian dan akademis non-komersial
  • Penggunaan Komersial: Memerlukan pendaftaran dengan Stability AI atau mendapatkan lisensi komersial terpisah
  • Penggunaan WavCaps: Data yang bersumber dari WavCaps hanya diperbolehkan untuk penggunaan akademis
  • Atribusi diperlukan: Harus mencantumkan "Powered by Stability AI" jika menggunakan atau menampilkan model ini

Link Halaman Lisensi: Lihat Detail Lisensi di Sini

Lisensi: Stability AI Community License (Lihat File Lisensi)

Contoh Penerapan & Observasi

(Berdasarkan dokumentasi, blog, use cases, komunitas)

  • Generasi efek suara untuk game dan aplikasi multimedia
  • Pembuatan soundtrack berdasarkan deskripsi teks
  • Pembuatan konten audio untuk video dan podcast
  • Simulasi lingkungan audio (misalnya "Suara hujan dan petir di kejauhan")
  • Alat kreatif untuk musisi dan sound designer
  • Demo interaktif tersedia di Hugging Face
  • Repository kode lengkap di GitHub
  • Paper penelitian tersedia di arXiv
Arya AnggaraA
DITULIS OLEH

Arya Anggara

AI Enthusiast 🚀 | Software Engineer focused on developing AI-based solutions.

Tanggapan (0 )