Ad space available
Mistral AI Rilis Voxtral TTS: Model Speech Generation Ringan untuk Perangkat Edge
Mistral AI meluncurkan Voxtral TTS, model text-to-speech open-source yang mampu berjalan di smartwatch dan smartphone. Model ini menawarkan performa real-time dengan latensi rendah untuk kebutuhan AI Agent.

Mistral AI Rilis Voxtral TTS: Model Speech Generation Ringan untuk Perangkat Edge
PARIS, (26 Maret 2026)
- Voxtral TTS adalah model open-source hemat biaya yang mendukung 9 bahasa dan mampu berjalan secara lokal di perangkat edge seperti smartwatch.
- Model ini memiliki latensi sangat rendah (90ms) dan mampu melakukan kloning suara kustom hanya dengan sampel audio kurang dari 5 detik.
- Peluncuran ini memposisikan Mistral sebagai pesaing utama bagi ElevenLabs dan OpenAI dalam menyediakan solusi audio end-to-end untuk perusahaan.
Mengutip laporan dari TechCrunch, perusahaan AI asal Prancis, Mistral, resmi merilis model text-to-speech (TTS) open-source baru bernama Voxtral TTS. Model ini dirancang khusus untuk memperkuat AI Agent suara dalam berbagai skenario industri, mulai dari asisten virtual, layanan pelanggan, hingga otomatisasi penjualan.
Voxtral TTS mendukung sembilan bahasa pada saat peluncuran, termasuk Inggris, Prancis, Jerman, Spanyol, Belanda, Portugis, Italia, Hindi, dan Arab. Keunggulan utamanya terletak pada efisiensi model yang memungkinkannya beroperasi di perangkat dengan spesifikasi terbatas.
"Pelanggan kami telah lama meminta model speech. Jadi kami membangun model berukuran kecil yang bisa masuk ke dalam smartwatch, smartphone, laptop, atau perangkat edge lainnya. Biayanya hanya sebagian kecil dari solusi lain di pasar, namun menawarkan performa state-of-the-art," ujar Pierre Stock, VP of Science Operations di Mistral AI.
Performa Real-Time dan Karakter Suara Manusia
Model yang dibangun berbasis Ministral 3B ini mampu mengadaptasi suara kustom hanya dengan sampel kurang dari lima detik. Mistral mengklaim Voxtral TTS dapat menangkap karakteristik suara yang halus seperti aksen, infleksi, intonasi, hingga ketidakteraturan dalam alur bicara agar terdengar manusiawi dan tidak robotik.
Dari sisi teknis, model ini memiliki time-to-first-audio (TTFA) sebesar 90ms untuk sampel 10 detik (500 karakter). Selain itu, ia memiliki real-time factor (RTF) sebesar 6x, yang berarti model dapat memproses klip audio 10 detik dalam waktu hanya 1,6 detik. Kecepatan ini sangat krusial untuk aplikasi dubbing atau penerjemahan real-time.
Langkah ini merupakan bagian dari strategi Mistral untuk menyediakan platform end-to-end yang mampu menangani multimodal streams, baik input maupun output berupa audio, teks, dan gambar. Dengan sifatnya yang open-source, Mistral memberikan keleluasaan bagi perusahaan untuk melakukan kustomisasi penuh sesuai kebutuhan bisnis mereka.
Dampak bagi Indonesia
Kehadiran Voxtral TTS membawa implikasi signifikan bagi ekosistem teknologi di Indonesia:
- Efisiensi Biaya Operasional: Perusahaan Fintech dan E-commerce lokal yang selama ini bergantung pada API berbayar mahal seperti ElevenLabs (yang menggunakan kurs USD) kini memiliki alternatif open-source. Dengan menjalankan model ini di infrastruktur sendiri atau Data Center lokal, biaya operasional dapat ditekan secara drastis.
- Peluang Lokalisasi: Meskipun belum mendukung Bahasa Indonesia secara resmi, sifat open-source memungkinkan developer lokal untuk melakukan fine-tuning menggunakan dataset suara lokal atau bahasa daerah. Ini membuka jalan bagi terciptanya asisten suara yang lebih relevan dengan budaya Indonesia.
- Privasi dan Kedaulatan Data: Kemampuan model untuk berjalan di perangkat edge (tanpa harus mengirim data suara ke server luar negeri) sangat mendukung regulasi perlindungan data pribadi di Indonesia. Hal ini krusial bagi sektor sensitif seperti perbankan dan layanan publik.
Artikel ini akan diperbarui seiring tersedianya informasi baru. Join Komunitas Rekayasa AI di Discord untuk diskusi lebih lanjut.
Ad space available
Ditulis oleh
Tim Rekayasa AI
Kontributor Rekayasa AI yang passionate tentang teknologi AI dan dampaknya di Indonesia.


