Alibaba baru saja merilis Qwen3-ASR-Flash, model AI terbaru yang dirancang khusus untuk transkripsi suara.
Berbasis pada Qwen3-Omni dan dilatih dengan puluhan juta jam data audio, model ini diklaim mampu menghadirkan akurasi tinggi bahkan dalam kondisi sulit seperti aksen beragam, lingkungan bising, hingga pola bahasa yang kompleks.
Yang menarik, Qwen3-ASR-Flash bukan sekadar alat transkripsi biasa. Model ini bisa mengenali lirik lagu dengan presisi, mendukung 11 bahasa lengkap dengan dialeknya, dan punya fitur contextual biasing untuk hasil transkripsi yang lebih relevan.
Dengan performa tersebut, Qwen3-ASR-Flash digadang-gadang jadi saingan serius bagi Gemini-2.5-Pro dan GPT4o-Transcribe.
Baca Juga: Kenapa Warga Amerika Serikat Jarang Pakai WhatsApp?
Apa Itu Qwen3-ASR-Flash?
Qwen3-ASR-Flash adalah model speech recognition terbaru dari tim Alibaba Qwen.
Model ini dibangun di atas fondasi Qwen3-Omni, sebuah kerangka AI yang sudah dilatih menggunakan data multi-modal dalam skala masif, khususnya data ASR (Automatic Speech Recognition) dengan durasi puluhan juta jam.
Tujuan utamanya jelas: menghadirkan transkripsi suara yang lebih akurat, cepat, dan tahan banting di berbagai kondisi.
Mulai dari percakapan sehari-hari, meeting kerja dengan background noise, sampai penggunaan di industri musik, Qwen3-ASR-Flash dirancang untuk bisa “mendengar” dan memahami dengan jauh lebih cerdas dibandingkan generasi sebelumnya.
Performa Qwen3-ASR-Flash
Dalam uji publik Agustus 2025, Qwen3-ASR-Flash menunjukkan hasil yang impresif. Untuk bahasa Mandarin standar, tingkat error-nya hanya 3,97%, jauh lebih baik dibanding Gemini-2.5-Pro (8,98%) dan GPT4o-Transcribe (15,72%). Bisa diliat pada gambar dibawah ini:

Kemampuannya juga konsisten di bahasa Inggris, dengan error rate 3,81%, lagi-lagi mengungguli Gemini (7,63%) dan GPT4o (8,45%).
Bahkan di area yang terkenal sulit—transkripsi musik—Qwen3-ASR-Flash mencatat error rate hanya 9,96%, sementara Gemini mencapai 32,79% dan GPT4o tembus 58,59%.
Hasil ini menegaskan bahwa Qwen3-ASR-Flash bukan sekadar alternatif, tapi bisa jadi standar baru di dunia AI transcription tools.
Baca Juga: Dari DVD ke Streaming: Transformasi Netflix yang Menginspirasi
Keunggulan atau Fitur Utama Qwen3-ASR-Flash
Selain performa yang mengungguli kompetitor, Qwen3-ASR-Flash juga hadir dengan beberapa fitur kunci yang membuatnya berbeda:
- Akurasi Tinggi
Model ini konsisten mencatat error rate rendah di berbagai bahasa dan skenario, termasuk aksen lokal maupun kondisi akustik yang sulit. - Singing Voice Recognition
Tidak banyak model AI yang bisa mengatasi musik, tapi Qwen3-ASR-Flash mampu mengenali lirik lagu meski ada background instrument. - Contextual Biasing
Pengguna bisa menambahkan teks pendukung dalam format apa pun—dari daftar kata kunci sederhana hingga dokumen panjang—untuk hasil transkripsi yang lebih relevan. - Deteksi Bahasa Otomatis
Qwen3-ASR-Flash mampu mengenali 11 bahasa sekaligus, lengkap dengan aksen dan dialeknya, serta bisa menolak segmen non-speech seperti hening atau noise. - Robustness
Dirancang agar tetap stabil dan akurat bahkan di lingkungan dengan suara bising atau pola bahasa yang kompleks.
Dukungan Bahasa & Dialek
alah satu kekuatan terbesar Qwen3-ASR-Flash adalah kemampuannya memahami bahasa yang luas, termasuk dialek dan aksen yang sering jadi tantangan bagi model transkripsi lain.
- Bahasa Cina: Mendukung Mandarin serta dialek besar seperti Cantonese, Sichuanese, Minnan (Hokkien), dan Wu.
- Bahasa Inggris: Bisa menangani aksen British, American, hingga variasi regional lainnya.
- Bahasa Lain: Mencakup total 11 bahasa, termasuk Prancis, Jerman, Spanyol, Italia, Portugis, Rusia, Jepang, Korea, dan Arab.
Sayangnya, Bahasa Indonesia belum masuk daftar dukungan dirilis awal ini. Mengingat jumlah pengguna internet di Indonesia yang besar, ada kemungkinan bahasa kita akan ikut ditambahkan di update berikutnya.
Dengan dukungan multibahasa ini, Qwen3-ASR-Flash jelas diposisikan sebagai solusi transkripsi global, bukan hanya untuk pasar lokal di Tiongkok.
Perilisan Qwen3-ASR-Flash ini nunjukin kalau persaingan AI udah nggak melulu soal chatbot.
Transkripsi suara ternyata juga jadi arena penting, apalagi dipakai di banyak sektor dari meeting kerja, layanan customer service, sampai musik.Walaupun Bahasa Indonesia belum didukung, langkah Alibaba ini tetap menarik untuk diikuti.
Kalau performanya konsisten seperti hasil uji, Qwen3-ASR-Flash bisa jadi standar baru dalam dunia AI transcription tools, sekaligus membuka jalan untuk pemakaian AI yang lebih praktis di kehidupan sehari-hari.
Dan mungkin, sebentar lagi kita bisa bilang: dengar jelas, transkrip cerdas, tanpa ribet.
Referensi:
- https://www.artificialintelligence-news.com/news/alibaba-new-qwen-model-supercharge-ai-transcription-tools/
- https://qwen.ai/blog?id=824c40353ea019861a636650c948eb8438ea5cf2&from=home.latest-research-list