Gradium Perkenalkan Model Terjemahan Suara Real-Time yang Unggul

prajurit.id

3 hours ago

prajurit.id – Gradium baru saja meluncurkan dua model terjemahan ucapan waktu nyata, yaitu “stt-translate” dan “s2s-translate”. Model ini mendukung lima bahasa dan mampu menyampaikan hasil terjemahan secara langsung di browser. Inovasi ini diharapkan dapat mengubah cara komunikasi lintas bahasa menjadi lebih cepat dan efisien.

Table of Contents

Toggle

Model Terjemahan Inovatif

Gradium memperkenalkan dua model baru ini dengan klaim bahwa keduanya menawarkan keseimbangan yang lebih baik antara akurasi dan latensi dibandingkan model sebelumnya, yaitu “gpt-realtime-translate” dan “gemini-3.5-live-translate”. Keunggulan tambahan dari model ini adalah kemampuan pengendalian suara keluaran, termasuk cloning suara, yang tidak dimiliki oleh model pesaing.

Berdasarkan informasi yang tersedia, “stt-translate” berfungsi untuk mengubah ucapan dari satu bahasa menjadi teks dalam bahasa lain. Model ini mendukung pengubahan antara bahasa Inggris, Prancis, Jerman, Spanyol, dan Portugis. Di sisi lain, “s2s-translate” mengkonversi audio berbicara dalam satu bahasa menjadi audio berbicara dalam bahasa lain. Kedua model ini diharapkan mampu memfasilitasi percakapan antar penutur berbagai bahasa secara lebih natural.

Kelebihan dan Perbandingan Sistem

Dalam peluncuran model ini, Gradium menjelaskan bahwa mereka menggunakan pendekatan yang lebih efisien dengan menyatukan dua tahapan—transkripsi dan terjemahan—dalam satu proses di dalam model ucapan. Ini berarti tidak ada tunggu pada transkrip tengah dan tidak ada transfer antar sistem, yang biasanya terjadi pada model berbasis tiga tahapan.

Model-model ini sudah teruji melalui dataset percakapan sehari-hari yang mencakup topik seperti pekerjaan, perjalanan, dan cuaca, bukan hanya teks yang diatur. Hasil benchmark menunjukkan bahwa Gradium unggul dalam metrik akurasi BLEU dan MetricX dibandingkan dengan “gemini-3.5-live-translate”.

Latensi dan Akurasi

Rata-rata latensi untuk model “s2s-translate” adalah 3,0 detik, lebih cepat daripada “gpt-realtime-translate” yang memiliki latensi 3,6 detik, namun sedikit lebih lambat dibandingkan “gemini-3.5-live-translate” yang mencapai 2,9 detik. Meskipun ada perbedaan dalam latensi, Gradium unggul dalam hal akurasi, memungkinkan pengguna untuk memilih suara keluaran dan bahkan dapat melakukan cloning suara mereka sendiri, yang tidak disediakan oleh model lain.

Penggunaan dalam Berbagai Sektor

Model-model ini memiliki potensi luas untuk digunakan dalam berbagai sektor. Misalnya, dalam bidang konferensi dan penyuluhan, model ini dapat digunakan untuk mendubbing atau menerjemahkan pidato secara real-time. Dalam konteks layanan pelanggan, agen yang berbicara dalam bahasa Inggris dapat berkomunikasi dengan pengguna yang berbicara bahasa Jerman dan sebaliknya, tanpa hambatan bahasa yang berarti.

Dalam pertemuan internasional, peserta dapat mendengarkan terjemahan langsung dalam bahasa mereka masing-masing. Selain itu, model “stt-translate” juga dapat digunakan secara standalone untuk memberikan transkrip tertulis dalam situasi di mana suara tidak diperlukan, sehingga meningkatkan aksesibilitas.

Kesimpulan

Gradium melalui peluncuran dua model terjemahan waktu nyata ini menunjukkan inovasi yang signifikan dalam teknologi pemrosesan bahasa alami. Dengan fokus pada latensi rendah dan akurasi tinggi, serta kemampuan pengendalian suara keluaran, Gradium berpotensi menjadi solusi terdepan dalam menanggulangi tantangan komunikasi multibahasa. Inovasi ini tidak hanya memberi kemudahan dalam interaksi sehari-hari tetapi juga membuka peluang baru dalam berbagai industri yang memerlukan komunikasi efektif antarbahasa.