Speech Recognition Dengan Whisper Dalam Bahasa Indonesia
Main Article Content
Perkembangan teknologi kecerdasan buatan telah mendorong kemajuan dalam pengenalan suara (speech recognition), terutama dalam mendukung komunikasi digital yang lebih efisien. Salah satu model terbaru yang banyak digunakan adalah Whisper, yang dikembangkan oleh OpenAI dengan kemampuan pengenalan suara multibahasa yang diklaim memiliki akurasi tinggi. Namun, tantangan utama dalam implementasi teknologi ini di Indonesia adalah keterbatasan sumber daya data dalam bahasa lokal serta variasi aksen yang signifikan. Oleh karena itu, penelitian ini dilakukan untuk mengevaluasi kinerja model Whisper dalam mengenali dan mentranskripsi suara berbahasa Indonesia. Penelitian ini bertujuan untuk menganalisis tingkat akurasi Whisper dalam pengenalan ucapan bahasa Indonesia berdasarkan Word Error Rate (WER) serta membandingkannya dengan model XLS-R dan XLSR-53. Metode yang digunakan dalam penelitian ini adalah pendekatan komparatif dengan melakukan fine-tuning terhadap model Whisper menggunakan dataset Common Voice 13 dalam bahasa Indonesia. Evaluasi model dilakukan dengan mengukur WER pada tahap pelatihan dan pengujian. Hasil penelitian menunjukkan bahwa model Whisper memiliki performa terbaik dibandingkan model XLS-R dan XLSR-53 dalam mengenali ucapan bahasa Indonesia. Nilai WER Training yang diperoleh adalah 22.33505%, sedangkan nilai WER Testing adalah 19.774909%. Hal ini menunjukkan bahwa model Whisper lebih unggul dalam menangani variasi aksen dan kondisi akustik dibandingkan dengan model lainnya. Keunggulan ini terutama disebabkan oleh pelatihan berbasis data yang lebih besar serta kemampuan adaptasi model terhadap berbagai bahasa. Implikasi penelitian ini memberikan kontribusi dalam pengembangan teknologi speech recognition berbahasa Indonesia serta meningkatkan aksesibilitas bagi pengguna dalam berbagai sektor, seperti pendidikan, layanan publik, dan teknologi komunikasi.