Cara Menggunakan Speech Recognition Menggunakan Python

speech recognition

Cara Menggunakan Speech Recognition Menggunakan Python

Speech recognition memungkinkan komputer mengenali dan memproses suara manusia. Ini merupakan implementasi sederhana yang dapat dilakukan siapa saja pada device masing-masing. Baik itu linux, mac, atau windows dapat membuat pengenalan suara berbasis python secara sederhana.

Meskipun implementasinya sederhana tidak menutup kemungkinan untuk mengembangkan lagi secara lebih luas. Disini kami hanya akan membahas pengantarnya saja secara umum sehingga mudah dicerna oleh orang awam.

Sehingga teknologi pengenalan suara ini tidak akan menjadi barang asing lagi bagi masyarakat awam. Artikel ini akan membimbing Anda melalui langkah-langkah penggunaan Speech recognition menggunakan bahasa pemrograman Python.

Langkah Penggunaan Speech Recognition dengan Python

Python Programming Language Is Considered Better Than Other Languages -  DataWider

Pada dasarnya bagaimana Anda melakukan speech recognition dengan python? Tentu saja ada beberapa langkah mulai dari instalasi library, importing, recording, recognition, sampai error capture.

Apabila Anda memang ingin mengetahui bagaimana detail penggunaannya kami sudah mempersiapkan materi dasar. Berikut ini adalah beberapa langkah umum dalam menggunakan pengenalan suara memakai python.

1. Instalasi Library

Instalasi library merupakan langkah pertama dalam pembuatan speech recognition AI. berikut ini adalah beberapa langkah umum yang dapat Anda terapkan sendiri ketika ingin melakukan pemasangan.

  • Membuka command line atau terminal

Kita perlu membuka command line (Windows) atau terminal (linux) untuk memulai pemasangan. Disini kita akan memberikan input perintah untuk instalasi library tergantung pada bahasa digunakan.

  • Menggunakan Pip (Python installation package)

Pemasangan juga dapat kita lakukan menggunakan PIP di mana Anda tidak perlu lagi membuka terminal. PIP merupakan alat yang memudahkan pengguna untuk mengunduh sekaligus melakukan pemasangan library tersedia di dalam python package index.

  • Menjalankan perintah instalasi

Apabila command line sudah terbuka kita hanya perlu memasukkan perintah untuk melakukan instalasi. Anda bisa memasukkan perintah “pip install SpeechRecognition”, dan menunggu beberapa saat pemasangannya.

  • Proses pemasangan

Setelah kita menekan enter secara otomatis PIP akan mulai melakukan pengunduhan perpustakaan bahasa speech recognition python. Nantinya library bahasa ini dapat kita gunakan untuk mengenali input suara.

  • Pengecekan Instalasi

Jangan lupa juga untuk melakukan pengecekan apakah instalasinya berhasil dilakukan atau tidak. Caranya adalah dengan mencoba mengimpor pengenalan suara menggunakan command “import speech_recognition as sr”.

Proses instalasi tersebut tentu saja tidak terlalu kompleks untuk dilakukan sendiri. Anda bahkan bisa langsung mencoba sekaran menggunakan panduan tersebut dan memasang library bahasa pada device.

2. Import Library dan Pengenalan Suara

Apabila kita sudah melakukan pemasangan speech recognition langkah berikutnya adalah melakukan import library. Tujuannya agar mesin mampu mengenali input suara, berikut ini adalah langkah-langkahnya.

  • Import library

Import library merupakan langkah untuk memperkenalkan fungsi pada device yang digunakan. Sehingga melalui python, mesin dapat mengenali input suara menggunakan script sederhana “import speech_recognition as sr”.

  • Inisialisasi objek recognizer dan mikrofon

Apabila impor modul sudah selesai kita perlu juga mengintegrasikan mikrofon pada device. Ini merupakan salah satu tahap agar mesin dapat melakukan input suara dan bisa dikenali nantinya oleh modul.

Cara untuk inisialisasi mikrofon cukup mudah menggunakan script pendek “recognizer = sr.Recognizer()” dan “microphone = sr.Microphone()”. Input tersebut berfungsi untuk memperkenalkan mikrofon kepada device saat nanti digunakan sebagai masukan.

  • Tes perekaman suara

Apabila mikrofon sudah terpasang tentu saja kita bisa langsung melakukan perekaman suara. Namun sebelum itu harus memasukkan script terlebih dulu agar nantinya ada UI kemudian mesin mampu mengenalinya.

“with microphone as source:”, “print(“Katakan sesuatu…”)”, “audio = recognizer.listen(source)”. Tiga line tersebut kita gunakan untuk membuat UI sederhana agar rekaman suaranya berjalan.

3. Merekam Suara

Metode perekaman suara sama seperti yang sudah dijelaskan pada proses tes rekaman. Jadi Anda dapat menerapkan script tadi untuk merekam suara yang akan dipakai dalam field testing.

Pada saat melakukan perekaman suara untuk speech recognition sebaiknya memperhatikan tiga aspek. Berikut ini adalah faktor penting saat melakukan perekaman agar nanti hasilnya lebih bagus.

  • Kualitas mikrofon

Pastikan menggunakan mikrofon dengan kualitas yang bagus sehingga input suara dapat masuk secara optimal. Karena mesin tentu akan lebih mengenali suaranya apabila input dari pengguna bersih.

  • Mitigasi noise

Lakukan mitigasi noise agar mesinnya semakin mudah melakukan pengenalan terhadap masukan. Kita bisa menggunakan ruang kedap udara, muffler, atau paling sederhana pindah di tempat yang sepi.

  • Intonasi

Tidak jarang intonasi juga sangat berpengaruh terhadap kualitas perekaman dan pengenalannya. Oleh sebab itu gunakan intonasi datar agar mesinnya juga mudah mengenali masukan dari pengguna.

4. Mengenali Suara

Salah satu metode pengenalan suara yang paling mudah dan dapat kita terapkan sekarang juga adalah memakai recognize google. Ini merupakan salah satu metode yang sudah disediakan library untuk mengenali masukan suara kemudian mengubah jadi teks.

Jadi nantinya pengguna dapat langsung melakukan test pada speech recognition python tanpa harus memasang aplikasi lainnya. Ada beberapa line script yang perlu kita masukkan jika ingin melakukan pengenalan sebagai berikut.

“Try:

recognized_text = recognizer.recognize_google(audio)

print(“Anda mengatakan:”, recognized_text)

except sr.UnknownValueError:

print(“Maaf, suara tidak dikenali”)

except sr.RequestError as e:

print(“Terjadi kesalahan pada layanan Pengenalan Suara Google:”, str(e))”

Tentu saja metode ini memiliki kekurangan dan kelebihan masing-masing saat diimplementasikan. Berikut adalah kelebihan dan keterbatasan yang akan kita peroleh ketika menggunakannya.

  • Kelebihan

Google Web Speech API memiliki kemampuan pengenalan suara yang canggih dan terus diperbarui. Otomatis kita tidak perlu khawatir ketika melakukan masukan menggunakan aksen atau bahasa lainnya.

Kemudian hasil pengenalan suaranya juga cenderung lebih akurat apabila dibandingkan memakai model basis lokal. Pengguna akan memperoleh library jauh lebih besar dibandingkan membuat model basis lokal sendiri.

  • Keterbatasan

Keterbatasan metode ini salah satunya adalah harus ada koneksi internet agar bisa berfungsi. Kemudian Google Web Speech API mungkin juga memiliki batasan terutama di sektor bahasa slang.

5. Penanganan Kesalahan

Ada beberapa pendekatan dalam penanganan kesalahan speech recognition yang dapat kita lakukan. Berikut ini adalah pendekatan yang dapat Anda lakukan untuk mitigasi kesalahan saat pengenalan masukan bahasa.

  • Penanganan umum kesalahan

Secara umum menggunakan blok script “try” yang sudah kami jelaskan tadi dapat dipakai untuk langkah mitigasi. Karena dalam blok tersebut ketika kesalahan terjadi mesin akan melakukan pengulangan masukan.

  • Penanganan khusus kesalahan

Penanganan khusus ini sebenarnya tergantung pada aplikasi yang kita gunakan dalam pembuatan. Misalnya saat menerapkan metode Google Web Speech API seperti tadi koneksi internet tiba-tiba putus.

Kita bisa memberikan UI spesifik yang menyatakan bahwa ada gangguan pada koneksi. Sekali lagi problem solving ini tergantung pada bagaimana field testing dan juga aplikasi yang digunakan.

  • Retry atau alternatif

Model blok retry juga dapat kita gunakan apabila kesalahannya berasal dari masukan pengguna. Nantinya pengguna tinggal melakukan masukan suara ulang agar mesinnya dapat mengenali.

Secara garis besar menggunakan pembahasan tadi kita sudah tahu bagaimana speech recognition python dibuat. Jika Anda ingin implementasi lebih advance disarankan bekerjasama dengan vendor profesional.

Salah satu opsi IT solution company yang dapat Anda gunakan untuk mengimplementasikan pengenalan suara pada mesin adalah PT. BSB. Kami merupakan perusahaan yang bergerak di sektor IT mulai dari server, networking, software, sampai hardware.

Sebagai sebuah perusahaan yang berpengalaman tentu kualitas pelayanan kami tidak perlu diragukan lagi. Anda bisa menghubungi no WA dibawah ini untuk melakukan konsultasi lebih dulu. Dapatkan solusi IT terbaik dan berpengalaman bersama PT BSB.

Setelah kita mengenali garis besar implementasi pengenalan suara tentu tertarik untuk menerapkannya. Jika tertarik mengembangkan speech recognition untuk kebutuhan korporasi langsung saja hubungi PT. BSB.

Baca juga : Mengenal Apa Itu Computer Vision dan Kegunaannya

No Comments

Post A Comment

Contact Us