Dikenal juga dengan pengenal suara otomatis (automatic
speech recognition) atau pengenal suara komputer (computer speech recognition).
Merupakan salah satu fitur antarmuka telematika yang merubah suara menjadi
tulisan. Istilah ‘voice recognition’ terkadang digunakan untuk menunjuk ke
speech recognition dimana sistem pengenal dilatih untuk menjadi pembicara istimewa,
seperti pada kasus perangkat lunak untuk komputer pribadi, oleh karena itu
disana terdapat aspek dari pengenal pembicara, dimana digunakan untuk mengenali
siapa orang yang berbicara, untuk mengenali lebih baik apa yang orang itu
bicarakan. Speech recognition merupakan istilah masukan yang berarti dapat
mengartikan pembicaraan siapa saja.
Speech recognation (ASR)
adalah suatu pengembangan teknik dan sistem yang memungkinkan komputer untuk
menerima masukan berupa kata yang diucapkan. Teknologi ini memungkinkan suatu
perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan cara
digitalisasi kata dan mencocokkan sinyal digital tersebut dengan suatu pola
tertentu yang tersimpan dalam suatu perangkat.
Pengenalan
ucapan (speech recognation)
dalam perkembangan teknologinya merupakan bagian dari pengenalan suara (proses
identifikasi seseorang berdasarkan suaranya). Pengenalan suara sendiri terbagi
menjadi du kategori, yaitu:
- Piranti pengenalan kata (word recognation) yang mampu merespon ucapan-ucapan secara indovidu atau perintah-perintah yang menggunakan teknik yang dikenal sebagai speaker verification. Pertama kali sistem akan membangkitkan suatu template untuk mengenali suara user.
- Piranti pengenalan kalimat (speech recognation) yang mampu mengenali hubungan antar kata terucap di dalam kalimat atau frase. Teknik - teknik statistik dipakai dalam hal pola perekaman suara yang akan dicocokkan.
Berdasarkan
kemampuan dalam mengenal kata yang diucapkan, terdapat 5 jenis pengenalan kata,
yaitu :
- Kata-kata yang terisolasi : Proses pengidentifikasian kata yang hanya dapat mengenal kata yang diucapkan jika kata tersebut memiliki jeda waktu pengucapan antar kata
- Kata-kata yang berhubungan : Proses pengidentifikasian kata yang mirip dengan kata-kata terisolasi, namun membutuhkan jeda waktu pengucapan antar kata yang lebih singkat.
- Kata-kata yang berkelanjutan : Proses pengidentifikasian kata yang sudah lebih maju karena dapat mengenal kata-kata yang diucapkan secara berkesinambungan dengan jeda waktu yang sangat sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumit karena membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan tanpa jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata secara natural.
- Kata-kata spontan: Proses pengidentifikasian kata yang dapat mengenal kata-kata yang diucapkan secara spontan tanpa jeda waktu antar kata
- Verifikasi atau identifikasi suara: Proses pengidentifikasian kata yang tidak hanya mampu mengenal kata, namun juga mengidentifikasi siapa yang berbicara
Semua
metode dasar proses pengenalan suara terdiri dari dua fase operasi, yaitu:
- Proses training. Pada proses ini sistem belajar dari referensi pola yang berupa perbedaan pola sinyal suara misal frase, kata, fonem yang akan mengisi vocabulari dari sistem. Setiap referensi di pelajari dari kata yang dikatakan yang kemudian disimpan dalam template dan telah mengalami metode untuk merata-rata dan karakteristik statistik dan parameter statistik.
- Proses recognation. Pada proses ini sistem akan diberikan inputan yang belum diketahui dan akan di identifikasi berdasarkan pola template yang telah didapatkan pada proses training.
Ø
Signal processign frontend digunakan
untuk mengkonversi sinyal suara kedalam bentuk sequence feature vector yang akan digunakan pada saat
klasifikasi.
Ø
Accoustic modelling digunakan
untuk memodelkan secara statistik hasil training yang telah dilakukan kedalam
sebuah template.
Ø
Language modelling digunakan
untuk memodelkan bentuk kata baik berupa kata, fonem, ataupun kalimat.
Alat
pengenal ucapan, yang sering disebut dengan speech recognizer, membutuhkan sampel kata sebenarnya yang
diucapkan dari pengguna. Sampel kata akan didigitalisasi, disimpan dalam
komputer, dan kemudian digunakan sebagai basis data dalam mencocokkan kata yang
diucapkan selanjutnya. Sebagian besar alat pengenal ucapan sifatnya masih
tergantung kepada pengeras suara. Alat ini hanya dapat mengenal kata yang
diucapkan dari satu atau dua orang saja dan hanya bisa mengenal kata-kata
terpisah, yaitu kata-kata yang dalam penyampaiannya terdapat jeda antar kata.
Hanya sebagian kecil dari peralatan yang menggunakan teknologi ini yang
sifatnya tidak tergantung pada pengeras suara. Alat ini sudah dapat mengenal
kata yang diucapkan oleh banyak orang dan juga dapat mengenal kata-kata
kontinu, atau kata-kata yang dalam penyampaiannya tidak terdapat jeda antar
kata.
Aplikasi
dari alat pengenal suara dapata ditemukan dalam berbagai bidang, diantaranya
adalah:
a)
Bidang komunikasi
Ø
Komando Suara
Komando
Suara adalah suatu program pada komputer yang melakukan perintah berdasarkan
komando suara dari pengguna. Contohnya pada aplikasi Microsoft Voice yang
berbasis bahasa Inggris. Ketika pengguna mengatakan “Mulai kalkulator” dengan
intonasi dan tata bahasa yang sesuai, komputer akan segera membuka aplikasi
kalkulator. Jika komando suara yang diberikan sesuai dengan daftar perintah
yang tersedia, aplikasi akan memastikan komando suara dengan menampilkan
tulisan “Apakah Anda meminta saya untuk ‘mulai kalkulator’?”. Untuk melakukan
verifikasi, pengguna cukup mengatakan “Lakukan” dan komputer akan langsung
beroperasi.
Ø
Pendiktean
Pendiktean
adalah sebuah proses mendikte yang sekarang ini banyak dimanfaatkan dalam
pembuatan laporan atau penelitian. Contohnya pada aplikasi Microsoft Dictation
yang merupakan aplikasi yang dapat menuliskan apa yang diucapkan oleh pengguna
secara otomatis.
Ø
Telepon
Pada
telepon, teknologi pengenal ucapan digunakan pada proses penekanan tombol
otomatis yang dapat menelpon nomor tujuan dengan komando suara.
b)
Bidang kesehatan
Alat
pengenal ucapan banyak digunakan dalam bidang kesehatan untuk membantu para
penyandang cacat dalam beraktivitas. Contohnya pada aplikasi Antarmuka Suara
Pengguna atau Voice User
Interface (VUI) yang menggunakan teknologi pengenal ucapan dimana
pengendalian saklar lampu misalnya, tidak perlu dilakukan secara manual dengan
menggerakkan saklar tetapi cukup dengan mengeluarkan perintah dalam bentuk
ucapan sebagai saklarnya. Metode ini membantu manusia yang secara fisik tidak
dapat menggerakkan saklar karena cacat pada tangan misalnya. Penerapan VUI ini
tidak hanya untuk lampu saja tapi bisa juga untuk aplikasi-aplikasi kontrol
yang lain.
c)
Bidang militer
Ø
Pelatihan Penerbangan
Aplikasi
alat pengenal ucapan dalam bidang militer adalah pada pengatur lalu-lintas
udara atau yang dikenal dengan Air Traffic Controllers (ATC) yang dipakai oleh
para pilot untuk mendapatkan keterangan mengenai keadaan lalu-lintas udara
seperti radar, cuaca, dan navigasi. Alat pengenal ucapan digunakan sebagai
pengganti operator yang memberikan informasi kepada pilot dengan cara
berdialog.
Ø
Helikopter
Aplikasi
alat pengenal ucapan pada helikopter digunakan untuk berkomunikasi lewat radio
dan menyesuaikan sistem navigasi. Alat ini sangat diperlukan pada helikopter
karena ketika terbang, sangat banyak gangguan yang akan menyulitkan pilot bila
harus berkomunikasi dan menyesuaikan navigasi dengan terlebih dahulu memencet
tombol tertentu.
Kelebihan
dari peralatan yang menggunakan alat pengenal suara (Speech Recognizer), yaitu:
- Cepat. Teknologi ini mempercepat transmisi informasi dan umpan balik dari transmisi tersebut. Contohnya pada komando suara. Hanya dalam selang waktu sekitar satu atau dua detik setelah kita mengkomandokan perintah melalui suara, komputer sudah memberi umpan balik atas komando kita.
- Mudah digunakan. Kemudahan teknologi ini juga dapat dilihat dalam aplikasi komando suara. Komando yang biasanya kita masukkan ke dalam komputer dengan menggunakan tetikus atau papan ketik kini dapat dengan mudahnya kita lakukan tanpa perangkat keras, yakni dengan komando suara.
Sedangkan
kekurangan dari peralatan menggunakan alat pengenal suara (Speech Recognizer),
yaitu :
- Rawan terhadap ganguan. Hal ini disebabkan oleh proses sinyal suara yang masih berbasis frekuensi. Ketika sebuah informasi dalam sinyal suara mempunyai komponen frekuensi yang sama banyaknya dengan komponen frekuensi gangguannya, akan sulit untuk memisahkan gangguan dari sinyal suara
- Jumlah kata yang dapat dikenal terbatas. Hal ini disebabkan pengenal ucapan bekerja dengan cara mencari kemiripan dengan basis data yang dimiliki.
Tidak ada komentar:
Posting Komentar