Speech synthesis adalah transformasi dari teks ke arah suara (speech). Speech synthesis merupakan
hasil kecerdasan buatan dari pembicaraan manusia. Komputer yang digunakan untuk
tujuan ini disebut speech syhthesizer dan dapat diterapkan pada perangkat lunak
dan perangkat keras.
Transformasi
ini mengkonversi teks ke pemadu suara (speech
synthesis) yang sebisa mungkin dibuat menyerupai suara nyata,
disesuaikan dengan aturan – aturan pengucapan bahasa. TTS (text to speech) dimaksudkan untuk
membaca teks elektronik dalam bentuk buku, dan juga untuk menyuarakan teks
dengan menggunakan pemaduan suara. Sistem ini dapat digunakan sebagai sistem
komunikasi, pada sistem informasi referral, dapat diterapkan untuk membantu
orang-orang yang kehilangan kemampuan melihat dan membaca.
Ada
beberapa masalah yang terdapat pada pemaduan suara, yaitu:
- User sangat sensitif terhadap variasi dan informasi suara. Oleh sebab itu, mereka tidak dapat memberikan toleransi atas ketidaksempurnaan pemadu suara.
- Output dalam bentuk suara tidak dapat diulang atau dicari dengan mudah.
- Meningkatkan keberisikan pada lingkungan kantor atau jika menggunakan handphone, maka akan meningkatkan biaya pengeluaran.
Lingkungan
dari aplikasi pemadu suara adalah:
- Bagi tunanetra, pemadu suara menawarkan media komunkasi dimana mereka dapat memiliki akses yang tidak terbatas.
- Lingkungan dimana visual dan haptic skill user berfokus pada hal lain. Contohnya: sinyal bahaya pada kokpit pesawat udara.
Upaya
yang paling awal untuk menghasilkan lahirnya pemandu suara, pada abad XVIII.
Terlepas dari kenyataan bahwa upaya pertama adalah bentuk mesin mekanis,
kita dapat mengatakan hari ini bahwa synthesizer sudah berkualitas
tinggi. Pada tahun 1779 di
St Petersburg, Rusia Profesor Kratzenshtein Kristen fisiologis
menjelaskan perbedaan antara lima vokal panjang (/ A /, / e /, / i /, / o
/, dan / u /) dan membuat alat untuk menghasilkan mereka artifisial.
Tahun 1791 di Wina, Wolfgang von Kempelen memperkenalkan nya “Akustik-Mekanik
Mesin Speech”. Dalam sekitar pertengahan 1800-an Charles Wheatstone
dibangun terkenal versi mesin berbicara von Kempelen’s. Generasi dari
sistem pemaduan suara ini dapat dibagi ke dalam 3 masa, yaitu:- Generasi pertama (1962-1977). Format sintesis dari fonem adalah teknologi dominan. Teknologi ini memanfaatkan aturan berdasarkan penguraian fonetik pada kalimat untuk kontur frekuensi forman. Beberapa sintesis masih miskin atau kurang dalam kejelasan dan kealamiannya.
- Generasi kedua (1977-1992). Metode pemadu suara adalah diphone diwakilkan dengan parameter LPC. Hal tersebut menunujukkan bahwa kejelasan yang baik pada pemadu suara dapat diperoleh dengan andal dari input teks dengan menggabungkan diphone yang sesuai dengan unit. Kejelasan meningkat selama sintesis forman, tetapi kealamian dari pemadu suara masih tetap rendah.
- Generasi ketiga (1992-sekarang). Generasi ini ditandai dengan metode ‘ sintesis pemilihan unit’ yang diperkenalkan dan disempurnakan oelh Sagisaka di Labs ATR Kyoto. Hasil dari pemandu suara pada periode ini sangat mendekati human-generated speech pada bagian kejelasan dan kealamian,
AT
& T Bell Laboratories (Lucent Technologies) juga memiliki tradisi yang
sangat panjang tentang pemandu suara (speech
synthesis). TTS lengkap yang pertama didemostrasikan di Boston pada
tahun 1972 dan diliris pada tahun 1973. Hal ini didasarkan pada model
artikulatoris yang sikembangkan oleh Ceceil Coker (Klatt 1987). Pengembangan
proses dari sistem penggabungan sintesis ini dimulai oleh Joseph Olive pada
pertengahan tahun 1970-an (Bell Labs 1997). Sistem ini sekarang sudah tersedia
untuk bahasa Inggris, Perancis, Spanyol, Italia, Jerman, Rusia, Rumania, Cina,
dan Jepang (Mcbius et al 1996).
Tidak ada komentar:
Posting Komentar