Memahami Pengecaman Suara

Cuba Instrumen Kami Untuk Menghapuskan Masalah





Bayangkan diri anda duduk santai di sofa dan hanya memesan komputer atau komputer riba atau telefon bimbit anda untuk menjalankan tugas mudah seperti menaip surat atau menjalankan beberapa perintah. Adakah mungkin?

Sudah tentu, di sinilah pengecaman Suara muncul dalam gambar.




Mengikut definisi itu adalah proses pengecaman ucapan manusia dan menyahkodkannya ke dalam bentuk teks.

Prinsip

Prinsip asas dari pengecaman suara melibatkan kenyataan bahawa ucapan atau kata-kata yang diucapkan oleh mana-mana manusia menyebabkan getaran di udara, yang dikenali sebagai gelombang bunyi. Gelombang berterusan atau analog ini didigitalkan dan diproses dan kemudian disahkodkan menjadi perkataan yang sesuai dan kemudian ayat yang sesuai.



pengecaman suara

Komponen Sistem Pengecaman Pertuturan

Oleh itu, apa yang terdiri daripada Sistem Pengenalan Ucapan asas?

Komponen Sistem Pengecaman Pertuturan

  • Perisian yang menangkap ucapan : Terdiri dari mikrofon, yang mengubah isyarat gelombang suara menjadi isyarat elektrik dan Penukar Analog ke Digital yang mengambil sampel dan mendigitalkan isyarat analog untuk mendapatkan data diskrit yang dapat difahami oleh komputer.
  • Modul Isyarat Digital atau Pemproses : Ia melakukan pemprosesan pada isyarat pertuturan mentah seperti penukaran domain frekuensi, memulihkan hanya maklumat yang diperlukan dll.
  • Penyimpanan isyarat yang diproses : Ucapan pra-proses disimpan dalam memori untuk menjalankan tugas pengecaman pertuturan selanjutnya.
  • Corak Ucapan Rujukan : Komputer atau sistem terdiri daripada corak atau templat pertuturan yang telah ditentukan yang sudah disimpan dalam memori, untuk digunakan sebagai rujukan untuk mencocokkan.
  • Algoritma pemadanan corak : Isyarat pertuturan yang tidak diketahui dibandingkan dengan corak pertuturan rujukan untuk menentukan perkataan sebenar atau corak kata.
Kerja Sistem

Sekarang mari kita lihat bagaimana keseluruhan sistem berfungsi.


Kerja Sistem

  • Ucapan dapat dilihat sebagai bentuk gelombang akustik, iaitu isyarat yang membawa maklumat mesej. Manusia normal dengan kadar pergerakan artikulator (organ pertuturan) yang terhad dapat menghasilkan pertuturan pada kadar purata 10 bunyi sesaat. Kadar maklumat purata sekitar 50-60 bit / saat. Ini bermaksud sebenarnya hanya 50 bit / saat maklumat diperlukan dalam isyarat pertuturan. Bentuk gelombang akustik ini ditukar kepada isyarat elektrik analog oleh mikrofon. Penukar Analog ke Digital menukar isyarat analog ini ke sampel digital dengan mengambil ukuran gelombang tepat pada selang waktu yang berbeza.
  • Isyarat yang didigitalkan terdiri daripada aliran isyarat berkala yang disampel pada 16000 kali sesaat dan tidak sesuai untuk dilaksanakan secara sebenar pengenalan suara proses kerana corak tidak dapat dijumpai dengan mudah. Untuk mengekstrak maklumat sebenar, isyarat dalam domain masa ditukar menjadi isyarat dalam domain frekuensi. Ini dilakukan oleh Digital Signal Processor menggunakan teknik FFT. Dalam isyarat digital, komponen selepas setiap 1/100ikasesaat dianalisis dan spektrum frekuensi untuk setiap komponen tersebut dikira. Dengan kata lain isyarat digital dibahagikan kepada bahagian kecil frekuensi amplitud.
  • Setiap segmen atau graf frekuensi mewakili pelbagai bunyi yang dibuat oleh manusia. Komputer melakukan pemadanan segmen yang tidak diketahui dengan fonetik yang tersimpan dari bahasa tertentu. Pemadanan corak ini dilakukan dengan 3 cara:

Menggunakan pendekatan fonetik Akustik : Dalam pendekatan fonetik Akustik, umumnya Model Markov Tersembunyi digunakan. Model ini mengembangkan model kebarangkalian non deterministik untuk pengecaman pertuturan. Model ini terdiri daripada dua pemboleh ubah - keadaan fonem tersembunyi yang tersimpan dalam memori komputer dan segmen frekuensi yang dapat dilihat dari isyarat digital. Setiap fonem mempunyai kebarangkalian tersendiri dan segmen dipadankan dengan fonem mengikut kebarangkalian dan fonem yang dipadankan kemudian dikumpulkan bersama untuk membentuk perkataan yang betul mengikut peraturan tatabahasa yang tersimpan dalam bahasa tersebut.

Menggunakan pendekatan pengecaman corak : Dalam pendekatan pengecaman corak, sistem dilatih dengan corak pertuturan tertentu untuk sebarang bahasa dan corak pertuturan yang tidak diketahui dibandingkan dengan corak pertuturan rujukan dengan menentukan jarak antara isyarat menggunakan teknik melengkung masa.

Menggunakan kecerdasan buatan : Pendekatan Kecerdasan Buatan didasarkan pada penggunaan sumber pengetahuan asas seperti pengetahuan tentang bunyi yang dituturkan berdasarkan pengukuran spektrum, pengetahuan tentang kata-kata makna dan sintaksis yang tepat.

Faktor-faktor yang bergantung kepada Sistem Pengenalan Ucapan

Sistem pengecaman pertuturan bergantung pada faktor berikut:

  • Perkataan Terpencil : Perlu ada jeda antara kata-kata berturut-turut yang diucapkan kerana kata-kata berterusan dapat bertindih sehingga menyukarkan sistem untuk memahami ketika sesuatu kata bermula atau berakhir. Oleh itu, perlu ada kesunyian antara kata-kata berturut-turut.
  • Penceramah Tunggal : Banyak pembesar suara yang berusaha memberikan input ucapan pada masa yang sama boleh menyebabkan pertindihan isyarat dan gangguan. Sebilangan besar sistem pengecaman pertuturan yang digunakan adalah sistem yang bergantung kepada pembesar suara.
  • Ukuran kosa kata : Bahasa dengan perbendaharaan kata yang besar sukar dipertimbangkan untuk mencocokkan corak daripada bahasa yang mempunyai perbendaharaan kata kecil kerana kemungkinan kata-kata yang tidak jelas lebih rendah pada yang terakhir.
Sistem Pengecaman Ucapan pada Windows 7

Saya ingin mengesyorkan langkah-langkah berikut untuk mana-mana orang yang menggunakan Windows 7 untuk sistem pengecaman pertuturan

  • Buka Panel Kawalan dari menu mula atau dengan mengklik ikon.
  • Pilih Kemudahan Akses dan kemudian klik Ucapan Pengecaman.
  • Klik seterusnya siapkan mikrofon dan pilih mikrofon desktop dari pilihan yang ada.
  • Seterusnya ikuti tutorial pertuturan dan ikuti arahan yang diberikan.
  • Selepas itu, latih komputer anda untuk mendapatkan pilihan yang lebih baik supaya komputer menyimpan corak isyarat pertuturan anda yang pasti. Ini dilakukan dengan mengklik pilihan ‘latih komputer anda untuk lebih memahami anda’ dan kemudian ikuti arahannya.
  • Sekarang mulakan ikon pengecaman pertuturan dan mulakan arahan anda ke komputer. Anda juga boleh menambahkan perkataan anda sendiri ke kamus komputer.
Sistem Pengecaman Ucapan Praktikal: Menggunakan HM2007

Sistem pengecaman pertuturan praktikal boleh dibina menggunakan IC Pengenalan Ucapan HM2007 . HM2007 adalah IC 48 pin yang menyediakan fungsi pengecaman pertuturan. Ia berfungsi dalam dua mod: mod manual atau mod CPU. Dalam kedua mod, IC pertama kali dilatih untuk mengenali kata-kata oleh pengguna yang mengatakan setiap perkataan untuk nombor yang sesuai ditekan pada kekunci. IC menyimpan setiap isyarat perkataan di lokasi memori yang sesuai dengan perkataan. Output data dari IC dihubungkan ke Mikrokontroler dari mana ia dipaparkan di LCD.

Sistem Pengecaman Ucapan Praktikal

Biasanya kita menggunakan mod manual untuk operasi HM2007.

  • HM2007 terdiri daripada pin RDY yang merupakan pin rendah aktif yang menunjukkan IC siap untuk tujuan latihan.
  • Input Suara akan diberikan melalui mikrofon yang disambungkan ke pin MICIN IC.
  • IC dihubungkan dengan papan kekunci yang digunakan untuk memberikan input nombor yang sesuai dengan setiap kata. IC berfungsi dalam dua fungsi - Clear dan Train. Apabila kekunci Train ditekan pada papan kekunci, IC memulakan proses latihannya.
  • Pengguna menekan kekunci nombor sebelum menekan butang fungsi 'Train' dan mengatakan perkataan yang diperlukan kepada mikrofon.
  • IC menghantar isyarat tinggi ke pin ME (Memory Enable) yang disambungkan ke pin ME SRAM yang sesuai. Isyarat data 8 bit yang sesuai dengan nombor yang ditekan disimpan dalam SRAM (RAM luaran) melalui bas luaran.
  • Setelah input suara dikesan, pin RDY berada pada logik tinggi dan IC datang ke keadaan pengecaman, di mana ia memulakan proses pengecaman.
  • Hasil proses diberikan melalui bas data dengan pin DEN (Data Enable) tinggi.
  • Data 8 bit kemudian dapat diberikan kepada Mikrokontroler melalui pemproses Interface siri atau pertama kali menggunakan latch IC 74HC573.
  • Mikrokontroler dihubungkan dengan LCD dan diprogramkan sedemikian rupa sehingga kata yang sesuai ditampilkan pada paparan.

Satu-satunya langkah berjaga-jaga yang perlu diambil adalah untuk tidak menggunakan homonim (perkataan dengan bunyi yang serupa) dan juga untuk menjaga kegembiraan dalam suara.

Jadi, ini adalah bagaimana a sistem pengecaman pertuturan asas berfungsi. Sebarang input selanjutnya boleh ditambahkan.

Kredit Gambar

  • Sistem Pengecaman Ucapan oleh Gstatik
  • Manipulasi Bentuk Gelombang Ucapan oleh Dadisp

Komponen Sistem Pengecaman Ucapan oleh Pengenalan kepada Pengenalan Ucapan dan Penceramah - Richard D. Peacocke dan Daryl H. Graf