Google Percepat Respon Voice Search
Setelah meluncurkannya pada tahun 2011 dan memperbaiki sedikit demi sedikit, Google kembali mengumumkan telah membuat sejumlah perbaikan untuk mesin pencari berbasis suara miliknya, Voice Search. Selain bisa memilih suara utama di saat pengguna tengah berada di lingkungan yang bising, perbaikan ini juga membuat Google Voice Search menjadi jauh lebih cepat.

Google Voice Search versi terbaru ini diklaim menjadi lebih akurat dan lebih cepat. Tim Google Speechmendesain agar mesin ini bisa memilih suara yang utama, menjauhkannya dari suara bising di bagian belakang, misal saat pengguna tengah berada di ruang publik yang ramai dengan berbagai macam suara, Voice Search kini bisa memblokir kebisingan yang terjadi di belakang dan akan fokus para suara pengguna saja.
Dalam keterangan resminya, tim Google Speech menjelaskan bahwa pada mesin pengenal suara tradisional, gelombang suara yang diucapkan pengguna akan dibagi menjadi irisan-irisan kecil yang berjajar atau frame audio dengan ukuran 10 milidetik. Masing-masing frame dianalisis untuk konten frekuensinya dan memberikan hasil fitur vektor yang melalui model akustik seperti DNN yang memberi output yang mungkin akan didistribusikan ke seluruh fonem (suara) dalam model tersebut. Hidden Markov Model (HMM) membantu untuk memaksa beberapa struktur temporal dalam urutan distribusi probabilitas.
Ini yang kemudian dikombinasikan dengan sumber pengetahuan yang lain seperti Model Pengucapan yang menghubungkan urutan suara untuk memvalidasi kata dalam bahasa target dan Model Bahasa yang mengekspresikan semirip apa urutan kata dalam bahasa tersebut. Mesin pengenal kemudian akan merekonsiliasi semua informasi ini untuk membedakan kalimat yang diucapkan pengguna. Misalnya jika pengguna mengucapkan kata ‘museum’ atau dalam notasi fonetik ditulis /m j u z i @ m/ mungkin akan sulit menentukan di mana suara /j/ berakhir dan di mana /u/ dimulai. Namun kenyataannya mesin pengenal tidak akan peduli dimana tepatnya transisi tersebut terjadi, dan mesin pengenal hanya akan mengenali suara yang diucapkan.

Model akustik yang diperbaiki dalam Google Voice Search ini mengandalkan pada Recurrent Neural Network (RNN) dimana RNN memiliki loop umpan balik dalam topologinya yang memungkinkan untuk membuat model temporal dependensi dimana saat pengguna mengucapkan /u/ seperti pada contoh sebelumnya, maka aparatus artikulatorinya datang dari suara /j/ dan dari suara /m/ sebelumnya. Tipe RNN yang digunakan di sini adalah RNN Long Short-Term Memory (LSTM) yang melalui sel memori dan mekanisme gerbang yang canggih, akan mengingat informasi lebih baik dibandingkan RNN lainnya. Menggunakan model seperti ini telah meningkatkan kualitas mesin pengenal Google secara signifikan. Saat ini update Google Voice Search ini sudah bisa dicoba di piranti yang dijalankan dengan Android dan iOS.