Firma Google opracowała nową technologię do wyszukiwania głosowego, która według firmy sprawi, że będzie jeszcze szybsza i dokładniejsza. Nowa technologia wykorzystuje klasyfikację czasową Connectionist (CTC) i techniki dyskryminacyjnego treningu sekwencyjnego. W 2012 r. Google przeszedł z Gaussian Mixture Model (GMM) na Deep Neural Networks (DNN), co pozwoliło firmie lepiej ocenić, jaki dźwięk produkował użytkownik w tym czasie, i zapewniło zwiększoną dokładność rozpoznawania mowy.
Nasze ulepszone modele akustyczne wykorzystują Recurrent Neural Networks (RNN). RNN mają pętle sprzężenia zwrotnego w swojej topologii, co pozwala im modelować zależności czasowe: gdy użytkownik mówi / u / w poprzednim przykładzie, jego aparat artykulacyjny pochodzi z dźwięku / j / i wcześniej / dźwięku / m /. Spróbuj powiedzieć to na głos - „muzeum” - płynie bardzo naturalnie jednym tchem, a RNN mogą to uchwycić. Zastosowany tutaj typ RNN to RNN Long Short-Memory Memory (LSTM), który poprzez komórki pamięci i wyrafinowany mechanizm bramkowania zapamiętuje informacje lepiej niż inne RNN. Przyjęcie takich modeli już znacznie poprawiło jakość naszego rozpoznawania.
Zmiana technologii została wprowadzona przez Google i jest teraz wykorzystywana do wyszukiwania głosowego w aplikacji Google na iOS i Androida, a także do dyktowania na urządzeniach z Androidem.
Źródło: Blog Google Research