Ang Google ay nagtayo ng isang bagong teknolohiya upang maipalakas ang paghahanap ng boses, na sinasabi ng kumpanya ay gagawing mas mabilis at mas tumpak. Ang bagong teknolohiya ay gumagamit ng Connectionist Temporal Classification (CTC) at pagkakasunod-sunod na diskarte sa pagsasanay. Noong 2012, lumipat ang Google mula sa Gaussian Mixt Model (GMM) hanggang sa Deep Neural Networks (DNNs), na pinayagan ang kumpanya na mas mahusay na masuri kung aling tunog ng isang gumagamit ang gumagawa sa oras na iyon, at naghatid ng isang pagtaas ng katumpakan sa pagkilala sa pagsasalita.
Ang aming pinahusay na mga modelo ng tunog ay umaasa sa mga paulit-ulit na Neural Networks (RNN). Ang mga RNN ay may mga loop ng feedback sa kanilang topology, na nagpapahintulot sa kanila na mag-modelo ng temporal dependencies: kapag nagsasalita ang gumagamit / u / sa nakaraang halimbawa, ang kanilang articulatory apparatus ay nagmumula sa isang / j / tunog at mula sa isang / m / tunog bago. Subukang sabihin ito nang malakas - "museo" - natural na dumadaloy ito sa isang hininga, at maaaring makuha iyon ng mga RNN. Ang uri ng RNN na ginamit dito ay isang Long Short-Term Memory (LSTM) RNN na, sa pamamagitan ng mga cell ng memorya at isang sopistikadong mekanismo ng gating, ay kabisado ang impormasyon nang mas mahusay kaysa sa iba pang mga RNN. Ang paggamit ng mga nasabing modelo ay napabuti na ang kalidad ng aming pagkilala nang malaki.
Ang pagbabago sa teknolohiya ay ginawa ng Google, at ngayon ay ginagamit upang maghanap ng mga voice voice sa Google app sa parehong iOS at Android, pati na rin ang pagdidikta sa mga aparato ng Android.
Pinagmulan: Google Research Blog