音声認識技術の現状

2017-07-20 07:23

なぜかサラリーマン人生で「音声認識」に関わることがある。私自身はとってもその技術を嫌っているのに。

高い金出してViaVoiceというIBMのソフトを買い、それを動かすための小さな東芝製のコンピュータまで買い、かなり長い間訓練用の音声を吹き込んだのは少し前のこと。今ではクラウド上の処理により何も訓練しなくても「相当な」精度で音声を認識してくれる。じゃあコンピュータに音声で語りかければいいじゃないか。

とはならない。今もなっていない

これは車の中でAndroidとiPhoneのSiri(本当はちょっと違うけど、まあ説明のために簡略化する)を対決させた時のビデオである。結果はAndroidの圧勝。しかしそのAndroidを使う時であってもユーザがどれくらい緊張しているかを見て欲しい。発音した住所が正しく認識されるか否かは未だに神頼みの状態だ。

そして

仮に「音声」をちゃんと認識してくれたとしても、その次に「相手が何を言っているか理解する」というもっと巨大な難問がそびえている。こちらは簡単な「一問一答型」の会話以外では全く解決の見込みが立っていない。人力で大量の「問答パターン」を定義する以外方法がないのだ。

昨今の「人工知能ブーム」は楽しいが、この後者の問題、すなわち「人間が何をいっているか理解する」という問題はほったらかしになったままである。もちろんちゃんと取り組んでいる人はいると思うのだけど。

そして、ヘビーユーザーの属性は52歳の女性で、音声アシスタントを月に平均1.5時間使っている、ということが分かりました。
 
一般に、年配の女性は電子機器類の操作が苦手、というイメージを持たれがちですが、話しかけるだけで操作できるというSiriなど音声アシスタントの手軽さにより、端末の操作を手軽に感じているのかもしれません。

引用元:Siriの利用者数が前年比16%減、ヘビーユーザーは意外な属性 - iPhone Mania

ちょっと記事の書き方に疑問はあるが、現状音声認識をよく使っているのは40歳以上の女性なのだそうな。これは意外な結果だった。もっとちゃんと内容を調べて見たいと思う。今の音声認識は前述した通り「幅広い問題に対して手軽に使える」ような代物ではない。しかし40歳以上の女性が使う、ということは目新しさとかそういう理由ではなくちゃんとしたメリットがあるはず。それはなんなのだ。その女性たちは多分私が考えつかないような「日常生活での便利な使い方」を見つけたらしい。

上記引用記事でもう一つ面白かったのは、今だに音声インタフェースで一番よく使われているのがSiriということ。これも意外だった。端末の数からいったらAndroidの方が多いはずなのだが。。。って書いていくとこの調査大丈夫か、という気もしてくる。

とにかく

音声認識はまだまだ未来に存在している。共産主義のユートピアと同じくそれがいつ現実世界に現れるのかは誰にもわからない。