ビジネスパーソン向け人気連載|ビジネスジャーナル/Business Journal

文字入力から音声入力の時代へ
キーボードやタッチスクリーンでの「文字入力」は、大半の人にとって食べる、歩く、話すといった自然な行動のひとつとして日常に溶け込んでいるが、そのうち「そんな不便な時代もあった」と懐かしむ時代がくるかもしれない。
文字入力は、コンピューティングの発展とともに長らく二人三脚で歩んできたが、それがここにきて、急速に「音声入力」に代わられる環境が整いつつある。音声認識の歴史はそう長くはない。人間の音声を人工的に合成しようという試みは18世紀までに遡るものの、人間の話す音声を機械が把握するようになるまでにはコンピュータの登場を待たなければならなかった。1950年代から米国ベル研究所などを中心に人間の音声を数式モデルで表現する試みが行われ、IBMが70年代に考案した「隠れマルコフモデル(Hidden Markov Model)」という確率モデルの手法を、カーネギーメロン大学が音声認識に応用したことで一気に実用化への視界が開けてきた。
しかし、隠れマルコフモデルは統計データを基に確率的にデータを扱うため、音声認識として有効に機能するには大量のデータとその統計処理が必要だった。それが、近年のビッグデータに関連するテクノロジーの進化に伴い、大量のデータを安価でかつスピーディーに収集・蓄積・分析できるようになったことで、人間と同等レベルに当たる90%以上の認識率を獲得し、製品の実用化が加速した。2011年、ついにアップルが音声認識機能Siriを搭載したスマートフォン(スマホ)、iPhoneを販売し、音声認識サービスは市民権を得ていった。
音声認識によるユーザー行動の変化
音声入力によって得られるメリットはなんだろうか。まずひとつは、入力スピードが劇的に高まることだ。米パークス・アソシエイツによるユーザー調査によると、スマホでの音声入力は、手で打ち込むテキスト入力に比べて約3倍のスピードで処理することができる。また、入力スピードだけでなく、正確性も高まる。上記のユーザー調査では、エラー率(誤入力率)も20%程度減少している。
さらに、入力する際に前のめりになって姿勢を悪くしたり、肩をこわばらせたりするといったことが減るため、肩こりや頭痛などで悩まされることも減るはずだ。そして、両手や視線が入力画面から解放されるので、音声入力による指示をしながら並行して他のタスクをこなすことが可能になる。