「文字入力」終焉で「音声入力」時代突入…覇者アマゾン、人々の生活と既存ビジネスを変容
文字入力から音声入力の時代へ
キーボードやタッチスクリーンでの「文字入力」は、大半の人にとって食べる、歩く、話すといった自然な行動のひとつとして日常に溶け込んでいるが、そのうち「そんな不便な時代もあった」と懐かしむ時代がくるかもしれない。
文字入力は、コンピューティングの発展とともに長らく二人三脚で歩んできたが、それがここにきて、急速に「音声入力」に代わられる環境が整いつつある。音声認識の歴史はそう長くはない。人間の音声を人工的に合成しようという試みは18世紀までに遡るものの、人間の話す音声を機械が把握するようになるまでにはコンピュータの登場を待たなければならなかった。1950年代から米国ベル研究所などを中心に人間の音声を数式モデルで表現する試みが行われ、IBMが70年代に考案した「隠れマルコフモデル(Hidden Markov Model)」という確率モデルの手法を、カーネギーメロン大学が音声認識に応用したことで一気に実用化への視界が開けてきた。
しかし、隠れマルコフモデルは統計データを基に確率的にデータを扱うため、音声認識として有効に機能するには大量のデータとその統計処理が必要だった。それが、近年のビッグデータに関連するテクノロジーの進化に伴い、大量のデータを安価でかつスピーディーに収集・蓄積・分析できるようになったことで、人間と同等レベルに当たる90%以上の認識率を獲得し、製品の実用化が加速した。2011年、ついにアップルが音声認識機能Siriを搭載したスマートフォン(スマホ)、iPhoneを販売し、音声認識サービスは市民権を得ていった。
音声認識によるユーザー行動の変化
音声入力によって得られるメリットはなんだろうか。まずひとつは、入力スピードが劇的に高まることだ。米パークス・アソシエイツによるユーザー調査によると、スマホでの音声入力は、手で打ち込むテキスト入力に比べて約3倍のスピードで処理することができる。また、入力スピードだけでなく、正確性も高まる。上記のユーザー調査では、エラー率(誤入力率)も20%程度減少している。
さらに、入力する際に前のめりになって姿勢を悪くしたり、肩をこわばらせたりするといったことが減るため、肩こりや頭痛などで悩まされることも減るはずだ。そして、両手や視線が入力画面から解放されるので、音声入力による指示をしながら並行して他のタスクをこなすことが可能になる。
音声入力によって得られるメリットは大きいが、文字入力から音声入力へのシフトは、単なる入力方式の効率化ではない。過去に、コンピュータのデバイスがPCから携帯電話、スマホへと進展するたびに、私たちの日常の行動は大きく変わり、それに連鎖して多くの企業が浮き沈みを経験してきた。
だがそれ以上に、音声入力へのシフトは、私たちの生活を変容させる可能性がある。ヤフーやグーグルといった検索エンジン登場以後の「検索する(ググる)」「閲覧する」「シェアする」といったような行為は、文字入力を前提とした世界におけるユーザー行動である。したがって、話しかけるだけでさまざまな情報が音声で提供されるような、音声入力に伴うアシスト機能の活用が浸透すれば、このような行動は過去のものになるだろう。
音声認識を支配するアマゾン
音声入力はすでに実用化の段階に進んでいることを先に述べたが、アップル、グーグル、マイクロソフトなどITの巨人がこぞって市場に参入している。
そのなかでも、一歩も二歩も先を走っているのがアマゾンだ。アマゾンはクラウドベースの音声認識サービスである人工知能「Alexa」を搭載したスピーカー型のアシスタント端末「Amazon Echo」を2015年から販売しており、すでに市場の支配的な存在になりつつある。
このAlexaは外部企業に対しても開放しており、その結果としてすでに7000以上のアプリケーション(アマゾンは「Skill」と呼ぶ)が開発されている。対応する製品領域は、自動車やテレビ、冷蔵庫、照明、eコマースなど多岐にわたり、IoT時代のインターフェイスになりつつある。一例としては、ユーザーの一声にデバイスが反応し、自宅の電気スイッチがON/OFFされるのはもちろんのこと、動きや物音を感知したりドアの開けっ放しを知らせてくれたりするそうだ。
アマゾンにとって、対応製品が増えることによるメリットはスピーカーの売上ではない。さまざまな製品でAlexaがどのようなシーンで利用され、どのように音声で応答したかといった生データを短期間で大量に入手できることのメリットがはるかに大きい。この生データの収集・蓄積を進めることで、Alexaの音声認識の機械学習スピードは速まり、ライバルを引き離して独占的ポジションを構築することにつながっていく。
アマゾン主導でのユーザー行動の変化
Alexaを中心とした音声入力サービスがデファクトスタンダード化するにしたがって、一体何が起こるのか。
米エクスペリアンが16年にユーザー約1300人に聞いた「Amazon Echoの利用方法」に関する調査では、「タイマーをセットする」「音楽を聴く」「ニュースを聞く」というのが三大利用シーンだった。
ただし、注目すべき点は、買い物に関するタスクだ。上記の三大利用シーンには及ばなかったものの、45%のユーザーが買い物リストにモノを追加し、32%のユーザーが実際にアマゾンで購買するに至っている。世界最大の小売業になることを目標にし、顧客体験(UX)を重視しているアマゾンにとって、今後このAmazon Echoによる買い物体験の利便性の向上は間違いなく進展するだろう。
一方で、アマゾン主導の音声認識による買い物体験の変化により、その周辺に群がる広告業界はビジネス上の打撃を受けるリスクがある。たとえば、音声認識によって「検索する」という行動が減少した場合、検索連動型のリスティング広告を展開するグーグルにとっては少なからぬ損失が出るだろう。もちろん、「Alexa、いつものスターバックスのコーヒーを買って!」と指示した際に、「今日は、春の新作フラペチーノが10%割引ですが、いかがですか?」と音声指示に連動したプロモーションを展開するようなことも技術的には十分可能だ。だが、どの企業よりも顧客体験を重視し、広告ではなくコンテンツでのマネタイズを本業とするアマゾンのEchoについては当面、収益源に関する心配はないだろう。
いずれにせよ、文字入力から音声入力へと今後シフトが進むなか、私たちは入力方式の変化といった表層にとらわれず、そこから派生するユーザー行動の変化やビジネスモデルの変化について注視していく必要があるだろう。
(文=村澤典知/インテグレート執行役員、itgコンサルティング 執行役員)