NEW
野村直之「AIなんか怖くない!」

AIを敵視するのは電子顕微鏡に嫉妬するのと同じ…「AIは自発的に問題解決」という誤解

文=野村直之/AI開発・研究者、メタデータ株式会社社長、東京大学大学院医学系研究科研究員
【この記事のキーワード】

, ,

深層学習の入口と出口

 画像や音声、文章のパターンを人間以上の精度で抽出し、分類できるからといって、今日のAIが、何かを深く考えているわけではありません。膨大な正解データをもとに、入力と出力の対応関係を、脳とは似て非なる仕組みで膨大な計算することにより、キャプチャーしているだけなのです。これは、前回の「深層学習で猫の特徴が自動的に抽出される仕組み」に記した通りです。

 正解データは、入力データと出力データのペアからなります。入力が数百KB(キロバイト:文字なら数十万文字)以上の画像に正解をマーキング(「ここがアメショの猫だ」みたいに長方形で囲って名前を書いたもの)したデータで、出力が数バイトの名前文字列だったりするのは典型的な、「解析」「認識」タスク(課題)です。3種類以上の猫などを認識できるということは、入力を「分類」していることになるので、「分類タスク」とも呼ばれます。

 画像、音声を例に、入口と出口、すなわち入出力の対応関係の様々な組み合わせを7つほど図2「深層学習の入口と出口 ~様々な組み合わせ」に挙げてみました。

AIを敵視するのは電子顕微鏡に嫉妬するのと同じ…「AIは自発的に問題解決」という誤解の画像3
図2 深層学習の入口と出口 ~様々な組み合わせ

 先の猫認識などは、1番上の「メイン被写体が1つの画像」を入力として、その名前を出力とした、最もシンプルな画像認識の例です。その次の「多種の被写体が各複数の画像」の場合、たとえば極端な場合、渋谷のスクランブル交差点を写し込んだ広角写真に写っている人の人数や、全員の名前、その他、ビルの名前やテナントの社名、動物や雲、ガラスに反射した電車など、すべてを認識せよ、と言われたらだいぶ難しくなることがわかるでしょう。ビッグデータを活用した力づくの膨大な計算により、AIが解決を得意とする課題となってきます。現時点では十分高い精度は出ていないとは思いますが。いや、自分の名前が常に把握されていたら怖いものもありますね。

 図2の上から4つ目「会議室で複数人が同時に発言」しているのを、9つ以上のマイクで発音源を正確に特定し同時に全部書きとるAIもすでに実用化されています。認識系の「超人AI」の一種です。一方、フルHDの解像度を4K (UHD)にアップコンバートしたり、モノクロ画像をカラー画像に彩色したりするのは、情報量を増やすという意味で、合成系、生成系のAIです。これらも入出力の対応関係を様々な工夫によって大量にキャプチャーさせていることには変わりありません。

RANKING
  • 連載
  • ビジネス
  • 総合