全国の自治体や企業で業務効率化のための「ChatGPT」導入が進められているが、香川県三豊市はゴミ出し案内でのChatGPT導入を断念したと発表した。ネット上などの膨大なデータを学習し、適切な答えを出してくれるはずのChatGPTがなぜゴミ出し案内に使えないのか、AIのプロフェッショナルに見解を聴いた。
三豊市は6月より、AI研究の権威である東京大学大学院の松尾豊教授の研究室と共同で、ChatGPTを使ったゴミ出し案内の実証実験を開始。サービス内容は、市のホームぺージ専用画面でゴミに関する質問などを入力すると、AIが分別方法や収集日などを24時間自動応答するというもの。約50の外国語にも対応し、職員の負担軽減と市民サービスの向上が期待された。
6月、7月に行った実験では、正答率が62.5%と低かったことから松尾研究室が「大規模言語モデルをGPT-3.5からGPT-4に変更」「1問1答形式から対話形式に変更」などといった改良を施し、10月、11月の2度目の実験では正答率が94.1%に大きく向上した。
しかし、市が本格導入の条件として設定していた「正答率99%」には届かず、市は導入を断念すると発表した。同市は今後、実証実験のデータを生かして別業務にChatGPTが活用できないか検討するとしている。
これに対して、ネット上では「ChatGPTがゴミ出し案内に使えなかった」ということに驚きの声が上がり、以下のようなコメントが飛び交った。
「ゴミ出し案内にすら使えないとなると、ChatGPTは実業務に使えないのでは」
「94%の正答率はかなり高いと思う。あまり設定を高くしすぎると、永久に業務効率化なんて達成できなさそう」
「ゴミ出し案内くらいなら、ChatGPTより、教えたことだけ答えるタイプのボットのほうがいいのでは」
技術導入の一般的な心理問題
94.1%の正答率であれば、実用に足るのではという意見もあるが、なぜChatGPTは「ゴミ出し案内に使えない」と判断されたのか。ゲームAI開発の第一人者である三宅陽一郎氏(立教大学特任教授)はこう解説する。
「適用する事例にもよりますが、94.1%というと高い正答率に見えます。事例によっては、この正答率で十分な場合も多いかと思います。しかし、例え20回に1回であっても間違った情報が混じってしまうと、それによる実害の大きさによっては断念という判断になることもあります。ゴミ出しのルールを守らないと罰金が発生したり、ゴミの放置によって不慮の事故が起きたりすることがありますが、GPTの案内通りにゴミを出したのにトラブルになったら『誰が責任を取るのか』という問題が起きてしまう。これは純粋な技術的問題というよりも、社会における技術導入の一般的な心理問題でもあります。
登山中にどの道を行けばいいかをAIに聞いて、正答率が99%で100回に1回しか間違えないとしても、もし誤った回答が出てしまったら取り返しのつかないことになります。これは99.9%でも、99.99%でも同じ議論となります。一方で『このお酒にはどんな料理が合うのか』といった程度の質問への案内なら94.1%でも実用化できるでしょう。なぜなら、残りの5.9%で間違えても、そこそこおいしい料理ができるかもしれないからです。92%でも、90%でも、大丈夫かもしれません。ですので、どの技術がどこで実用できるかは、技術の信頼度と適用する事例における影響力の大きさの比較によって、導入できるかどうかの判断が変わってきます。
実際、実業務へのAI導入においては『AIが間違ったらどうするのか』という議論が起きることがむしろ普通です。今回も例外ではないでしょう。間違った場合の影響力をどう捉えるかで、導入の可否が決まります。間違った場合の影響力が大きいと判断される場合は結果として導入断念となるケースが多いのが実情です。この議論は果てがなく、99.999%だったら問題ないのか、といえば、それでも十万分の一のケースについて反対が出ることも、いろいろな課題をかかえる世の中ではまったくめずらしくありません。それは人間の心理として仕方のないことでもあります」(三宅氏)
特定のテーマにフォーカスするのは難しい
市役所職員の文章の作成や要約、アイデア創出といった分野での業務効率化あればAIの実用化は可能だろうが、市民相手のサービスで実害が生まれる可能性があるとなると「ごくたまに間違える」というレベルであっても、導入は難しくなるようだ。そうなると、ChatGPTは「ゴミ出しの案内すらできない」ということになる。
「GPTはネット上などの膨大なデータを学習します。世界中の膨大なテキストデータを学ぶので、特定の地域のゴミ出し案内に使うにはチューニングやプロンプト・コントロールが必要になります。過去のデータも学習対象になっているので、過去のルールを答えてしまわないようにコントロールすることも必要になります。現在のGPTのバージョンであれば、相対性理論をかなり正確に説明することすら可能ですが、学習データ量が巨大すぎて逆に特定のテーマ、今回であれば、特定地域の特定の曜日のゴミ出し案内にフォーカスするのは難しくなるのです。正しい情報が出ていても、加えて余計なデータが出てしまうこともあります。特定の情報を繰り返し学習することよるアプローチは、不可能ではないものの、言語モデルの規模が大きくなればなるほど、チューニングとコントロールは難しくなる面と簡単になる面があります。いずれにしろ容易ではありません。
おそらく正答率94.1%に上げるまでにかなり苦心されたと思いますから、99%に達するための手間暇やコストも少なくはありません。特定分野へのチューニングやコントロールによるフォーカスについては今後精度が上がっていくでしょうが、現段階ではその手法については実験や研究が繰り返され、発展途上といえます。ただ、技術的問題だけでなく、99.9%であろうと、99.99%であろうと、人間の心理としては不安が残るものです。このような心理的問題と技術の双方がどのように折り合うか、という点が、今回の問題だけでなく一般的に、GPTなど大規模言語モデルを用いたサービスの議論のポイントとなります。技術の向上と社会的なコンセンサスのあり方、双方の発展によって、大規模言語モデルの社会実装は広がっていくかと思います」(同)
ChatGPTの活用は多言語対応が容易といったメリットもあったのかもしれないが、現段階では「ゴミ出し案内に使うにはオーバースペック過ぎる」といえそうだ。
(文=佐藤勇馬、協力=三宅陽一郎/ゲームAI開発者)