NEW
野村直之「AIなんか怖くない!」

人間が見やすいExcelの作成は、もうやめよう…業務効率が1000倍になるDX活用術

文=野村直之/AI開発・研究者、メタデータ株式会社社長、東京大学大学院医学系研究科研究員
【この記事のキーワード】, ,

 紙の文書でなく、PDFファイルを原本とする方向性を採用しても、いろんな実現の仕方があります。昨今では、「Word/Excelファイルをプリンターで印刷」→「押印」→「スキャナでスキャンして画像主体のPDFにして送付」→「紙の原本を郵送」という形で有印私文書のやり取りをしていたと思います。コロナ禍で、スピードが要求されるようになって紙の原本を不要としたり、「Word/ExcelファイルをPDF化し送付」で済ませるケースが出てきました。しかし、これを有印私文書扱いして、改ざんを犯罪として取り締まれるか怪しいところがあり、ブロックチェーン技術と、それを支える法整備が期待されるところです。

DXでは「人間に魅せる用Excel」はやめましょう! ~いずれはAPI連携へ

 本格的なDX、ビッグデータで機械学習させるようなDXなら、過去の大量データの再利用も必要となってきます。ワープロを「清書機」ととらえていた前世紀に作られた文書なら、電子ファイル自体が管理されず、なくなってしまっていたりします。

 また、あまりに古い形式、OS、アプリを必要とし、その製造社が消滅していて読みだせないこともあるでしょう。その場合、紙をスキャンして、OCR=文字認識させるにしても、高品質な図表入りの元ファイルを再現させるには、AIもまだまだ非力であり、認識誤りの修正などにかなりのコストがかかります。認識誤りが大勢に影響しない、頑健(robust)なテキスト分析ソフト(例えばAIポジショニングマップMr.DATA)を使うなりして、誤りの修正などやらないのが正しい戦略でしょう。

 なお、古い形式の電子ファイル(バイナリファイル)の場合は、xdoc2txt.exeという、国内の主要ソフトのほとんどどんなバイナリでも読み出せるフリーウェアがあります。日本語ワープロでは「一太郎」以前のヒット策「松」のファイルからテキストを読み出せるのでお奨めです。ExcelやPowerPointはうまくシートやページの仕切り線などもテキストデータで出力してくれます。 

 さて、今でも使われているMS Office互換のファイルであれば、十分合格なデジタルデータといえるでしょうか? いいえ、まったく違います。オフィス文書は、人間が、人間らしいやり方、スピードで作業するための形式、インタフェースを反映しています。使い方によっては、AIにとっては非常に扱いに困った代物になってしまうのです。

 次の図の左側の3種類のExcelデータを見てください。徹頭徹尾人間向けに、欄(セル)が結合されていたり、以下同様、と省略されていたり、表の中に小さな表があったりします。「省略されている内容は、上の行と同じに見えるじゃないか!」というのは人間が眺めるときの都合です。機械にとっては、同じ内容を引き継いでいいのか厳密に指定されないと、「わかりやすく」ありません。

人間が見やすいExcelの作成は、もうやめよう…業務効率が1000倍になるDX活用術の画像2

 そこで、右側のように、1行目に各欄の名称、定義を書いて、2行目以下は、金太郎飴のように、同一形式でデータ内容が出てくるデータにすることが求められます。保存するときは、コンマで区切られたCSV(Comma Separated Value)か、タブ・コードで区切られたTSV(TAB Separated Value)にするのが、さまざまなシステムとデータをやりとりするのに便利です。なお、上例右側のシンプルな、すっぴんの表(ひょう;table)の中身は、我がメタデータ社の誇る「ビール・オントロジー」の一部です。国内で売られているビール千数百種について、そのさまざまな属性情報を整備したものです。AIを活用して何らかの知識処理のようなことを行うには、このようにオントロジー(分野ごとの階層知識体系)を整備するのが肝となります。

RANKING

5:30更新
  • 連載
  • ビジネス
  • 総合