ビジネスジャーナル > ITニュース >  無料の国産「TexTra」がスゴイ
NEW

精度はGoogle翻訳を越える… 無料の国産「TexTra」が地味にスゴイ

文=A4studio
【この記事のキーワード】, ,
サイト「みんなの自動翻訳@TexTra」より
サイト「みんなの自動翻訳@TexTra」より

 英文などを自動翻訳したいとき、アメリカのグーグルが開発した「Google翻訳」を利用するという人は多いだろうが、今は、世界一高精度な自動翻訳ツールはドイツのDeepL GmbHが開発した「DeepL」だといわれている。

 だが、日本が開発したある自動翻訳ツールもかなり優秀だという。6月にあるTwitterユーザーが呟いた投稿が多くの“いいね!”を集めるなど話題を呼んでいた。それによると、無料の「みんなの自動翻訳TexTra(テキストラ)」(以下、TexTra)という自動翻訳サイトがDeepLに勝るとも劣らない性能を誇り、しかも開発したのは日本の国立研究開発法人情報通信研究機構(NICT(エヌアイシーティー))なのだという。

 しかし、このツイートで注目を集めたTexTraだが、DeepLの1日の閲覧数が数百万回といわれているのに対し、TexTraは1日のサイトログイン数が3000人ほどと圧倒的に少ない。

 そこで今回は、TexTraを開発したNICTに所属し、8月19日に著書『AI翻訳革命 ―あなたの仕事に英語学習はもういらない』(朝日新聞出版)を上梓した隅田英一郎氏に、TexTraの実態について聞いた。

TexTraは商用目的ではなく、技術見本のサイトとして誕生

 そもそも自動翻訳とはどういう仕組みなのか。

「自動翻訳とはAI(人工知能)が翻訳を行うツールのことですが、そのAIがデータの特徴や構造を自ら学習・解釈・分類する機械学習の手法である深層学習をベースとしています。深層学習はディープラーニングとも呼ばれています。

 そのAIに日々翻訳データを追加してどんどん学習させることで、精度の高い翻訳を行っているわけです。ですから蓄積させる翻訳データのクオリティが低いと、質の悪い翻訳ばかりになってしまうので、自動翻訳のAIは良質の翻訳データをたくさん集めることがとても重要なのです」(隅田氏)

 では、TexTraはどういったものなのか。

「そもそも私が所属しているNICTは、情報通信分野を専門とする日本唯一の公的研究機関で、AI、脳情報科学、量子ICTから電磁波まで、さまざまな技術を研究する組織です。目的は研究とそこから発展した開発であり、開発した技術を民間の業者に卸しています。

 そんな研究の一環としてTexTraを作ったわけですが、目的は我々の研究で生まれた自動翻訳の性能をみなさんに知っていただくことであり、TexTraはある種の実験サイトともいえます。NICTという組織がどのような技術を持っているのかをご覧いただくための、いわば見本品で、ビジネスとして運用しているわけではないんです」(同)

誕生の経緯が異なるTexTraとDeepLは単純比較できない?

 では、DeepLとTexTraの違いはなんなのだろうか。

「DeepLの優れている点は、やはりシンプルに翻訳の質が高いことではないでしょうか。DeepLはGoogle翻訳より高性能だと、翻訳エンジンを作っている多くの開発チームが言っていますからね。高い翻訳力の鍵はやはり学習データの質と量が関係してきますが、DeepLは学習データについて一切公表していないので、なぜあそこまでの高いクオリティの翻訳ができるのかはDeepL外の者にはわかりません。

 DeepLは民間企業が開発したツールで、TexTraは公的機関であるNICTが開発したものなので、根本的な役割から違います。次に利用面で比べると、DeepLにユーザーログインは必要ありませんが、TexTraはログインが必要です。ログインにはアカウントが必要なので、アカウント作成やログインを面倒に感じてTexTraを利用していない方もいることでしょう。

 けれどログインを必須にしないと、まれに大量のデータを一気に翻訳させてサーバをパンクさせてしまう人が現れることもあるので、それを防ぐためにログインを必要とする設計にし、意図的に利用者を制限しているんです」(同)

 TexTraが収集している翻訳データの出自も、他のツールとは異なる部分があるという。

「世間のさまざまな企業は、各分野に特化した独自の翻訳データを持っていることが多いのですが、NICTはそれらのデータを寄付してもらって高精度の翻訳システムを作り、恩返し的に技術提供をしています。これは、ビジネスの競争原理からは外れたパブリックな組織だからこそ協力してもらえているものであり、NICTには汎用、特許用、製薬用、金融用など、こうして生まれた何種類もの専門分野のエンジンがあるのです」(同)

 やはり気になるのは、両者の翻訳力にどのぐらいの差があるのかという点だ。

「客観的に見て、日本語・英語間の翻訳に関してはDeepLと同程度の翻訳精度があると認識しています。さらにいうと、日本語・中国語間や特定の専門分野の翻訳ではTexTraが上回っているようです。率直に言ってDeepLの日中翻訳文にはまだまだ引っかかる部分がありますからね。DeepLはドイツが本拠地ということもありヨーロッパ言語は強く、TexTraを上回っています。このような差が出る理由は、TexTraはアジアを重視しているのに対して、DeepLは欧州に注力しているからですね」(同)

自動翻訳の勢力図を塗り替える可能性は? TexTraの展望

 自動翻訳の分野においてTexTraは今後どのような位置づけになっていくのか。

「TexTraの精度は研究や翻訳サーバ、データバンクの発展とともに今後も日々向上していくでしょう。そして、NICTの技術を利用して国内の民間無料自動翻訳サイトの質が向上することになるでしょう。

 TexTraは社会に貢献できる技術を第一優先で研究しており、現在NICTでは、2025年日本国際博覧会に向けて、同時自動通訳の研究をしています。同時通訳は時間に制限があるので、重要な情報とそうでない情報を判断して重要な情報だけを出力する技術を作っているところです。これらの技術もTexTraで試験公開しているので見ていただければ幸いですね」(同)

 実験と改良が重ねられ、進化し続けるTexTraがどう社会に活用されていくのか、期待して注目したい。

(文=A4studio)

A4studio

A4studio

エーヨンスタジオ/WEB媒体(ニュースサイト)、雑誌媒体(週刊誌)を中心に、時事系、サブカル系、ビジネス系などのトピックの企画・編集・執筆を行う編集プロダクション。
株式会社A4studio

Twitter:@a4studio_tokyo

精度はGoogle翻訳を越える… 無料の国産「TexTra」が地味にスゴイのページです。ビジネスジャーナルは、IT、, , の最新ニュースをビジネスパーソン向けにいち早くお届けします。ビジネスの本音に迫るならビジネスジャーナルへ!