スマートフォンでもPCでもオフラインでも使え、100以上の言語に対応しているGoogleの翻訳サービス「Google翻訳」が、ちょうど10周年を迎えるタイミングでより自然な翻訳を可能にする人工知能(AI)を活用した「GNMT」システムを発表しました。

Research Blog: A Neural Network for Machine Translation, at Production Scale
https://research.googleblog.com/2016/09/a-neural-network-for-machine.html

Google's AI translation system is approaching human-level accuracy - The Verge
http://www.theverge.com/2016/9/27/13078138/google-translate-ai-machine-learning-gnmt

AI研究で複数の大手IT企業とのパートナーシップを結んだばかりのGoogleは、AIを駆使した翻訳システム「GNMT(Google Neural Machine Translation)」を発表しました。Google翻訳ではこれまでフレーズベースで機械翻訳するPBMTというシステムが採用されていましたが、このような単語やフレーズごとに機械的に文章を翻訳する方法ではなく、文章全体をひとつの翻訳単位として捉えることができるのがGNMTだそうです。

Googleの研究者によると、「GNMTの『文章全体をひとつの翻訳単位として捉える』アプローチの長所は、工学的設計の選択肢がPBMTよりも少なくて済むことです」とのこと。実際にGNMTを駆使した最初の翻訳では、既存のGoogle翻訳と遜色ない翻訳精度がみられたそうです。さらに、何度も翻訳を重ねることで、GNMTは優れた翻訳と素早い翻訳スピードの両立が可能になっている模様。Googleによると、GNMTを用いることでGoogle翻訳は翻訳ミスを55〜85%も軽減できるようになるとのこと。

GoogleによるとGNMTは一部のケースでは人間レベルの翻訳が可能なレベルに達しているとのこと。以下のグラフは人間・GNMT・PBMTの3つによる翻訳を6段階評価して比較したもので、最も翻訳精度が高いのは人間による翻訳ですが、フランス語から英語に翻訳する場合や英語からスペイン語に翻訳する場合、人間とGNMTの間にそれほど大きな差は存在しないそうです。

以下のGIF画像は中国語の文章「知识就是力量(知識は力です)」をGNMTが英語に翻訳する過程を可視化したものです。まず最初に、GNMTのネットワークは中国語の単語をベクトル(1次元配列)のリストにエンコードします。個々のベクトルは「単語はここまで読まれた」ということを現わしています。そして翻訳する文章が全て読まれたら、デコーダーが英語の文章を1単語ずつ生成し始めます。生成される英単語と元の中国語の単語をつなぐように伸びる青色の線は、「デコーダーが翻訳単語を生成する際にどれくらい注意したか」を示しているとのこと。

以下の表は、いちばん左の中国語の文章をPBMT、GNMT、人間の3パターンで実際に翻訳した結果の比較。RBMTに比べるとGNMTのほうがより自然な文章に近づいていることが感じられるはず。

GoogleはGNMTの精度を高めるために、中国語から英語への翻訳限定でGoogle翻訳にGNMTを実装済み。中国語から英語への翻訳は、ウェブ版とモバイル版を合わせると1日当たり1800万件程度あるそうで、これらは全てGNMTが処理しているそうです。また、今後数か月以内に他言語での翻訳時にもGNMTが使用される予定とのこと。

なお、GoogleによるGNMTの研究に関する詳細は(PDF)論文に記されています。