独ベンチャー企業が生み出した翻訳エンジンが、巨人グーグルをしのぐと話題だ。だが初心者でも気付くようなミスを犯す弱点も。二面性の原因は何なのか。AERA 2020年7月27日号で掲載された記事を紹介。

*  *  *
 関西大学の山田優教授(通訳・翻訳学/翻訳テクノロジー論)は、DeepLは学習しているデータの質が高いと評価する。

「DeepLは汎用性の高いデータをしっかり学習しつつ、専門用語や最近話題になった言葉も確実にモノにしています。グーグルのやや弱い部分をかなり改善した印象です」(山田教授)

 山田教授は、機械翻訳の質の評価には大きく分けて二つの観点があると話す。原文の意味をいかに正しくとらえているかという“正確性”と、どれだけ自然な文章になっているかという“流暢性”だ。

 編集部では山田教授に、DeepL、Google、Weblioの3エンジンに「エキサイト翻訳」と「みらい翻訳」を加えた5種類の翻訳エンジンで、6月22日付朝日新聞朝刊のコラム「天声人語」などを訳した英文を評価してもらった。どのエンジンの訳なのかを隠したが、最高の評価を得たのはDeepLの訳だった。

「機械翻訳に向かない文学的な表現など評価が難しい部分もありますが、全体の印象ではDeepLは正確性が高く、流暢性も群を抜いています」(同)

 一方、グーグルは意味に直接かかわる正確性は優れているが、流暢性ではやや劣るという。例えば「野球の球をバットの芯でとらえた音は、賢治ならどう表現しただろう」という日本語の「どう表現しただろう」を、DeepLはHow would〜と訳し、グーグルはHow did〜とした。

「流暢性に関わる部分でwouldが適切です。英語を学ぶ学生でもこの程度のミスは頻繁に犯しますが、これを正しくwouldと置いたのはとてもいい訳だと思います」(同)

 また、みらい翻訳も流暢性が高いが、正確性がやや犠牲にされており意訳のような部分があったという。ほか二つの翻訳エンジンは厳しい評価だった。

 山田教授はDeepLについて「主語の取り違えなど人間が犯しづらい単純なミスは時折起こる」としつつ、「文法や語彙など純粋な英語力はTOEIC950点程度のレベルがあるのではないか」と評価する。一般的に860点以上で「専門外の分野の話題でも十分な理解とふさわしい表現ができる」とされ、950点は日常的に英語を使う人でもなかなか到達できないスコアだ。

「私が実際の翻訳で草稿に使ってもいいレベルです。大学院などで本格的に英語を勉強した人でないと、文法的なエラーは見つけられないでしょう」(同)

 それほど高精度なDeepL翻訳が、「人間が犯しづらいミス」をするのは、AIが自ら学習した過去のデータを元に導き出した訳が、文法や社会常識など人間のルールで正しいかどうかまでは判断できないためだ。AIにとっての正解が、人間にとっても正解とは限らない。

 それがときに、大きな問題を生むこともある。昨年10月の台風19号の際、静岡県浜松市が在住ブラジル人などに向けてポルトガル語で配信したメールに重大な誤訳があった。「高塚川周辺に避難勧告が出ました」という文が、「高塚川周辺に避難してください」と読める文になって配信されたのだ。

 浜松市国際課によると、機械翻訳で日本語→英語→ポルトガル語と2段階で翻訳した結果だという。本来はポルトガル語ができる職員が最終チェックするはずだったが休日で不在にしており、緊急時だったためそのまま配信された。

 山田教授は言う。

「最終的なジャッジをできない機械翻訳では、このようなミスを100%防ぐことはできません。一方で全体的な精度はかなり高くなっており、最終チェックができる人間と組み合わせればものすごい速さで正しい情報を出すことができるはずです」

 DeepLが目指すのは、「言語がコミュニケーションの障害となることなく、誰もがアイデアを共有できる世界」(コミュニケーション・PRマネジャーのリー・ターナーさん)。その実現には我々人間も学習する必要があると山田教授は言う。

「“かっこいい先生の自転車”のように元の文章があいまいでは、訳文を正しく評価できません。機械翻訳が日常的に使われる社会になりつつあるいま、ユーザーの側にも基本的な言語リテラシーがこれまで以上に必要になってくると思います」

(編集部・川口穣)

※AERA 2020年7月27日号より抜粋