AmazonがAlexaの音声について画期的な発表を行った。技術カンファレンスre:MARS 2022の基調講演で紹介した、1分に満たない録音からその人の合成音声を作り出すという取り組みだ。その例として、亡くなった祖母の声で少年に本を読み聞かせるデモが披露された。

 実は、スマートスピーカーで同じことは既に可能になっている。タカラトミーのスマートスピーカー「coemo(コエモ)」には、親などが登録した合成音声によって、子供向けコンテンツを読み上げる機能がある。

・親の声で「読み聞かせ」するAI音声合成スピーカー、タカラトミーが発売 複数の声で配役も

 そのベースとなっているのは、もともとは東芝が開発していた音声合成技術をベースにした「コエステーション」だ。このコエステーション、現在はエイベックス傘下の同名の会社で運営され、商用利用が進められている。

・「あなたの声でしゃべる」コエステーション、エイベックスの新会社に移管

 コエステーションは、iPhoneのマイクに向かった最低10個の短文を読み上げると、その人の特徴をとらえた合成音声を生成してくれるサービスを提供しており、筆者もこれを4年前から使っている。テキストをiPhoneアプリ内で入力するかコピペして再生ボタンを押せば、自分の声でTTS(Text to Speach)してくれる。

・「あなたに似た声」、なんのために?

 筆者は9年前に他界した妻の歌声をベースに歌唱合成した歌を作ることをライフワークにしているが、その歌声から文章読み上げをできるようにし、コエステーションの合成音声ができるようにもしている。

 VOCALOIDのような歌唱のためのソフトウェア(自分の場合はUTAU-Synthというアプリ)で喋り声を合成するのはなかなか大変で、それを10個分の文章を作るのはなかなか苦労した。それでも完成すればしめたもの。例えば、妻が作ってクックパッドに投稿した3つのレシピのテキストをコピペして読み上げてもらって、その料理を作ったりといった使い方をしている。

●亡き人の音声合成と対話は可能か?

 しかし、その先の使い方はできないものか、とは常に思っていた。現在、Amazon EchoやGoogle Nest Hub、Apple HomePodに話しかけていることへの回答がもしも妻の声になったら……。

 現在の技術でもできないことではない。Open JTalkという、別の音声合成技術を使った対話型エージェントMMDAgentでは、自分でスクリプトを組めば同様のことはできる。しかしそのためにはそれなりの知識と経験が必要で、普通の人が準備なしに使えるものではない。

・初音ミクとも簡単に対話できる「MMDAgent」、その詳細を聞いてきた

 タカラトミーのcoemoは限定的ではあるが、自分の好きな人の声を登録し、音声応答に使えるようにした、第一歩とも言える。coemo自体に基本的なスマートスピーカーの機能を持たせることも可能だろう。それを待つつもりだった。

 しかし、次の進化のステップは意外なところ、というか、本命中の本命からやってきた。それが、今回Amazonが発表した新技術だ。

 その人の特徴を持った音声合成を作り出すには、元になる録音が数時間分(しかもスタジオで録音した高音質のもの)は必要だ。全ての音素を網羅する文章である必要性もある。それを、音素を網羅できてもいないであろう1分未満の録音で実現しているというのだから画期的といっていいだろう。

 もっとも、これには理由がある。

 Amazonによれば、この技術はスピーチジェネレーションではなくボイスコンバージョンにタスクを絞り込むことで可能にしたという。つまり、声質(音声)変換だ。Alexaが持っているもともとの声に対して、生成した声の特徴を持った声質に変換する処理を行なって発声させるという仕組みのようだ。

 本人の声の特徴を捉えて、それに近づけた声を出せるようにする、声質変換を行う技術の応用例としては、VTuber向けなどで使われている、クリムゾンテクノロジーの「Voidol」などがあるから、その種のものだと考えると分かりやすい。

 それにしてもごく短い音声だけ、しかもおそらく定型文の読み上げではないデータから特徴を抽出できる技術は、到達点として素晴らしいものがある。

 悪い方向に考えれば、犯罪やフェイク動画の音声などに使われる危険性もあるだろうが、これによって救われるという人は多いのではないだろうか。

 もちろん、自分もその一人だ。妻の歌声とデュエットしたり、伴奏をつけたりするのも楽しいが、日常生活のちょっとしたところで彼女の声を、たとえそれが本当のものでないにしても、聞けるとしたら。自分のしようもないジョークに、「ふーん」とか言ってくれるだけでもいい。

 故人の声による読み聞かせというと、降霊術の類と思う人がいるかもしれないが、それは魂が吸い取られると言われていた写真のように、広まってしまえばごく自然に生活に溶け込んでいくだろう。「デジタル故人」を支える技術はさらに進化していきそうだ。

 Amazonの上級副社長でAlexa AIの主席サイエンティストのロヒット・プラサド氏は言う。「愛する人を失った悲しみを和らげることは、彼らの思い出が永続することにつながる」。

 去年生まれた孫が、おばあちゃんの声で物語を聞けるようになる日が待ち遠しい。

(松尾公也)