マイクロソフトは、同社が開発する女子高生AI「りんな」の話し声と歌声に新たに「感情スタイル」を導入したことを発表した。

同社ではりんなの声を音声合成で生成するにあたり、人間の声の表現について、そのニュアンスを学習し表現を再現することを「スタイル」と呼んでおり、今回導入された「感情スタイル」は人間の声の感情表現を再現するというもの。

人間が嬉しさ・悲しさを表現する時に出す声のニュアンスを学習し、「嬉しい」「悲しい」という2つの感情スタイルをりんなの声に追加。話し声でだけではなく、ポップやバラードなどの音楽的な表現に感情表現を組み合わせた歌声の表現が可能になったという。

アップデートにあたり、約2時間分の「嬉しい」および「悲しい」声をそれぞれデータに用いた学習を実施。人間が「声の高さ」や「イントネーション」を調整するのではなく、与えた文章に対して、それぞれのスタイルでの感情表現方法をニューラルネットワークが予測し、話し声の音声を生成する。

また、昨年発表した「歌唱モデル」にも、「嬉しい」および「悲しい」声をデータとして学習させることで、ポップ、バラード、ロックなどの歌唱表現と感情表現を組み合わせた歌声の生成が可能に。学習データには含まれていない「ポップ調の悲しい歌声」や「バラード調の嬉しい歌声」といった歌唱表現をモデルが予測できるようになる。