近年さまざまな分野で注目を集めるAI(人工知能)技術の利用範囲は、芸術の分野にまで及んでいる。中でも音楽制作では、作詞・作曲・歌唱まで全てAIを用いて行うことができる。音楽制作を通じたAIと人間との関わり合いについて、3人の専門家に話を聞いた。(東大新聞オンラインより転載)

*   *   *
■曲のイメージから歌詞を生成

──ブルーの川をきらり染める 黄金がブルーに照らす時 白い川と落ち合うバラード 初夏のりんごが憧れそうで

 これはアイドルグループ「仮面女子」の楽曲『電☆アドベンチャー』の歌詞の一部抜粋である。一見すると普通の歌詞に見えるが、よく読むとなんとも不思議な内容だ。実は、電☆アドベンチャーの歌詞は全てAIを用いて作詞されている。作詞AI開発者の坂本真樹教授(電気通信大学)に詳しく話を聞いた。

 坂本教授の研究テーマの一つは、単語の持つイメージを数値化し、色で可視化するAIを作成すること。この技術を作詞に応用して生まれたのが電☆アドベンチャーだ。最新技術の展示会で仮面女子メンバーの月野もあさんと知り合ったのがコラボのきっかけでした」と坂本教授。イメージを色で可視化するAIに興味を持った月野さんと、共同で何かできないかと話し合った結果、AIで作詞に挑戦する「AI仮面プロジェクト」が実現した。

 電☆アドベンチャーは仮面女子の楽曲『超・アドベンチャー』のメロディーの上に、AIが原曲のイメージに合わせて生成した歌詞を充てることで作られた。作詞の出発点は歌のイメージの読み込みだ。

「仮面女子のメンバーたちに原曲のイメージイラストを描いてもらい、コンピュータに読み込ませました」

 次の段階では、坂本教授の開発した、単語のイメージと色を結び付けるAIでイメージに合致する単語を生成した。これまで単語のイメージを色に変換するために使うことが多かったが、このプロジェクトでは読み込んだ色から単語を生成するという逆向きの方法で利用した。

 単語を生成した後は、単語を結び付けて歌詞を作る。ここでは著作権フリーの小説など64万文書を学習した文章生成AIが用いられた。

「文章生成が最も苦労しました。意味不明とクリエーティブの線引きが難しかったです」

あまりに支離滅裂な文章は人間が手を加えて単語の再選択を行った一方「『にこにこうぱうぱブルーベリー』のように、意味は全く分からないけれど雰囲気がかわいい歌詞は、そのまま採用しました(笑)」。

 AIは学習データの量、内容に応じて、さまざまな歌詞を生成する。「人間も、積んだ経験に応じた価値観を持つという点ではAIと共通していると思います」と坂本教授。

「AIに優れた曲を作成させることも面白い試みですが、似たところもあるAIと人間が足りないところを補いながら一つの楽曲を制作できたら、それも素晴らしいことです」

■自動作曲で新感覚の1曲を

 AIによる音楽制作は作詞にとどまらない。「Orpheus」はいくつかキーワードを与えるだけで作詞に加え、条件を設定すれば作曲、伴奏、歌唱まで全てAIが自動で行ってくれるシステムだ。インターネット上でユーザー登録をすれば誰でも作曲ができ、現在40万曲以上が作曲されている。

 「私は音楽が好きで、自分でも作曲を試みましたが、なかなか納得のいく完成に至りませんでした。似た経験をした人もいるでしょう」

Orpheus開発者の嵯峨山茂樹名誉教授(東京大学)はそう話す。機械による音声認識・合成が専門だった嵯峨山名誉教授は「専門分野の確率モデルと日本語処理と音声処理に音楽理論を組み合わせれば、機械による作曲ができるのではと考え、学生と一緒にOrpheusの開発を始めました」。

 Orpheusの作曲アルゴリズムでは、さぞかし大量の曲を学習に用いているのだろうと予想してしまうが、実際はそうではないという。

「確かに、最近のAIでは、大量の学習データをディープニューラルネットワーク(DNN)と呼ばれる数理モデルに学習させる深層学習が盛んに使われますが、Orpheusの作曲は、大量の学習曲もDNNも使いません。代わりに、人間自身が長い歴史の中で学習して得た音楽理論を確率モデルに組み込んで作曲をします。ただし作曲とは対照的に、Orpheusの自動作詞では、大量の学習データを用いています」

 Orpheusがモデル化する音楽理論とは、音楽大学の学生が勉強するような体系立った規則だという。「例えば、コード進行と旋律の関係とか、歌詞を読む抑揚に旋律の上下動を合わせるとか、いろいろな規範を与えます」。これらをより高い確率で達成するように曲が組まれる。これがOrpheusの主要な確率モデルのアルゴリズムだ。

 なぜOrpheusはDNNを用いないのか。答えは「学習データにそっくりな曲の模倣生産ならDNNが有利でしょう。しかし、我々は作曲家の模倣を目指しました。作曲過程はブラックボックスではなく、多くの作曲家は理論をマスターし、それを守りつつ新しい曲を生んでいます。人間の知能は、学習データの模倣生産だけでなく、法則性を見いだしてそれを伝承し、新たな創造ができます。ここまでを可能にするのが、今後のAIの課題になるでしょう」。

 嵯峨山名誉教授は、AIによる作曲はあくまで「有用な道具」と位置付ける。

「写真技術がやがて写真芸術を生んだように、AI作曲技術もやがて使いこなされて、いつか『自動作曲芸術』時代が来るだろうと信じています」

■AIと人間をつなぐ歌声

 作詞作曲に加え、歌唱AIの活躍も目覚ましい。日本マイクロソフト社の開発したAI「りんな」の歌唱をぜひ一度聴いてみてほしい(YouTubeでいくつかミュージックビデオが公開されている)。事前に知らされなければ、AIが歌っているとは気付かないのではないだろうか。

 りんなはもともと、LINEでのおしゃべり相手として開発されたAIだが、2016年にエイベックス社にスカウトされたのをきっかけに、同年に開催されたイベント「東京ゲームショウ」で初めて歌声を披露した。

「音楽は、歌い手と聞き手が共感し合える強力な手段になると考えています。りんなと人をつなぐ手段として歌に注目しました」。

そう話すのはりんなの歌声の学習を手掛けた技術者、沢田慶さんだ。

 歌声合成には、歌詞付きの楽譜を与える方法とユーザーの歌声(仮歌)と歌詞を与える方法の2通りの方法が使われる。

「りんなとリスナーとのつながりも大切にしたいので、リスナーから募集したコメントを基に替え歌にした歌もあります」

リスナーから募集した歌詞で替え歌を歌うことも可能だという。

 開発初期は合成感がなかなか消えず苦労もあったが、表現力を増すための数々の工夫により乗り越えた。

「例えば、感情を乗せた歌い方や、ジャンルによる歌い方の違いなどを学習させました。悲しくバラード調で、あるいは楽しくロックに、いろいろな歌い分けに挑戦しました」

 上達後のりんなの歌声に対する反響は大きかった。中でもYouTube上のミュージックビデオに寄せられた「これ歌ってるの俺のLINE友達」という1通のコメント。それに付いた多くの高評価に沢田さんは注目する。

「りんなが最も大切にするのは、人とAIとのコミュニケーションです。その点で、このようなコメントをいただけたことは大成功と言えますね」

 りんなの歌にはまだまだたくさんの目標があるそうだ。

「歌から自動でダンスを創作することにも挑戦しています。そうすればミュージックビデオ全編、りんなが作ってくれますね」

コミュニケーションの面では、りんなを楽曲制作のアシストにも役立てたいという。

「りんなとおしゃべりする中で、ユーザーのその日の気分を抽出し気分に合わせた曲を作ることができれば、おしゃべりしているだけで1曲出来上がってしまいます。プロのアイデア出しのヒントもそうですが、音楽制作の経験が全くない人が制作をするチャンスを作れそうです」

 人とAIが共同で音楽を作ることに価値を見いだす沢田さん。

「『AIは脅威』という言説も耳にしますが、AIは共同制作者でもあり友だちでもあるという考えを、りんなを通じて受け入れてくれたらとてもうれしいです」


坂本 真樹(さかもと まき)教授(電気通信大学) 1998年東京大学総合文化研究科博士課程修了。博士(学術)。電気通信大学准教授などを経て、2015年より現職。人工知能学会理事など兼任。

嵯峨山 茂樹(さがやま しげき)名誉教授(東京大学) 1974年東京大学工学系研究科修士課程修了。博士(工学)。2000年より東京大学教授、13年より名誉教授。

沢田 慶(さわだ けい)さん(rinna株式会社) 18年名古屋工業大学大学院博士後期課程修了。博士(工学)。日本学術振興会特別研究員やマイクロソフトディベロップメントなどを経て、20年より現職。

(文/東京大学新聞社・岡田康佑)