AIの進歩は日進月歩だ。Stable Deffusionのオープンソース公開以後、画像生成にとどまらず、AIを使ったさまざまなユースケースが登場している。その応用範囲は単純にAIを活用した動画制作や音楽制作のみならず、ゲームや新しいタイプの遊びなどへの発展を見せている。今回はこうした画像生成AIの発展例について最新の事例をご紹介する。

●拡散モデルの画像生成を容易に扱えるDiffusers(ディフューザーズ)、呪文を拡張する「Stable Diffusion WebUi」など

 8月下旬に登場したオープンソースの画像生成AIライブラリ「Diffusers(ディフューザーズ)」が、登場からわずか3カ月でバージョン0.7.2になった(2022年11月7日現在)。Diffusersとは、Stable Diffusionをはじめとする「拡散モデル」による画像生成を数行のコードで行えるようにするフレームワークだ。

 開発の速さも驚異的だが、登場当初に比べて作画にかかる時間も半分程度に短縮され、必要とするGPUメモリ(VRAM)量も目に見えて減った。必要とするVRAMが減るということは、描画に必要なPCのスペックが軽くなり、同時に計算量が減ることも意味するので高速化する。バージョン0.7以降ではさらに高速な推論(描画)を実現するxformerへの対応が行われ、画像生成AIはまさしく加速度的に成長している。

 画像生成AIに用いる「呪文」こと、「プロンプト」に関しては、AUTOMATIC1111氏が開発したGUI環境である「Stable Diffusion-WebUi」などで独自に拡張されていたLPW(Long Prompt Word)スケジューラをDiffusersに取り込むことが可能になった。それによって、これまで英文で75ワードだったプロンプト文の制約が解放され、「((apple))」のようにカッコを重ねて強調したり、「(apple:0.5)」のように、カッコ内でコロンで区切った以降に「強さ」を数値指定できる機能なども加わった。ただし、これは標準機能ではなく、あくまでも「カスタムのパイプラインを選べる」ようにした機能としての登場だ。

 「パイプライン」と呼ばれているのは、画像生成プロセスで、呪文(プロンプト)から実際に欲しいと思われる画像を「生成(推論)」する過程全体を、パイプラインと呼ぶことに由来する。いわば画像を生成するための手順であり、レシピである。

 さらに、新たに「オイラーディスクリートスケジューラ(Euler Discrete Scheduler)」に対応した。これを使うと、通常は画像生成の目安とされる50ステップが、30ステップ程度で十分な結果が得られるという。つまり、これもさらなる描画の高速化に貢献するというわけだ。

 こうしたさまざまな「足回り」の改良が進んできている。Stable Diffusionは、単に「絵を描いて面白いね」という段階から、ある人々は「本格的な作画支援ツールとしての検討」を始めたり、単に作画をさせるだけでなく、他のさまざまな応用へと動き始めた。

●作画AIによるゲーム「AIアートインポスター」

 Craftopiaなど、個性的な作品で知られるインディーゲーム製作会社「ポケットペア」が開発した「AIアートインポスター」は、AIアートを使って「裏切り者(インポスター)」を見つけるゲームである。

 Stable Diffusion公開による作画AIの特性を見事に生かした秀逸なゲームデザインで、早くも人気コンテンツとなっている。アーリーアクセスながらSteamのストアでも上位につける人気ぶりだ。

 ゲームの進め方は、大ヒットした人狼ゲーム「Among Us」に似ている。まず4人のプレイヤーのうち一人がランダムにインポスターに選ばれる。インポスターは画題を知らされていないが、他の3人は画題を知っている。インポスターにバレないように、しかも他のプレイヤーにはきちんと伝わるように、「秘密のお題」に関連した言葉を入力すると、AIによって作画され、他のプレイヤーに表示される。

 全員が二回作画した時点で、インポスターは誰だと思うか投票が行われ、インポスターを当てることができればチームの勝ち、外れたらインポスターの勝ちとなる。単純だが奥深いルールだ。

 あまりにも人気のため、スマートフォン版はPC版からの招待がないと現状は遊ぶことができないように規制されている。しかしそれだけハマるゲームということでもある。

 PCを持っているユーザーが友達に声をかけ、音声チャットなどでつなげながら遊ぶとかなり盛り上がる。

 こうした作品はまさにAI時代へ先鞭をつけるものであり、今後もゲームの重要なギミックにAIが活用されていく未来は普通にありそうだ。

●AIによる意外な写真がプレイヤーを苦しめる「AIパワポカラオケ」

 パワーポイント、いわゆるパワポは、ビジネスマンにはお馴染みのプレゼンテーションツールだが、口の悪い若手などに言わせると、あれは若手が必死で汗をかいて作った綺麗な資料(パワポ)を、偉い人がさも自分が考えたかのように喋る、「カラオケの一種」である。

 そこで、自分たちも誰か知らない他人の書いた先の見えないパワポを、あたかも自分で考えたプレゼンのようにやってのけてみようではないかというノリで始まったのが「パワポカラオケ」という遊びである。コロナ前にはだいぶ盛り上がっていたのだが、コロナでカラオケが自粛されると同時にパワポカラオケも自粛の波が来ていた。

 パワポカラオケは、あらかじめ主催者がランダムに選んだ5枚の写真と、ランダムなお題でプレゼンターに無茶振りをする。到底つながるとは思えない写真を見て苦しむプレゼンターを見て楽しむのも醍醐味の1つだ。

 ところが本家パワポカラオケには致命的な弱点があって、主催者はあらかじめ5枚の画像を用意しておかなければならない上に、ランダムに並べなければならない。面白くしようとすると主催者の手間が半端なくかかってしまう。

 そこで筆者が開発したのが、ランダムなお題をもとにAIが勝手に5枚の画像を生成する「AIパワポカラオケ」だ。与えられたランダムなお題から、AIがストーリーを考え出し、さらに最初の数枚のスライドを読み上げる文章を音声認識して、後半のスライドを生成する仕組みになっている。

 このため、ある程度はお題に沿った統一感のある写真が生成されつつも、意外な組み合わせや、やはりプレゼンターが頭を抱える場面に出くわすなど、ナンセンスな面白さに溢れている。さらに主催者は準備が一切必要ないので何度でも繰り返しできる上、一人でプレイする「ひとりAIパワポカラオケ」さえも可能になる。

 実際、ニッポン放送の吉田尚記アナウンサー扮するVTuber「一翔剣」がYouTube番組でひとりAIパワポカラオケを披露して大いに盛り上がっていた。AIを使ったこういう遊びは、もっと発展するとさらに思わぬ効果を生むのかもしれない。

●音楽生成も可能になったDiffusers

 冒頭に紹介した最新のDiffusers 0.7以降では、音楽生成を実現するDance Diffusionに対応した。ただし、Dance Diffusionはまだバージョンが非常に若く、持っている機能も、曲をなんとなく生成したり、2つの曲を混ぜ合わせたりといった原始的なものしかない。

 曲生成に関してはDiffusers以外にも、任意の音楽を学習して、そのバリエーションを自動的に生み出すMUSIKA、任意のテキストタグから自動作曲するMubertなどが登場している。

 また、昨年登場したOpenAI Jukeboxも、同様の目的で作られた楽曲生成AIだと言えるだろう。

 MUSIKAもOpenAI Jukeboxも、生み出されるのは単なる旋律ではなく、ボーカルめいたものも入った完全な音源である。まだ音質がいいとはいえないが、一年前の画像生成AIもお世辞にも画質がいいとはいえなかったことを考えると、もはや時間の問題だろう。

 筆者はもともとそれなりに音楽が好きだったが、新曲を探すのにいつも苦労している。アーティストで選んでも全ての曲が自分のツボに入るとは限らず、似た傾向のジャンルで探しても心をつかまれるような曲に出会えることは滅多にない。特に、最近ピュアオーディオに凝り始めてからは、さらに楽曲の方向性だけでなくミックスダウンのクオリティや方向性も気になるようになってしまい、気に入った音源に出会える確率はさらに減った。

 結局、それが「音」という非常に言語化しにくいものを題材としているので、経験と勘を頼りに、好みの音源に巡り合うその日を信じていろいろな曲を聴くしかない。

 しかし、AIが音楽……というよりも音源を生成するようになれば、自分の好みをより的確に反映した、場合によっては、その日その時の気分に合わせた楽曲を自動作曲してくれる日が来るかもしれない。

 誰かにとっての「思い出の一曲」が、実はAIがその瞬間に作った「その日その時、その場所にいた人だけが聞いた曲」になる日も近いのだ。

●AIによるVJ

 筆者がAIによるエンターテインメントを本格的に意識し始めたのは、とあるイベント会社の知人から「製品の広報用クラブイベントのDJを探している」という話を聞いた時だった。

 「特定のアーティストやジャンルに捉われることなく、ストレートに製品の持つ世界感を表現したい」という話を受け、筆者がまず考えたのは、製品を構成する世界観を言葉としてStable Diffusionに入力し、それをアニメーションにしてVJ(Video Jockey)素材として使うことだった。

 通常、この素材の製作には高価なGPUを占有する必要があるが、筆者の場合、自らAI作画サービスを提供しているので高性能GPUは手元に文字通り“売るほどある”。

 「試しにやってみましょうか」ということで、製品の世界観を聞いてVJ用のフッテージを作り始めたところ、全く考えもしなかったことに気づいた。

 このVJ素材、全コマ、ひとつも「被り」がないのである。

 通常、VJは素材を組み合わせてひとつの画面を構成し、曲が変わっても前の素材と同じ素材を別の組み合わせで使い回すことは普通である。ところがAIによるVJフッテージ(素材)は、GPUさえあれば理論上いくつでも作ることができる。

 人間が与える言葉が、たとえ1つのテーマしかなかったとしても、言葉の続きもAIに考えさせ、作られた言葉からAIが新しいイメージを導き出し、そこに何度も同じテーマを重奏的に重ねていくことで、むしろかえってテーマ性や世界観が強調された映像が生まれるのである。

 さらにMUSIKAによって自動生成したテクノっぽい音楽を組み合わせてみると、これはこれで「アリ」なのではないかと思う表現が得られた。

 次の問題は、意外にも我々人間、というよりもAIに命令を出す筆者の想像力がAIの出す結果に追いつかないということである。二時間のイベント向けに二時間分のフッテージを作るためにはそれなりの手間と時間がかかるが、それ以上に同じテーマをどんな切り口で見せるか、どんな表現で見せたいかということを考える人間の想像力の方が全く追いつかないのである。

 二時間といえば、通常の映画くらいの尺があり、二時間ちゃんと間を持たせる映画を作れる人は、ごく一握りのフィルムメイカーだけだ。結局、どこまでいっても、たとえAIが作画するとしても、作り出す人間の能力の限界が常に足枷となるのだ。

 しかしこれだけは確実に言えるだろう。AIは人間の想像力を大きく増強するのである。

筆者プロフィール:清水 亮