例えば、Adobeは音楽の作成・編集作業をテキストによるプロンプトで行うことができるツール「Project Music GenAI Control」を発表するなど、クリエイティブ領域にも新たな活用可能性を秘めている。その中でも特筆すべき最新の動向として、OpenAIによる「Sora」を内部の技術に触れながら紹介する。

高度な動画生成を支える技術

Soraはテキストから高品質のビデオを生成することができるモデルであり、従来のマルチモーダルLLMの能力を大幅に拡張している。特に、Soraは長時間の動画を生成し、複雑な3Dシーンや動的な物体の追跡など、細部にわたるリアリティを実現している。

Soraに用いられている技術の核となる「Diffusion Transformer」は、2023年に発表されたモデルアーキテクチャである。しかし、この技術はまったく新しい概念ではなく、近年のAI技術の進化を支える2つの主要なモデルのエッセンスを巧みに組み合わせて実現されたものである。その2つのモデルとは、「Transformer」と「Stable Diffusion」である。

Transformerは2017年12月にグーグルの研究者らが考案したモデルである。当初は翻訳タスクで評価され、従来の性能を大きく上回るモデルとして注目を集め、その革新性から「ニューラル機械翻訳」と呼ばれた。

Transformerは、前述のエンコーダーと「デコーダー(復号器)」の2つの機能をつなぎ合わせた構造になっている。翻訳タスクであれば、エンコーダーによって翻訳前の文章の特徴が抽出される。抽出された特徴データは、デコーダーに入力され、翻訳先の言語に変換される。Transformerが、翻訳精度を向上できた背景には、入力される単語間の特徴を精度高く抽出できるようになったこと、学習時に並列処理可能な構造になったことが大きく寄与している。現在に至るまで、Transformerは翻訳タスクにとどまらず、画像や音声の処理にも活用されている汎用的なモデルとなっている。

もう一つのモデルであるStable Diffusionだが、これは近年の画像生成精度を大きく向上させたブレークスルーとして広く応用されているモデルである。Stable Diffusionには、潜在的拡散モデルと呼ばれる画像生成の手法が用いられている。この手法は、オリジナルの画像や音声に対しノイズを加えたデータから、元のデータを復元するアイデアに着想を得たものである。Stable DiffusionはイギリスのスタートアップであるスタビリティAIによって2022年8月に公開された。学習済みモデルも含めて公開されたため、多くのユーザーが独自に改良することが可能であったこともユーザーを爆発的に増やした要因である。