では、Soraでも採用されているDiffusion Transformerは、これら2つの技術を組み合わせてどのように実現しているのだろうか。それは、ノイズを加えた入力データから、ノイズ除去して新たなデータを生成する、というプロセスに用いられている「U-Net」と呼ばれるモデルを、Transformerに置き換えることである。

U-Netは入力画像の局所的な特徴と全体的な特徴を効率よく学習できるモデルとして知られており、元々は画像セグメンテーションの分野で使われることが多い機構である。しかし、U-Netでは各画像部分の相互作用などの関連性を捉えることにおいて弱点が存在する。それをTransformerの機構が解決し、利点である並列化によるスケールアップも可能となっているのである。

もちろんDiffusion Transformerを基盤技術として採用しているモデルはSoraだけではない。2024年2月にスタビリティAIによって発表された最新のモデルである「Stable Diffusion 3」でも採用されている。

「Sora」が一般公開されない理由

モデルサイズの巨大化やさまざまなデータソースを用いた効率的な学習基盤技術に関する研究は、急速に進化していくであろう。しかし、生成AIの能力が向上するにつれ、悪意ある使用が大きな問題となっている。実際の画像と見分けがつかないクオリティの生成が可能であるため、有名人に関するフェイク画像がSNS上で拡散されるなどの問題が生じている。

このような問題への関心が高まる中、OpenAIは発表から1カ月が経過してもSoraの一般公開を行っていない。現在、安全な利用に向けてレッドチームと呼ばれる専門家チームを構成し、倫理的に問題のある使い方が可能かどうかを検証しているフェーズである。特に、生成AIの悪用に関して関心度が高いのは選挙である。2024年11月にはアメリカ大統領選挙を控えているため、生成AIの悪用リスクへの懸念が高まっている。この点に対応するため、グーグルは自社の生成AIであるGeminiに対し、選挙関連の質問には答えないよう制御すると発表している。

すでに生成AIの活用は進んでおり、扱えるモダリティが増えるにしたがって今まで利用していなかった業界にも波及していくだろう。しかし、生成AIの利便性などのポジティブな面のみにフォーカスしていた局面は転回点を迎えている。今後は生成AIの開発者、ユーザーに対して倫理面に配慮したガイドラインの設計が不可欠となるだろう。

著者:阿部 将大