Screenshot: Google I/O

Google(グーグル)が、開発者向けカンファレンス「Google I/O」にて新たな生成AIツールを発表しました。

今回のGoogle I/Oでは“マルチモーダリティ”というキーワードを何度も使い、GoogleのGemini AIにおいて、テキストだけでなく音声や画像、動画、コードなどさまざまなメディアでの入力、そして出力を強化していることを強調していました。

そんななかで発表になったのが、画像生成AIツールの最新バージョン「Imagen 3」、音楽生成AIツールの「Music AI Sandbox」、そして動画生成AIツールの「Veo」です。

画像生成AI「Imagen 3」

Screenshot: Google I/O

最初に発表されたのが、2022年にリリースされた画像生成AIの最新バージョン「Imagen 3」です。

Imagen 3では、画像生成におけるテキストプロンプトの入力が強化され、たくさんの情報を含んだ長文を理解し、非常に細かい部分まで指定して画像を生成できるようになりました。

たとえば、発表会でのデモ画像(上部画像)では、「高解像で」「カラーグレーディング」「超現実的なスタイル」といった画像編集で行なうような指定も含むテキストから生成されています。

ほかにも、「被写界深度を浅く」「偏光フィルターを使って」「デジタル一眼レフカメラのスタイルで」といった、撮影時のカメラをどのように使うかの指示も理解できるようになりました。

音楽生成AI「Music AI Sandbox」

Screenshot: Goole I/O

次に紹介するのは音楽生成AIツール「Music AI Sandbox」です。こちらは、Googleが開発してきた音楽生成AIモデル「Lyria」を元に、音楽生成ツールとして開発されたもの。

発表会では、ワイクリフ・ジョンら、プロのミュージシャンが実際にツールに触れている動画が公開されました。

このツールでは、ジャンルや楽器、キー、テンポなどのテキストから音楽を生成できます。

さらに、DTMで作成したループや録音したギターリフなどからその音を加工・編集することも可能とのこと。こちらも、音を生成する際に入力できる複雑な文脈のテキストも理解できるようになり、より幅広い音楽の生成が可能になっているようです。

動画生成AI「Veo」

最後は、動画生成AIツール「Veo」です。

Veoでは1920x1080解像度の1分以上の動画を生成できます。さらに、「ドローンでの空撮」や「タイムラプス」といったさまざまな撮影方法や映像表現を実現することも可能とのこと。

デモとして公開された上の動画では、「ディストピア的な未来」「ネオンサイン」「高速の追跡ショット」「レンズフレア」などのテキストから生成されました。撮影方法や色味などの具体的なテキスト、ジャンルや全体の雰囲気などの抽象的なテキストやニュアンスなどをかけ合わせたテキストから、高解像度で非常に豊かな映像表現を用いた動画を生成しているのがわかります。

発表会ではさらに、俳優であり映画/ドラマプロデューサーのドナルド・グローヴァーが、実際にVeoを用いて動画の制作を行なった様子が公開されました。

動画のなかで、ドナルド・グローヴァーはこのツールに触れたあとで、「誰もがクリエイターになれるし、誰もクリエイターになるべき」とコメントしています。こうしたツールによってなにかを創造するまでの道のりが短くなれば、誰もがクリエイターになれるようになるでしょう。

映画や音楽が好きというだけの自分が、映画を1本作ったり、1枚のアルバムを作ったりできるかもしれないと思うと自然とワクワクしてきます。

source: Google I/O, YouTube