米Google ResearchとイスラエルのTel Aviv Universityの研究チームが開発した「Prompt-to-Prompt Image Editing with Cross Attention Control」は、AIが文章から生成した画像に修正を加えられる技術だ。入力に使った文章の一部を修正することで画像全体を大幅に変えず、その部分だけをピンポイントで変えられる。

 例えば、「自転車に乗る猫」を「車に乗る猫」に書き換えると、風景や猫の位置はそのままに、自転車だけが車に置き換わる。他にも風景画を子どもが描いたスタイルに変えたり、ホールケーキをデコレーションしているグミを特定のメーカーのグミに変えたりなど、さまざまな編集が可能となる。

 Imagen、DALL-E 2、Partiなどの大規模言語画像(Large-scale language-image、LLI)モデルが驚異的な出力結果を示し、研究コミュニティーや世間からかつてないほどの注目を集めている。直近では「Midjourney」が話題になっている。

 これらのLLIモデルは、大規模な言語-画像データセットで学習され、自己回帰モデルや拡散モデルを含む最先端の画像生成モデルが用いられている。これらのモデルはゼロからの画像生成には適しているが、途中からの簡単な画像編集はできないのがデメリットで、わずかな変更でも全く異なる出力画像になる。

 これを回避するためLLIモデルを用いた手法では、ユーザーが画像の一部をマスクして元画像の背景と一致させながらマスクした部分のみを編集画像として変化させる手法が取り入れられている。この方法は良好な結果をもたらすが、手順が煩雑で迅速かつ直感的な言語-画像モデルの利点を損なう。

 今回は入力に使用した文章を一部テキスト修正する方法で、一度生成した画像のその部分だけを修正する手法「Prompt-to-Prompt」を提案する。

 この手法は、Cross attention層で発生する画素とテキストの相互作用を修正することで局所的な画像編集を行う。具体的には、プロンプトテキストの拡散ステップでCross attentionマップを注入し、どの画素がどの拡散ステップでどのトークンに注目するかを制御することで、画像編集を可能にする。

 この手法で出力した画像は、元画像の構造の多くを保持したまま、編集内容に従って部分的に変更を行い画像を仕上げる。一度生成されたお気に入りの画像構造を残しつつ、ここだけ変えたいなどのニーズに簡単に答えることができる。

 Source and Image Credits: Hertz, Amir, Ron Mokady, Jay M. Tenenbaum, Kfir Aberman, Yael Pritch and Daniel Cohen-Or. “Prompt-to-Prompt Image Editing with Cross Attention Control.” (2022).

 ※テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。