英オックスフォード大学、米Facebook、米ミシガン大学による研究チームが開発した「SynSin」は、1枚の静止画から新しい視点の画像を合成する深層学習フレームワークだ。画像に入り込んだかのように、「その先」の風景を見られる。

 画像の中に入れたとして、前や斜めに進んだらどんな風景が見えるだろうか。このように未知のシーンを予測するのが今回の技術だ。予測できる風景は少し進んだ先のものだけだが、この技術は画像編集、静止画のアニメーション化、画像の3次元表示などに応用できる。

 このように新しい視点での画像を合成するためには、画像に写り込んだ物体の相対的な動きを捉えるための3次元構造と、部分的にしか見えない物体を補完して合成するためのセマンティクス(データの意味)を理解する必要がある。既存の手法では、ボクセル(ピクセルの立体版)グリッドを使用して3次元構造を表現しているが、出力の解像度に制限がある。

 今回の手法は、点群データから3次元構造を表現するアプローチを採用することで、この制限を回避している。具体的には、入力画像と、相対的な姿勢から推定した特徴量マップと深度マップを用いて高解像度の点群データを生成し、点同士を連続した曲線としてつなげた群で出力する。出力した画像は、実画像と敵対させるGAN(Generative Adversarial Network)で学習し精度を向上させる。

 このように学習したモデルは、視点移動により欠落する領域を補完するため、移動した先の合成画像を生成できる。また、生成モデル内の3次元コンポーネントにより、軌跡をアニメーションにした映像も作成できる。

 これら出力結果は、複数のデータセットで評価され、結果ボクセルベースの3次元表現を使用するベースライン手法よりも優れていることを実証したという。

※この記事は、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。