米MetaのReality Labsの研究チームが開発した「Authentic Volumetric Avatars from a Phone Scan」は、スマートフォンで自撮りした短時間のスキャン画像から、本物そっくりの3D頭部アバターを生成するシステムだ。異なる視点やフォトリアリスティックな表情を表現し、高い忠実度で再現する。

 現在、実在する人物のアバターを作成するためには膨大な人物データを取得する必要があり、そのデータを収集するには大規模なマルチビューキャプチャーシステムを必要とする。そのため軽量なデータキャプチャー、低遅延、許容できる品質でのアバター作成プロセスを自動化することが望まれている。

 研究では、これら課題に挑戦するため、スマートフォンの短時間のキャプチャーだけでその人物に忠実な3D頭部アバターを作成する手法を提案する。既存の手法とは異なり、人間の外見の多様性を直接モデル化する複雑な作業を避け、代わりに少量のデータで新しいアイデンティティーに特化できるアバターモデルを生成する。

 システムは、数百の人物からなるマルチビュービデオの高品質コーパスで学習したハイパーネットワーク形式の事前情報、ユーザーのニュートラルな表情のスマートフォンスキャンデータでモデルを調整する技術、追加の表情データで個人化モデルを微調整する逆レンダリングに基づく技術で構成される。

 ユーザーはiPhone 12などに搭載のRGB-Dカメラで、手を動かしてニュートラルな顔をさまざまな視点から撮影し、加えて顔の正面からいくつかの表情をカメラで撮影する。

 これら撮影したデータから、しわや歯などの人物特有の細部を保持したテクスチャとジオメトリにより、高品質な表現力を持つ頭部アバターを生成する。複雑なヘアスタイルや眼鏡のきれいな生成は難しいが、照明条件に安定しており視点が変わっても一貫した光の当たり具合を表現する。

 実験によりこの手法が大規模なマルチビューキャプチャーシステムを使用して構築されたアバターと同等の優れた視覚的品質とアニメーション性であることが示され、性能の高さを実証した。生成されるアバターはリアルタイムにVRでレンダリングできるため、テレプレゼンスシステムへの応用が考えられる。

 Source and Image Credits: Chen Cao, Tomas Simon, Jin Kyu Kim, Gabe Schwartz, Michael Zollhoefer, Shunsuke Saito, Stephen Lombardi, Shih-en Wei, Danielle Belko, Shoou-i Yu, Yaser Sheikh, and Jason Saragih. “Authentic Volumetric Avatars from a Phone Scan”

 ※テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。