米Dolby LaboratoriesとスペインのUniversitat Pompeu Fabraの研究チームが開発した「Universal Speech Enhancement With Score-based Diffusion」は、収録した映像のバックグラウンドノイズ(背景雑音)を強力に除去する技術だ。動画撮影した雑音を消し去り、話す声だけをくっきり残すことができる。強力すぎるため、映像がアフレコを挿入したみたいな仕上がりになってしまう。

 実世界で録音した音声には必然的に背景の雑音や残響が含まれ、不快感や明瞭度の妨げになるためノイズ除去が行われる。最近では深層学習の登場によりノイズ除去技術の精度が向上した。

 だが音声強調の観点ではノイズ除去だけが全てではなく、クリッピング、コーデックのアーチファクト、リバーブ、スペクトル操作、過度の圧縮、最適でないイコライゼーション、帯域制限、ラウドネスの不整合など考慮できる要素は他にも複数存在する。

 研究ではこれら合計55種類のゆがみを扱い、補正するシステムを提案する。この手法は、スコアベース拡散を用いた生成モデルと、混合密度ネットワークを用いて強調を行う多重解像度解析の調整ネットワークから構成される。

 このモデルで編集した音声は精度が高く、まるで声だけを切り取ったかのような出力結果を示す。

 実験では専門家の参加者たちによる主観評価を行った。その結果、最新アプローチ12モデルをしのぎ、この手法が高品質な音声強調ができると分かった。古い映画や料理番組、屋外で撮影した映像などにこの手法を適応し音声のみを強調した比較を確認することができる。

 Source and Image Credits: Serra, Joan, et al. “Universal Speech Enhancement with Score-based Diffusion.” arXiv preprint arXiv:2206.03065 (2022).

 ※テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。