米Alphabet傘下の英DeepMindは7月28日(現地時間)、2億を超える種類のタンパク質構造の予測情報を専用データベース「AlphaFold Protein Structure Database」で公開した。この数は科学的に知られているほぼ全てのタンパク質の数に及ぶとしており、2021年同時期に公開していた約100万種類から200倍以上増加したことになる。

 同社は欧州分子生物学研究所(EMBL)とパートナーシップを結んだことにより、新たなデータの公開に至ったと説明。公開したデータは植物やバクテリア、動物、その他の生物などが持つタンパク質の予測構造を含んでいる。Google Cloudの「Google Cloud Public Datasets」から一括でダウンロードできる。

 この成果は同社が21年7月に無償公開した、遺伝子配列情報からタンパク質の立体構造を解析するAI「AlphaFold v2.0」(以下、AlphaFold2)によるもの。タンパク質は複雑な立体構造を持つため、その特定には数カ月から数年の時間がかかるといわれている。この問題は「タンパク質折りたたみ問題」として50年以上、生物学の課題とされてきた。

 この問題を解決する方法として生み出されたAIがAlphaFold2だ。AlphaFold2を利用することで、タンパク質立体構造を短時間で予測するなどの研究の業務効率化を実現。無償公開から12カ月で50万人以上の研究者が利用し、プラスチック汚染や抗生物質耐性など、さまざまな研究に寄与したという。

 DeepMindは「タンパク質のほぼ全容を明らかにする構造が新たに加わったことで、より多くの生物学の謎が解き明かされていくだろう」とコメント。また同社のデミス・ハサビス代表はTwitterで「これは人類への贈り物であり、AIが社会にもたらす利益を示すものだ」と投稿している。