Image: rafapress / Shutterstock.com

OpenAIが提供するチャットAIサービスChatGPT。その頭脳である大規模言語モデルGPT。最新モデルGPT-4のトーレニングにおいて、YouTubeの動画100万時間分の文字起こしデータが使用されていると、ニューヨーク・タイムズ紙が報じています。

YouTubeのニール・モーハンCEOが、YouTube動画とその文字起こしをAIトレーニングに利用するのはサービス規約に明らかに反する行為であると、Bloombergのインタビューにて語った直後の報道だけに、AIトレーニングのあり方が再び(というか常に)問題視されています。

データはいくらあっても足りない

運用にもトレーニングにも、莫大な電力が必要なAI。どれだけ喰べてもまだ足りないのは、エネルギーだけではありません。より賢くなるためには、莫大な勉強素材が必要なのです。

ニューヨーク・タイムズ紙の報道は、自称OpenAIのあるチームメンバーからの情報提供とされています。このチームにはOpenAI社長であるグレッグ・ブロックマン氏が含まれており、自称メンバーはYouTube動画を収集するサポートを行なっていたといいます。

AIトレーニングに使用するデータは、著作権やプライバシーの問題から、いちユーザーはもちろん企業も慎重な姿勢をとっています。一方で、言語モデルの知識欲は満腹知らず。トレーニングに使えるデータは常に不足状態にあるとニューヨーク・タイムズ紙は解説しいます。

Google VS. OpenAI

すでに、ChatGPTとGeminiで、ユーザーの目に見える場でもライバル関係にあるOpenAIとGoogle(グーグル)。もし、ニューヨーク・タイムズ紙の報道が事実ならば、大きな問題、ひいてはバッチバチの訴訟に発展する可能性もあります。

モーハンCEOがインタビューで語っている通り、YouTubeにアップされたコンテンツは無許可でダウンロードしてはダメ。また、コンテンツを別の独立した用途に用いることも禁止されています。

OpenAIのCTOであるMira Murati氏は、3月のウォール・ストリート・ジャーナルの取材にて、OpenAIの動画生成AI SoraのトレーニングにYouTube動画が使用されたかどうかについて、わからないと明言を避けていました。ニューヨーク・タイムズ紙の報道後、The Vergeの取材で「不確かな報道は確認している」とコメントしたGoogle担当者。

…はっ! まさか、AIで2社が手を組む流れなんてことは…。まさかねぇ…。

OpenAIがついに「声」を完コピするツールを生み出しちゃった OpenAIが「Voice Engine」を開発中。15秒ほど話しかけるとそっくりな声を生成。詐欺などに悪用されないかとの懸念も高まる。 https://www.gizmodo.jp/2024/04/openai-voice-engine.html