ChatGPTが注目を集め、生成AI導入の機運が一気に広がった2023年。先進的なIT企業はどのように取り組んでいるのか。日本で生成AIの開発、実装に携わるIT企業4社が生成AI活用の現状と2024年の生成AIの展望を語った。

 トークセッションは、2023年12月22日開催の企業による研究発表カンファレンス「CCSE2023」で実施。登壇者は、サイバーエージェントの石上亮介さん、rinnaの沢田慶さん、メルカリの大嶋悠司さん、Sansanの猿田貴之さんの4人だ。

●2024年の生成AIはどうなる? カギは「マルチモーダル化」

 2023年は生成AIが脚光を浴びた1年となった。チャット型で柔軟な受け答えを実現した「ChatGPT」が世界的に注目の的となり、多くの人が生活や仕事の中で使うサービスとなった。ChatGPTを開発する米OpenAIは一躍時の企業となった。

 生成AIの基盤となる大規模言語モデル(LLM)の開発競争も進んでいる。LLMは高度な推論タスクを実行するAIで、ChatGPTの場合はGPT-3.5やGPT-4がLLMに相当する。Metaが23年7月に発表した「LlaMa 2」はオープンソースで公開されており、企業が独自にカスタマイズして実装できるようになっている。

 2024年の生成AIはどうなるのか。サイバーエージェントの石上さんは「マルチモーダル化」をキーワードとして挙げる。マルチモーダルとは、画像や言語など複数の入力ソースを扱えることを指す。

 「OpenAIやGoogleの提供している強力なLLMは、テキストだけでなく画像や動画に対応するマルチモーダル化を進めている。音楽を作曲する生成AIもすでに実現している。生成AI全般のトレンドとして、24年には動画生成がより一般的になるのではないか」(石上さん)

 メルカリの大嶋さんは「生成AI(の性能)が向上し、文脈の理解が進むだろう。マルチモーダル化が進むと、周囲の環境を理解できるようになる」とし「近い将来で言えば、AIが職場のチームの一員となって働く環境が当たり前になるのではないか」と予測する。

 一方、生成AIの普及が進む上で、より深刻な課題となるのは計算資源の確保だ。LLMは一般的なコンピュータと比べてより曖昧な指示を解釈して実行できるが、実行時には多くの電力を消費する。また、大量のデータを学習して言語モデルを制作する段階では、さらに膨大な電力を消費することになる。

 このため、比較的小規模なLLMが連携して、より少ない計算量で適切な答えを得る研究も進められている。石上さんは「24年にはたくさんのモデルが協調して、全体のコストを抑えられるアーキテクチャに取り組む企業が増えるだろう。私たちもやりたいと考えている。この中で、オープンソースのLLM開発の流れが加速していると望ましい」と言及した。

 また、日本のAIを取り巻く現状については「日本政府はスピード感を持って動いている」と石上さん。政府は生成AIの活用を推進しており、計算資源の課題についてはクラウド利用を補助する制度を用意している。また、生成AIに利用に伴う規制・ルール作りの観点では著作権法の整備などが他国に先駆けて進んでいる点などを挙げた。

●生成AIサービス実装の課題 柔軟であるがゆえの難点も

 4社らはLLMを事業でも取り扱っている。サイバーエージェントとrinnaは独自開発したLLMをオープンソースで公開中で、サイバーエージェントは自社の広告事業にも活用している。また、メルカリやSansanは各サービスに生成AIを組み込んだ新機能を展開している。

 メルカリの大嶋さんは、生成AIを自社サービス内に取り入れた感想として「自由な入力形式を受け付けて、柔軟な出力を返せるのは、生成AIならではの魅力だ」と話す。ただし、問い合わせや返答が柔軟にできるがゆえに、生成AIならではの実装上の難しさもあるという。

 1つには、自由なユーザー入力をどう制御するかが挙げられる。ユーザーの中には、生成AIを“言いくるめて”、与えられた指示を聞き出そうとするユーザーも存在する。「プロンプトインジェクション」と呼ばれるこうした攻撃の対策は、試行錯誤の段階にあるとしている。

 メルカリの場合、生成AIをプロダクトに実装する場合には、完全に自由な入力を行わせず、ある程度制限した内容を入力させる形式を取ることで対策している。メルカリアプリ内で実装した、ユーザー向け機能「メルカリAIアシスト」では、ユーザーには選択式でAIへの応答操作を提供している。

 また、出力の柔軟さについても課題がある。チューニングを行ったLLMであっても、AIが根拠のない回答をしてしまう現象「ハルシネーション」の問題は避けがたい。他にも、情報源となるマニュアルを参考にして応答するような生成AIが、情報源に無い項目について問われた際、一般的な応答を返してしまうといった癖もある。

 Sansanの猿田さんは「生成AIは多種多様な出力が可能なので、アウトプットの品質をどの程度確保するかという点での合意形成が難しい」と、この課題を表現。対策として、例えば同社が提供している「セミナー集客メールメーカー」では、出力する文章の形式を固定することで、ミスが生じにくく、修正しやすいようにしている。

●生成AIの性能評価も課題 メルカリ、rinnaの例

 生成AIの性能評価も、各社共通の課題だ。応答を評価する手法も提案されているが「実際のビジネス上で反映されやすい技術指標のスコアと、実際に使ってみたときの応答性がどうかというのはまた話が別」(石上さん)という。

 評価についてメルカリでは「ユーザーからの反応を見たり、GPT-4のような上位モデルに評価させるテクニックを使うなど試行錯誤している」(大嶋さん)と説明。

 rinnaの沢田さんは、同社が手掛けている“キャラクター風の生成AI”を実用的に評価する手法として「キャラクターの創作者に試してもらう」を提案。創作者の監修が入ることで、キャラクターのコンセプトに沿った応答ができているか確認できるだけでなく、ファンの納得感を得やすいという利点があるとしている。

●「OpenAI強すぎる問題」は2024年も続くのか?

 23年に“日本版LLM”の開発を行う上では「OpenAI強すぎる問題」が立ちはだかった。

 OpenAIは、超膨大なデータセットを学習したGPTシリーズと、マイクロソフトによる支援体制という2つの強みを持ち、生成AIプラットフォームの覇権を握った。言語モデルとしての応答性能が優れているだけでなく、一般ユーザーや開発者が使いやすいようなUI/UX、料金の安さなどの点でも他社に勝っている。

 こうした状況をサイバーエージェントの石上さんは「OpenAI強すぎる問題」と表現する。OpenAIのGPTシリーズは膨大なデータを学習しており、日本語の処理性能も高い。生成AIの実用上、これに対抗できるようなモデルを構築するのは困難といえる。

 登壇した2社のうち、LLMを“使う側”のメルカリとSansanも、現在はOpenAIのAIサービスをよく使っているという。Sansanの猿田さんは「フロントエンドはコンポーネントの組み合わせで実現している。コスト面ではAzure OpenAIのGPT-3.5とGPT-4を併用している」と説明した。

 一方メルカリでは「価格と性能はもちろん検討したが、OpenAIに決めた理由は、『Function Calling機能』があったためだ」と大嶋さん。Function Callingは、API経由でGPTの発話を制御する仕組みだ。この機能でGPTの会話の出力を成形できることが、商用展開時に良かったという。

 使いやすさで選ばれて、ユーザーによる知見が蓄積し、さらに使いやすいサービスを廉価に提供できるようになるという構図では、OSにおけるWindowsや、検索エンジンにおけるGoogleの立場に近い。

 では、今後もOpenAIの立場が揺るぎないものなのか。サイバーエージェントの石上さんは「必ずしもそうではない」と指摘する。

 OpenAIがリードするLLMの競争は「オープンソース vs.クローズドソース」の戦いとも形容される。OpenAIはGPTシリーズのソースコードを非公開とする方針を貫いている。競合の米Googleや米Anthropicも同様に、クローズドソースの方針だ。

 一方、LLMをオープンソースで公開し、開発者コミュニティーを育てて成長するアプローチを取る企業もある。Llama 2を提供するMetaは、その代表格だ。他にも一部スタートアップ企業たちも同様の動きを見せており、オープンソースLLMの開発が加速している。例えば、フランスのMistral AIは、オープンソースでGPT-3.5に匹敵する性能がでるというLLM「Mixtral 8x7B」を12月に発表した。

 サイバーエージェントの石上さんは「Mistral AIのLLMは、GPT-3.5に匹敵する性能があると。こうしたものがオープンソースで登場すると、世界中のプロバイダーがモデルをホスティングしてAPIを提供することになる。すると競争が生じて価格が下がり、従来のGPT-3.5と同等の品質を、はるかに安い価格で利用できる世界になるかもしれない」と説明。「必ずしもクローズソース一択とはならないのでは」と見解を示した。