楽天AIはDeepSeekベース?透明性問題と国産AIの行方

楽天AIの正体は中国製?隠されたベースモデルと炎上理由

国内最大規模とうたわれた楽天の最新AIが中国のDeepSeek V3をベースにしていることが判明し透明性を巡る議論が起きています。政府の補助金事業であるにもかかわらずベースモデルの存在を明記せず独自開発を思わせる発表を行ったことが要因です。

実際に公開された構成ファイルには他社モデルの名称が記載されておりライセンス表記の抜け漏れも指摘されました。ここでは発覚の経緯やなぜこれほどまでに批判を集めているのか背景にある問題を分かりやすく紐解いていきます。

目次

楽天AI 3.0とは?DeepSeekベース発覚と透明性問題の経緯

GENIAC支援で開発された国内最大規模のパラメータを持つAI

経済産業省が主導するプロジェクトであるGENIACの支援を受けて楽天は新しい大規模言語モデルを発表しました。この基盤モデルは日本語に特化したものとしては国内最大規模となる約7000億のパラメータを持っています。

膨大な知識を処理するために専門家を効率よく振り分ける複雑な仕組みを採用しており高い性能が期待されていました。発表当初に公開された特徴は以下の通りとなります。

  • 商用利用が可能なApache 2.0ライセンスでの提供
  • 複数の専門家モデルを組み合わせるアーキテクチャの採用
  • 日本語の言語処理においてトップクラスのベンチマークを記録

構成ファイルから中国モデルDeepSeekベースと判明

しかし公開直後に開発者たちがプログラムの中身を確認したところ予想外の事実が明らかになります。AIの設計図とも言える設定ファイルの中に他社のモデル名がはっきりと記載されていたのです。

具体的にはファイルを共有するプラットフォーム上に置かれた構成データに中国企業が開発したモデルのアーキテクチャ名が残っていました。これにより完全なゼロからの独自開発ではなく既存のモデルを土台にして作られたことが発覚します。読者の皆様も期待が大きかった分だけこの事実に驚かれたことと思います。

オープンソースライセンス削除と修正の顛末

さらに事態を悪化させたのが権利関係の表記に関するトラブルでした。モデルを公開した当初は土台となったソフトウェアが定めているオープンソースライセンスの表示がすっぽりと抜け落ちていたのです。

元の開発者が指定する著作権表示を行わずに公開することはルール違反にあたるためインターネット上ですぐに厳しい指摘が相次ぎました。運営側は批判を受けてから慌ててライセンス情報を追加修正しましたが一連の対応の遅れが目立ちます。このような経緯から情報開示に対する透明性が大きく欠如しているという不信感を世間に抱かせる結果となりました。

なぜ炎上したのか?楽天AIに欠けていた「透明性」と国産AIの壁

独自開発と誤認させるPRと期待値コントロールの失敗

今回の騒動がここまで大きな炎上に発展した最大の理由は見せ方と事前の説明不足にあります。公式の発表では自社で集めた独自のデータや高い技術力をつぎ込んだことが強くアピールされていました。

その一方で既存の強力なモデルをベースにしているという重要な事実はプレスリリースの中で一切触れられていませんでした。他社の優れた技術を再学習させてファインチューニングすること自体は業界内で広く行われている正当な手法です。決して技術的に悪いことをしたわけではないのですが過度に期待値を上げてしまった広報戦略の失敗がユーザーの信頼を失わせてしまいました。

補助金GENIACが投入された国産AIというハードル

また開発の背景に国からの手厚い資金援助が存在していたことも世間の目を厳しくした要因の一つです。今回の取り組みは経済産業省や関連機関による公的な補助金事業の一環として進められていました。

多額の税金が投入された純粋な国産AIプロジェクトであると多くの人が認識していたため蓋を開けてみれば海外製モデルの派生作品だったという事実に違和感を覚える人が続出したのです。国の支援を受けている以上は何をどこまで自前で開発しどの部分で外部の力を借りたのかを正確に報告する責任が求められます。

中国製モデルに対する国内のセキュリティ懸念

さらに基盤となった技術の出所が議論に拍車をかけています。現在日本の政府機関や大手企業の間では情報漏洩などのリスクを考慮して特定の海外モデルの業務利用を制限する動きが広がっています。

そのようなセキュリティ上の警戒感が高まっている中で対象となっているモデルをベースにしたAIが国の支援事業から誕生したことに対して疑問の声が上がるのは自然な流れと言えます。国として利用に慎重な姿勢を示している技術に公的な資金が使われているという矛盾が今回の問題に対する反発をさらに強める結果につながりました。

オープンソースライセンスを活用した中国モデルと国産AIの未来

巨大パラメータモデルをゼロから作る難しさ

約7000億という桁違いのパラメータを持つAIをゼロから構築することは非常に困難な挑戦と言えます。計算処理を行うためのスーパーコンピューターを長期間稼働させる必要があり莫大なコストと時間がかかるからです。

現在の大規模言語モデルの開発において海外のオープンソースライセンスを正しく活用することは業界の一般的な慣例となっています。自社の開発力強化を効率的に進めるための賢明な選択であり決して恥ずべき手法ではありません。

既存の優れた技術を土台にして独自の強みを付加していくことはグローバルな競争を生き抜くために必要なアプローチです。読者の皆様にもこの技術的な合理性についてはご理解いただけるかと思います。

ベースモデルを明記した上での差別化と透明性の確保

今後のAI開発で最も重要になるのはベースモデルを明記した上で独自の強みをアピールする透明性です。元の技術を隠蔽していると誤解されてしまえばどれほど優れた性能であってもユーザーからの信頼を得ることはできません。

完全なゼロからの開発と既存モデルを微調整するファインチューニングにはそれぞれ異なる利点と課題があります。以下の表にそれぞれの特徴を分かりやすくまとめましたので参考にしてみてください。

開発手法メリットデメリット
完全独自開発権利関係が明白で独自の設計が自由に行える膨大な時間とコストがかかり性能が追いつかないリスクがある
既存モデルの微調整最新の高性能な基盤を安価で迅速に活用できる元のモデルが持つライセンス制限やセキュリティ懸念を引き継ぐ

このように既存の技術を借りつつ自社の独自データを使ってどのようにAIを賢く育てたのかを堂々と語る姿勢が求められます。何を土台にしてどこで差をつけたのかを正直に伝えることが結果的に企業価値を高めるはずです。

まとめ:楽天AIの騒動から学ぶ今後のAI開発の教訓

今回の楽天AI 3.0を巡る一連の議論は今後の日本のAI開発において非常に重要な教訓を残しました。優れた技術力を持つことと同じくらい情報の見せ方や誠実な説明が不可欠であることを私たちは学びました。

騒動のポイントを振り返ると以下のようになります。

  • 中国の強力な既存モデルをベースにしていたことが構成ファイルから発覚した
  • 公開初期に必須となる権利表記が漏れており後手での修正対応となった
  • GENIACという国の支援事業であったため事前の期待値コントロールに失敗した

これからのAI開発においてユーザーや社会からの信頼を獲得し維持し続けるためには高い透明性が絶対条件となります。事実をありのままに伝えながら独自の価値を創造していく誠実な姿勢こそが日本の新しい開発基盤を前進させる原動力となるでしょう。

この記事を読んで最新技術の裏側やオープンソースの仕組みについて少しでも興味を持っていただけたなら幸いです。日々進化するAIのトレンドや他のプロジェクトの動向についてもぜひご自身で調べて新しい知識を深めてみてください。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次