DeepSeek – AI市場への影響

DeepSeek – AI市場への影響

Read Time: 8 Minutes

DeepSeek-R1のリリースが広範囲に及ぼす影響を理解するため、GLGは、マイクロソフトで26年以上の経験を持ち、同社のAIおよびデジタルトランスフォーメーションへの取り組みを率いた業界のベテランWilliam Fong博士からお話を伺いました。

以下は、テレカンファレンスからの抜粋です。


DeepSeekが採用した「混合エキスパート(Mix-of-Experts)」アプローチについて教えてください。従来の大規模言語モデルと比較して、どのようなメリットおよびデメリットがありますか?

一般的には、小規模言語モデルを開発し、それを特殊な「専門家」(例えば数学者)になるようにトレーニングし、そのテーマについて質問したいときには、その特定の小規模言語モデルにアクセスします。しかしDeepSeekは、公開した大規模言語モデルの中でそれを実現しました。6,710億ものパラメーターの中に、複数の種類の専門家が存在するのです。これはユーザーにとって非常にメリットがあります。複数のモデルにアクセスする必要がなく、ただ1つのモデルにアクセスするだけで、そこから非常に高精細な結果を得ることができるからです。

他にもメリットがあります。モデル内部の特定の専門家にアクセスする場合、すべてのパラメーターを活性化するわけではありません。その専門家に必要な部分のみを活性化することになります。レイテンシ(遅延時間)、推論時間、コスト、これらすべてが低減されます。6,710億ものパラメーターをランダムに暗中模索するための高性能のチップは必要ありません。このモデルはあなたの質問が何についてなのかを正確に把握しているので、どこに行くべきか完全に分かっています。

デメリットもあります。専門家の数が増えれば増えるほど、コンピューティングは複雑化し、コストがかさみ、詰まってしまいます。なぜなら、複数の専門家がタスクをこなそうとし、一度に複数のパラメーターが活性化されているからです。そして1人のユーザーにサービスを提供しているわけではないからです。覚えておかなければならないのは、そのモデルで推論を行なっている人、つまり、その瞬間にどこかのサーバーにいる誰に対してもサービスを提供しているということです。複数の専門家が同時にタスクを行うと、管理や調整が非常に難しくなります。

バランスの問題なのです。DeepSeekを使えば、柔軟性と適応性を1つのモデルで得ることができます。特に、特別にトレーニングした複数の専門家が存在する場合は、多くのことが可能になります。しかし、それを維持するのは難しくなります。また、専門家の数が増えるにつれて、使用するコンピューティングの量やトラフィックの制御も混乱してきます。しかし、全体的に見れば、DeepSeekが行ったことは絶対的なプラスだと私は思います。

 

DeepSeekのコスト効率は、生成AIの支出レベル、モデルAPIの収益創出、チップ需要にどのような影響を与えると思いますか?

彼らが言及したコストには非常に懐疑的です。これが、企業の設備投資に相当するとはとても思えません。彼らはただ、「これはコンピューティングコストだ 」と言っているだけです。トレーニング教材を整理し、その教材をモデルに事前学習させ、微調整を行うためのコストに過ぎないと思います。

DeepSeekはどこからデータを入手したのか、その費用について触れていません。そのデータは高価です。そのあたりのコストについて全く開示されていません。ここがポイントです。例え全体的なコスト(データのコスト、諸経費などを含む)が4~5倍であったとしても、OpenAIはOperatorを1ユーザーあたり月額200ドルも請求しています。今後はこの料金では請求できなくなるため、料金設定は確実に変わるでしょう。

DeepSeekでは、Open AIのOperatorよりもはるかに安い費用でOperatorを書くことが可能です。公平に言うと、Open AIのOperatorは、ユーザーの画面を見たり、ブラウザ操作したりできるので少し異なり、もう少し高度です。しかし、見ていてください。6ヵ月後には、DeepSeekのOperatorが登場し、1ユーザーあたり月額5ドルになると思います。あるいは、DeepSeekMathが月額5ドルとか月額2ドルとかになるでしょう。

Copilotを見てみてください。月額は1ユーザーあたり30ドルでした。ファイアウォールの内側でプライバシーとデータを保護しているので、企業ユーザーにとっては今だに高額です。しかし、それ以外のユーザーは、月額3ドルの追加料金で利用できます。Office 365を利用している場合は、月額3ドル追加すれば、Office 365 Copilotのスイート全体を利用できるようになります。今後、下流へのシフトが始まり、より手頃な料金で利用できるようになるでしょう。

価格設定に関してもう1つ出てくるかもしれない疑問は、これらのGPUはどうなのかということです。DeepSeekは、フロンティア研究はしていません。コピーしただけだと思います。実際には、単にコピーしただけではなく、ハイパースケーラーが使用していたテクニックやLlama3(ラマ3)が持っているテクニックの多くを使い、トレーニングの仕方を効率化しました。H800またはGPUを使ったのか、H100を使ったのか、それは分かりません。それは問題でありません。事実、DeepSeekはトレーニングを効率的に最適化することができたのですから。

将来的には、H100は必要なくなるかもしれません。少し時間が長めにかかる可能性はありますが、同じ仕事をするのに古いGPUを使えばいいだけかもしれません。あるいは、Blackwellチップのために5万ドルを費やす必要はないかもしれません。3,000ドルでGrace Blackwell 10を内蔵したNVIDIA DIGITSデバイスを購入し、それらを積み重ねればいいだけです。Jensen(ジェンスン)はちょうどこれを発表しました。誰もがH100にアクセスする必要があるでしょうか?私の考えでは、必要ないと思います。公開される内容が正当で、正確で、完全な透明性を提供していることを前提とすると、DeepSeekがホワイトペーパーで発表したテクニックを使うことで、この先より少ないコストで多くのことが可能になります。

 

他のモデルはどのくらいでDeepSeek に追いつく、またはOpenAIのo1モデルを追い越すでしょうか?

すぐだと思います。それは他のモデルがすでに同等のものを持っているからではありません。実際、彼らは持っていません。DeepSeekは、混合エキスパートに基づいて構築されているため、実際の基盤モデル自体が異なっています。1つの大きな基盤モデルではなく、複数のモデルです。基盤そのものを改良しており、Llamaのモデルを改良しています。他のどんな会社でも、特にクローズ型の会社なら、改良することは可能です。

あっという間に、o3、o4、Gemini 2.0、2.1のすべてにこの機能が組み込まれるようになるのではないかと思います。混合エキスパートモデルではないフロンティアモデルを選ぶ理由はあるのでしょうか?もしコンピューティングの精密最適化やMLA(Multi-head Latent Attention)などの技術的なものをクローズ型モデルで提供しない場合、大きなビジネスチャンスを逃すことになります。近々、アップデートが行われると思います。それが明日でなければ、来週か来月に。


William Fong博士について

William Fong博士は、マイクロソフトでAI デジタルトランスフォーメーション担当グローバル・ソリューション・ストラテジー・ディレクターを務めた(2022年9月に退社)。この役職において、Fong博士はクラウド・ソリューション全般にわたる製品のイノベーションおよびインキュベーション、AI主導の顧客ソリューション、マイクロソフトの企業顧客のAIおよびデジタルトランスフォーメーションのワークフローをサポートするModern WorkplaceのGMT(Go-to-Market)戦略などを主導した。それ以前は、マイクロソフトでの26年間の在籍中、複数の上級職を歴任した。現在は、AIおよびデジタルトランスフォーメーションに関する独立コンサルタントとして活躍している。

この記事は、2025年1月28日に開催されたGLGテレカンファレンス “DeepSeekが挑む生成AIモデル市場およびハイパースケール投資から抜粋しています。テレカンファレンス全文のトランスクリプトは、GLGライブラリーのご購読でご覧いただけます。また、William Fong博士や、その他の業界の有識者へのインタビューも実施可能です。GLG担当者まで、お気軽にご連絡ください

ニュースレター登録(無料)

業界の最新動向、無料ウェビナー情報、活用事例などをお届けしています。(メールは英語です。)