AI・テクノロジー
DeepSeek-V4の100万トークンコンテキストがB2B SaaSを変える3つの領域
公開日: 2026-05-11
DeepSeek-V4-Proは100万トークン(約75万語、A4用紙約3,000ページ相当)のコンテキストを、実際にプロダクションで使えるコストで実現した。技術的な核心は4倍と128倍のKV圧縮を交互に適用するハイブリッドアテンションアーキテクチャで、以前のモデルに比べてキャッシュサイズを10%に削減し、シングルトークンのFLOPsを27%に抑えた。
ベンチマーク数値はリーダーボードの最上位で競合する水準だ。SWE Verifiedで80.6%(Opus-4.6-Maxの80.8%に次ぐ)、MCPAtlasで73.6%。Apache 2.0ライセンスでオープンソース公開されている。
創業者にとって重要なのは、V4がベンチマークで勝つかどうかではなく、どの製品カテゴリを解放するかだ。
RAGが不要になる領域
標準的なエンタープライズAIパイプラインはこうなっている。ドキュメントをチャンク化 → 埋め込み → ベクターDBに保存 → クエリ時に関連チャンクを取得 → プロンプトに注入。これは複雑で、チャンク境界で情報が失われ、取得品質が回答品質の上限を決める。長文コンテキスト推論はこのパイプラインをどこでも排除するわけではないが、特定の領域では任意にできる。
法律文書レビュー: 大型契約書は平均50〜200ページで、100万トークン以内に収まる。文書全体を読む — チャンク化した表現ではなく — レビューエージェントが境界アーティファクトなしにクロス条項の矛盾を特定できる。単一文書分析にRAGアーキテクチャは不要だ。
医療記録の統合: 複数年にわたる患者の診療記録、検査結果、医師のメモを単一コンテキストで保持する臨床意思決定支援。価値は検索ではなく、縦断的記録全体の一貫した統合にある。
レガシーコードベース監査: 中規模リポジトリ(約10万行)はコンテキストに収まる。チャンクなしに完全なクロスファイル依存関係を認識するリファクタリングエージェントは、RAGベースのアプローチより大幅に優れた分析を生成する。
マルチステップエージェントのユースケース
DeepSeek-V4はツール呼び出し間でインターリーブ思考を導入している。モデルはエージェントモードのすべてのターンとツール呼び出しラウンドを通じて推論状態(<think>ブロック)を保持する。これは単一ターンの長文コンテキストとは構造的に異なる。20回以上のツール呼び出しにわたって一貫した推論が維持される。
競合インテリジェンス収集、規制コンプライアンス監査、コードベース移行計画といった長時間実行エージェントタスクは、推論の継続性がステップをまたいで劣化しない場合により実現しやすくなる。
ビジネスモデルの視点
V4-Pro(総パラメータ1.6T / アクティブパラメータ49B)は自己ホスティングでは経済的に現実的でないが、オープンソースのためサードパーティ推論プロバイダー(Together AI、DeepInfra)を通じた価格交渉のレバレッジがある。独自モデルではなくコモディティ推論APIの上に垂直SaaSを構築することは、価値がモデル自体よりもドメイン固有のワークフロー設計にある場合、防御可能なポジションだ。
法律・医療・レガシーコード垂直領域のファーストムーバーウィンドウは、この機能がすべてのフロンティアモデルでコモディティ化されるまでの約12〜18ヶ月だ。
参考資料
- DeepSeek-V4: a million-token context that agents can actually use — HuggingFace Blog
- DeepSeek V4 Preview Release — DeepSeek API Docs