エージェントを載せたらガードレールも買う — AI安全ツールという新B2B市場

NVIDIAが企業向けコンテンツ安全モデルNemotron 3.5を公開し、RIFT-Benchは45個のエージェントシステムを自動で攻撃した結果を発表した。企業がエージェントを実際に配備し始め、ランタイムの安全分類器・ガードレールAPI・レッドチーミングが一つの製品カテゴリーへと固まりつつある。モデルを作る会社でなくても、その上に安全の層を売る道が開いた。

何が起きたのか

二つの発表が同じ方向を指している。一つはNVIDIAのNemotron 3.5コンテンツ安全モデルだ。GoogleのGemma 3 4Bを土台に、LoRAアダプターで安全分類の機能だけを乗せた小さなモデルで、8GB以上のVRAMがあればリアルタイムで動くほど軽い。やることは単純だ。LLMやビジョンモデルへの入力と、そこから出てくる出力の両方を検査し、安全か危険かを分け、違反カテゴリーのラベルと根拠まで付ける。テキストと画像を一緒に見て、日本語・韓国語を含む12言語を明示的に学習している。肝は別にある。企業が自社のポリシーを自然言語で書いて推論時に一緒に渡すと、モデルがそのポリシーを読んで判定する。規制や製品方針に合わせた独自のリスクカテゴリーを、コード変更なしで定義できるということだ。繰り返される安全チェックのコストと遅延を減らすため意図的に小さく設計され、マルチモーダルのベンチマークで競合の安全モデルに比べエンドツーエンドの遅延を3分の1に抑えたという。

もう一つはRIFT-Benchという研究で、攻撃する側を自動化する。システムの構造をグラフとして抽出するディスカバリー段階と、その上に適応型の敵対的攻撃を投げて評価レポートを出すスキャニング段階に分かれる。特定の実装に縛られずアーキテクチャに依存せず動くよう設計され、異なる45個のエージェントシステムに適用して通用することを示した。二つを合わせると絵がはっきりする。一方はランタイムで止めるガードレール、もう一方は配備前に壊してみるレッドチーミングだ。市場の数字も追いかけている。あるリサーチ会社は、AIレッドチーミングサービス市場が2025年の17.5億ドルから2026年に22.6億ドルへ、年28.8%の速さで伸び、2030年には61.7億ドルに達すると見込む。

創業者にとっての意味

ここに分かれ目がある。フロンティアモデルを作るのは数億ドルかかる一握りのゲームだが、そのモデルの上に安全の層を売るのはそうではない。Nemotronが示すように安全分類器は4Bの小さなモデルで十分で、価値はモデルの大きさではなく「どのポリシーを、どの領域で、どれだけ正確に弾くか」から生まれる。医療・金融・教育のように規制が厳しい領域ほど汎用の安全モデルでは足りず、その隙間がそのまま製品になる。日本市場も舞台が整いつつある。メルカリは生成AIを出品や検索に組み込み、LINEヤフーは大規模なユーザー基盤の上でAIアシスタントを広げている。エージェントが利用者の意図を読んで自ら動き始めれば、「この行動は許されるか」をランタイムで判定する層は選択肢ではなく必須になる。日本語のポリシーを正確に弾くガードレール、国内の規制と利用規約に合わせたレッドチーミングは、海外の汎用ツールが簡単には埋められない場所だ。

機会の形も三つに分かれる。一つはランタイムのガードレールAPIだ。入力・出力を検査し企業ごとのポリシーを差し込む層で、小さなモデルなので自前ホスティングも現実的だ。二つはレッドチーミングサービス。配備の前後でエージェントを敵対的に壊してレポートを出す仕事で、RIFT-Benchが示した自動化が、人手に頼っていた作業を製品に変える。三つはその上のモニタリングと監査ログだ。ただ冷静に見る点がある。市場分析は、レッドチーミング単独では資金が付きにくいと見る — 公開された資本の4.5%しか向かわなかった。お金は、継続的なテストとモニタリング、実行時の介入まで束ねて運用に組み込まれる側へ流れる。一度壊して終わる監査は機能として扱われ、本番に常駐するガードレールこそ製品として評価される。解釈可能性ラボのGoodfireが2月に12.5億ドルの評価額で1.5億ドルを調達したのも、同じ流れの兆しだ。

今できること

まず「モデルを作る必要はない」を受け入れる。Nemotron 3.5はオープンで公開され、安全分類器は小さなモデルで動く。出発点はモデルの学習ではなく、特定産業のポリシーとリスク分類を深く知ることだ。次に、一つの領域を掘る。医療・金融・子どもの安全・国内規制のどれかを選び、その領域の違反カテゴリーと利用規約を汎用モデルより正確に弾くことで差をつける。三つ目に、「壊して終わり」ではなく「常駐する」製品として設計する。市場が金を出すのは一度きりのレッドチームレポートではなく、ランタイムで止めモニタリングし監査ログを残す層だ。四つ目に、エージェントを使うすべての創業者にとって、これは他人事ではない。利用者の入力とモデルの出力をそのまま流している製品を運用しているなら、小さな安全分類器を入力・出力の両側に差し込むことから始めよう。配備の前に一度はRIFT-Bench流の敵対的テストでエージェントを壊し、どこで崩れるかを見てからガードレールを置く。