存在しない引用1件で1年間投稿禁止：AI検証市場が開く

何が起きたのか

arXivが「幻覚引用(hallucinated references)」、実際には存在しない論文を参考文献に挙げた投稿、に対し、1年間の投稿禁止の運用を始めた。禁止期間が明けた後も、その著者のすべての投稿は、まず信頼できる学会・ジャーナルの査読を通過しなければarXivに掲載できない。単なる警告ではなく、公開経路そのものを閉ざす措置だ。

規模を見れば厳しさの理由が分かる。幻覚引用は2023年以降10倍に増え、2026年初頭には論文277本に1本の割合に達した。最も重い事例はNeurIPS 2025だ。少なくとも3名の査読者を通過した53本の論文から、合わせて100件を超える幻覚引用が後に見つかった。本文に残ったLLMのメタコメント(「200語の要約です、修正しますか?」)も証拠の対象になる。

arXivはこれを「技術の問題ではなく、著者の責任の失敗」と位置づけた。AI支援の執筆を禁じるのではなく、検証されていないAI出力を公開した人にコストを科す設計だ。責任の所在をツールから人へ戻したのである。

創業者にとっての意味

この出来事の核心は、「AI出力の検証」が初めて明確な価格を持ったことだ。これまで幻覚は不便だがコストの曖昧な問題だった。学術界では今、幻覚引用1件のコストが「1年間の投稿禁止+査読の義務化」として定量化された。コストが明確になれば、それを下げるツールへの支払い意思が生まれる、市場が開く標準的なパターンだ。

検証需要は学術界にとどまらない。幻覚引用とコードの幻覚API(存在しない関数・パッケージ・設定オプション)は同じ失敗モードだ。どちらも「外部の実在を指すポインタが偽物」というケースである。法務文書の幻覚判例、医療文書の幻覚ガイドライン、コンプライアンス報告書の幻覚規制引用、すべて同じ構造だ。arXivが作った先例は、他の高リスク領域での検証義務化へ広がる可能性が高い。

注目すべきは、arXivが「検出ツール」ではなく「コスト賦課」を選んだ点だ。すべての引用を自動検証する代わりに、偽物が見つかった投稿者に制裁を科す。これは検証ツール市場が二つに分かれることを意味する。一つは投稿前に著者自身が偽の参照をふるい落とすツール、もう一つはプラットフォーム・査読者が投稿物を事後監査するツールだ。創業者はどちらの顧客を先に取るかを決める必要がある。

今できること

検証可能な幻覚と検証不可能な幻覚を区別する。 引用・API参照は対象の存在を機械的に確認できる。一方「実在のソースを引用しつつ、そのソースが述べていない結論を導く」幻覚は意味の検証が必要だ。MVPは前者から、検証の難度が低く、正解が明確だ。
ドメインを絞って始める。 学術引用、法務判例、コード依存関係のいずれか一つを選び、そのドメインの「本物のレジストリ」(arXiv、PubMed、判例DB、パッケージレジストリ)と照合する検証器を作る。汎用の幻覚検出器より、ドメイン検証器のほうが精度も支払い意思も高い。
規制カレンダーを追う。 arXivの方針は出発点だ。高リスクAIシステムへの検証要件が他分野へ広がるとき、先に定着した検証ツールが標準になる。