AIが仕事を助けるか壊すか、作業単位で測る道具がない

どんな問題か

AI導入は全社レベルの決定として降りてくるが、その効果は作業一枠ごとに割れる。同じモデルが見積もりの下書きでは人より速く正確なのに、すぐ隣の例外処理の段階では微妙な信号を見落として品質を壊す。問題は、多くの企業がこれを分けて見られないことだ。導入前後の人件費削減だけがダッシュボードに出て、どの作業でAIが価値を足し、どの作業で引くかは測られない。フォードはその違いを知らずにベテランを出し、自動化が見逃した不具合をリコールと再雇用で埋めた。見えないコストはいつも端で、ずっと後に請求される。

なぜ今か

AI代替の失敗談が本格的に積み上がる局面だ。フォードのような大企業すら自動化を巻き戻したと知られ、『どこまで自動化すべきか』が導入企業共通の問いになった。一方ではコスト圧力と安くなったAI道具が自動化を加速し、もう一方では過剰自動化の請求書が届く。この間を埋める計測レイヤーが空いている。EU AI法が高リスク領域に人の監督を求め始め、ヒューマンインザループは選択ではなく規制要件になった。圧力は損益と規制の両側から同時に来る。

どう作るか

三つのモジュールに分ける。

第一、作業単位の計測。運用・CS・QAのようなワークフローを段階に分解し、各段階でAIが処理した件と人が処理した件の精度・手戻り率・所要時間を並べて測る。『この作業でAIは精度を3ポイント上げる、あの作業では8ポイント下げる』を数字で示す。

第二、拡張ROIマップ。計測結果を自動化適合マップに換算する。自動化すれば得な区間、人を残すべき区間、AIが補助だけすべき区間を色で分ける。単なるコスト削減ではなく品質を反映した純価値で意思決定を変える。

第三、ヒューマンインザループのガードレール。危険区間ではAI出力が自動で通らないよう人の検査を強制し、モデル精度がドリフトで落ちたら自動化比率を巻き戻す安全装置をかける。

flowchart LR
  W[ワークフローログ] --> M[作業単位の計測]
  M --> R[拡張ROIマップ]
  R --> D{自動化適合度}
  D -->|得| A[AI自動化]
  D -->|危険| H[ヒューマンインザループ・ガードレール]
  H --> F[ドリフト時ロールバック]

切り口は自動化で一度やけどしたチームだ。CS・QAのように自動化が速く入ったが品質不満が積み上がったワークフローを最初の顧客にし、『どこでAIが壊すか』を診断する。課金はワークフロー数ベースのSaaS購読に加え、ガードレール運用の段階へ広げる。

成功の条件

三つが生死を分ける。第一、計測の信頼性。『AIがこの作業を壊す』という診断が統計的に固くないと、現場は自動化を巻き戻さない。標本が揺れれば誰も信じない。第二、ワークフローへのアクセス。顧客システムのログを安全に引き込み、段階ごとにマッピングする統合能力が核心だ。第三、中立性。『AIをもっと売りたい』ベンダーではなく、『AIがどこで損か』を正直に指す立場でなければ信頼が立たない。過剰自動化の時代が長引くほど、最初に呼ばれる診断所になる。