AI·기술
에이전트를 깔면 가드레일도 산다 — 안전 도구라는 새 B2B 시장
게시일: 2026-06-25
엔비디아가 엔터프라이즈용 콘텐츠 안전 모델 네모트론 3.5를 내놓고, RIFT-Bench는 45개 에이전트 시스템을 자동으로 공격해 본 결과를 공개했다. 기업이 에이전트를 실제로 배포하기 시작하면서 런타임 안전 분류기·가드레일 API·레드티밍이 하나의 제품 카테고리로 굳어지고 있다. 모델을 만드는 회사가 아니어도 그 위에 안전 층을 파는 길이 열렸다.
무슨 일이 있었나
두 발표가 같은 방향을 가리킨다. 하나는 엔비디아의 네모트론 3.5 콘텐츠 안전 모델이다. 구글 젬마3 4B를 바탕에 깔고 LoRA 어댑터로 안전 분류 기능만 얹은 작은 모델인데, 8GB 이상 VRAM이면 실시간으로 돌릴 만큼 가볍다. 하는 일은 단순하다. LLM이나 비전 모델에 들어가는 입력과 거기서 나오는 출력을 둘 다 검사해 안전·위험을 가르고, 위반 카테고리 라벨과 근거까지 붙인다. 텍스트와 이미지를 함께 보고, 한국어·일본어를 포함한 12개 언어를 명시적으로 학습했다. 핵심은 따로 있다. 회사가 자기 정책을 자연어로 적어 추론 시점에 같이 넣으면 모델이 그 정책을 읽고 판정한다. 규제나 제품 정책에 맞춘 고유 위험 카테고리를 코드 수정 없이 정의할 수 있다는 뜻이다. 반복되는 안전 검사 비용과 지연을 줄이려고 일부러 작게 설계했고, 멀티모달 벤치마크에서 경쟁 모델 대비 종단 지연을 3분의 1로 줄였다고 밝혔다.
다른 하나는 RIFT-Bench라는 연구다. 에이전트 시스템을 공격하는 쪽을 자동화한다. 시스템의 구조를 그래프로 추출하는 디스커버리 단계와, 그 위에 적응형 적대 공격을 던지고 보고서를 내는 스캐닝 단계로 나뉜다. 특정 구현에 묶이지 않고 아키텍처에 무관하게 작동하도록 설계했고, 서로 다른 45개 에이전트 시스템에 적용해 통한다는 것을 보였다. 둘을 합치면 그림이 분명해진다. 한쪽은 런타임에서 막는 가드레일, 다른 쪽은 배포 전에 깨보는 레드티밍이다. 시장 추정치도 따라온다. 한 리서치사는 AI 레드티밍 서비스 시장이 2025년 17억5천만 달러에서 2026년 22억6천만 달러로, 연 28.8% 속도로 커져 2030년 61억7천만 달러에 이른다고 봤다.
창업자에게 의미하는 것
여기서 갈라지는 지점이 있다. 프런티어 모델을 만드는 일은 수억 달러가 드는 소수의 게임이지만, 그 모델 위에 안전 층을 파는 일은 그렇지 않다. 네모트론 사례가 보여주듯 안전 분류기는 4B짜리 작은 모델로도 충분하고, 가치는 모델 크기가 아니라 ‘어떤 정책을, 어느 도메인에서, 얼마나 정확히 거르느냐’에서 나온다. 의료·금융·교육처럼 규제가 빡빡한 영역일수록 범용 안전 모델로는 부족하고, 그 틈이 곧 제품이 된다. 국내도 무대가 깔리는 중이다. 카카오는 카나나 에이전트를 카카오톡과 주변 서비스에 올해 상반기부터 깔겠다고 했고, 네이버도 LLM에서 에이전트로 무게를 옮기고 있다. 에이전트가 사용자 의도를 읽고 스스로 행동하기 시작하면, ‘이 행동을 해도 되는가’를 런타임에 판정하는 층은 선택이 아니라 필수가 된다. 한국어 정책을 정확히 거르는 가드레일, 국내 규제와 약관에 맞춘 레드티밍은 글로벌 범용 도구가 쉽게 메우지 못하는 자리다.
기회의 모양도 셋으로 나뉜다. 첫째는 런타임 가드레일 API다. 입력·출력을 검사하고 회사별 정책을 끼워 넣는 층으로, 작은 모델이라 자체 호스팅도 현실적이다. 둘째는 레드티밍 서비스다. 배포 전·후에 에이전트를 적대적으로 깨보고 리포트를 내는 일로, RIFT-Bench가 보여준 자동화가 사람 손에만 의존하던 작업을 제품으로 바꾼다. 셋째는 그 위의 모니터링과 감사 추적이다. 다만 냉정하게 볼 대목이 있다. 시장 분석은 레드티밍 단독으로는 자금이 잘 안 붙는다고 본다 — 공개된 자본의 4.5%만 갔다. 돈은 연속 테스트·모니터링·실행 시점 개입까지 묶어 운영에 박히는 쪽으로 흐른다. 한 번 깨보고 끝나는 감사는 기능으로 취급되고, 프로덕션에 상주하는 가드레일이라야 제품으로 평가받는다. 해석가능성 랩 굿파이어가 2월에 12억5천만 달러 가치로 1억5천만 달러를 받은 것도 같은 흐름의 신호다.
지금 취할 수 있는 행동
먼저 ‘모델을 만들 필요는 없다’를 받아들여라. 네모트론 3.5는 오픈으로 풀렸고, 안전 분류기는 작은 모델로 돈다. 출발점은 모델 학습이 아니라 특정 산업의 정책과 위험 분류를 깊이 아는 일이다. 둘째, 한 도메인을 파라. 의료·금융·아동 안전·국내 규제 가운데 하나를 골라 그 영역의 위반 카테고리와 약관을 범용 모델보다 정확히 거르는 데서 차별점을 만들어라. 셋째, ‘깨보고 끝’이 아니라 ‘상주하는’ 제품으로 설계하라. 시장이 돈을 주는 곳은 일회성 레드팀 리포트가 아니라, 런타임에 막고 모니터링하고 감사 로그를 남기는 층이다. 넷째, 에이전트를 쓰는 모든 창업자라면 이건 남의 일이 아니다. 사용자 입력과 모델 출력을 그대로 흘려보내는 제품을 운영 중이라면, 작은 안전 분류기 하나를 입력·출력 양쪽에 끼우는 일부터 시작하라. 배포 전 한 번은 RIFT-Bench류의 적대 테스트로 에이전트를 깨보고, 어디서 무너지는지 본 뒤 가드레일을 깔아라.
참고 자료
- Nemotron 3.5 Content Safety: Customizable Multimodal Safety for Global Enterprise AI — NVIDIA / Hugging Face
- RIFT-Bench: Dynamic Red-teaming For Agentic AI Systems — arXiv
- AI Red Teaming Services Market Report 2026 — Research and Markets