DeepSeek-V4: 100만 토큰 에이전트가 B2B SaaS를 바꾸는 방식

DeepSeek이 2026년 4월 24일 공개한 V4-Pro는 1M 토큰(약 750만 단어, A4 용지 약 3,000페이지 분량) 컨텍스트를 실용적 비용으로 구현했다. 핵심은 하이브리드 어텐션 메커니즘(CSA+HCA)으로 KV 캐시를 전작 대비 10% 수준으로 줄인 것이다.

이 숫자가 B2B SaaS 창업자에게 의미 있는 이유가 있다.

RAG가 필요 없어지는 버티컬

현재 엔터프라이즈 AI 파이프라인의 대다수는 RAG(Retrieval-Augmented Generation) 구조를 쓴다. 문서를 청크로 나누고, 임베딩해서 벡터 DB에 저장하고, 쿼리마다 관련 청크를 검색해서 LLM에 넣는다. 이 파이프라인은 복잡하고, 청크 경계에서 정보가 유실되며, 검색 품질이 답변 품질을 제한한다.

1M 토큰 컨텍스트는 일부 버티컬에서 이 파이프라인을 단순화하거나 제거한다:

법률: 대형 계약서 한 건(평균 50~200페이지)을 전체 컨텍스트에 올릴 수 있다. 검토 에이전트가 문서 전체를 “읽고” 조항 간 상충을 분석한다. 청크 경계로 인한 조항 맥락 유실 없음.

의료 기록 분석: 환자의 수년치 차트, 검사 결과, 의사 노트를 한 컨텍스트에서 종합하는 임상 보조 에이전트.

코드베이스 리뷰: 중규모 레포지토리 전체(~10만 라인)를 컨텍스트에 유지하는 코드 리뷰·리팩토링 에이전트. 파일 간 의존성 분석이 청크 없이 가능해진다.

멀티스텝 에이전트의 메모리 유지

DeepSeek-V4의 또 다른 설계 결정: 도구 호출 간 추론 유지(interleaved thinking). 에이전트가 10개 도구를 연속으로 호출하는 동안 이전 사고 과정을 컨텍스트로 유지한다. GPT-5.5의 Instant → Thinking 라우팅과 달리, 에이전트 전 과정에서 일관된 추론 상태가 보장된다.

이는 장시간 실행 에이전트(long-running agent) 유스케이스를 여는 설계다. 시장 리서치, 규제 문서 분석, 코드베이스 감사처럼 수십 개 도구 호출이 이어지는 작업에서 컨텍스트 단절 없이 실행된다.

창업 각도

DeepSeek-V4는 Apache 2.0 라이선스로 공개됐다. 오픈소스 1M 토큰 에이전트 모델 위에 버티컬 SaaS를 얹는 것이 가능하다.

진입 공백이 있는 영역:

법률·규제 문서 분석 에이전트 (한국 법령, EU AI Act 컴플라이언스)
코드베이스 전체 감사 에이전트 (레거시 마이그레이션 자동화)
의료 기록 통합 분석 (EMR 시스템 레이어)

기술 리스크: V4-Pro(1.6T 파라미터) 자체 호스팅은 비현실적이며, API 의존이 전제된다. 단, 오픈소스 모델이므로 Together AI, DeepInfra 등 3rd-party 추론 제공자를 통한 비용 협상 레버리지가 있다.