애플이 고성능 M6를 건너뛴다 — 칩 로드맵이 온디바이스 AI로 방향을 틀었다

애플이 M6 Pro·Max·Ultra를 통째로 건너뛰고 온디바이스 AI에 맞춰 설계한 M7 라인으로 직행한다는 보도가 나왔다. 기본형 M6만 내고 상위 칩 세대를 빠르게 갈아엎는 첫 사례다. 클라우드가 아닌 기기 안에서 추론을 돌리는 흐름이 맥 실리콘 로드맵에 못 박힌 셈이고, 로컬 AI를 전제로 제품을 짜야 할 신호다.

무슨 일이 있었나

6월 25일 블룸버그의 마크 거먼이 애플의 맥 칩 계획이 한 차례 꺾였다고 전했다. 핵심은 두 가지다. 첫째, 올해 안에 나올 기본형 M6에는 Pro·Max 버전이 따라붙지 않는다. 애플 실리콘 역사에서 한 세대에 Pro나 Max를 내놓지 않는 건 이번이 처음이다. 둘째, 상위 성능 칩은 M6를 건너뛰고 곧장 M7 세대로 넘어간다. 기본형 M7이 2027년 상반기, M7 Pro와 M7 Max가 2027년 말, 통상 Max의 두 배 성능을 내는 M7 Ultra가 2028년 최상위 맥 스튜디오용으로 등판하는 그림이다.

왜 한 세대를 통째로 건너뛰나. 거먼은 M7 라인이 처음부터 온디바이스 AI 처리를 중심에 두고 설계됐다고 했다. 점점 무거워지는 추론 작업과 GPU를 잡아먹는 소프트웨어 수요를 따라잡으려고 상위 칩 일정을 앞당겼다는 것이다. 기본형 M6만 봐도 방향이 읽힌다. 메모리 대역폭이 M5의 153GB/s에서 200GB/s로 뛰고, 뉴럴 엔진이 한 단계 올라가며, GPU도 새로 짜인다. M7은 대역폭을 240GB/s까지 끌어올릴 것으로 보도됐다. 칩의 무게 중심이 순수 CPU 성능에서 AI 추론과 그래픽 쪽으로 옮겨가는 중이다.

창업자에게 의미하는 것

이건 맥 한 줄의 사양표 얘기가 아니라, 추론을 어디서 돌릴 것이냐는 질문에 애플이 자기 패를 깐 사건이다. 칩 로드맵 전체를 온디바이스 AI에 베팅한다는 건, 노트북·태블릿·폰 안에서 모델을 직접 굴리는 게 향후 몇 년의 기본값이 된다는 뜻이다. 한국 개발자 입장에서 보면 그동안 LLM을 쓴다는 건 곧 API 호출이었다. 토큰당 과금, 네트워크 왕복 지연, 데이터를 외부로 보내는 부담이 한 묶음으로 따라왔다. 추론이 기기 쪽으로 내려오면 이 세 가지가 동시에 흔들린다.

기회는 게이트키퍼 없는 단가 구조에 있다. 사용자 기기에서 로컬로 추론을 돌리면 그만큼 OpenAI나 앤스로픽에 내던 토큰 비용이 빠진다. 음성 메모 요약, 사진 정리, 문서 검색, 코드 자동완성처럼 호출이 잦고 한 건당 가치는 작은 기능일수록 차이가 크다. 클라우드 추론으로는 마진이 안 나오던 영역이 로컬에서는 사실상 한계비용 0으로 돌아간다. 프라이버시를 파는 제품이라면 더 직접적이다. 의료·법률·금융처럼 데이터를 밖으로 못 내보내는 분야에서 “당신 데이터는 기기를 떠나지 않습니다”는 말이 마케팅 문구가 아니라 아키텍처 사실이 된다.

반대편의 부담도 솔직히 봐야 한다. 온디바이스는 공짜가 아니라 비용을 사용자 기기와 개발 난이도로 옮긴 것뿐이다. 같은 기능을 M3 맥북과 5년 된 안드로이드 폰에서 다 돌아가게 만들려면 양자화, 모델 경량화, 폴백 경로 설계가 다 숙제로 남는다. 애플 생태계만 보고 코어 ML과 뉴럴 엔진에 깊이 최적화하면 한국 시장의 안드로이드·윈도우 사용자가 통째로 빠진다. 그리고 이 로드맵은 2027~~2028년 일정이라는 점을 잊으면 안 된다. 지금 베팅하는 건 출시된 칩이 아니라 1~~2년 뒤 보급될 디바이스 베이스다.

지금 취할 수 있는 행동

추론이 어디서 돌아야 하는지 기능 단위로 쪼개 다시 그어라. 호출이 잦고 지연에 민감하고 데이터가 민감한 기능은 온디바이스 후보, 무겁고 가끔 도는 추론은 클라우드에 남긴다. 하이브리드가 현실적 정답이고, 어느 선을 긋느냐가 곧 단가표가 된다. 지금 당장 손댈 수 있는 건 애플 칩이 아니라 이미 깔린 도구다. 코어 ML, MLX, llama.cpp, ONNX 런타임으로 4비트·8비트 양자화 모델을 사용자 기기에서 돌려보고, 같은 기능을 클라우드로 했을 때와 토큰 비용·지연·체감 품질을 직접 재라. 숫자가 나와야 어디까지 내릴지 판단이 선다.

플랫폼 종속도 미리 계산하라. 애플에만 최적화하면 한국 사용자 다수인 안드로이드·윈도우가 빠지므로, 모델 포맷과 추론 계층은 처음부터 OS 중립으로 추상화해 두는 편이 낫다. 펀딩 자료의 단가 가정도 손봐야 한다. 추론 원가를 “토큰당 클라우드 과금”으로만 깐 모델은, 경쟁사가 같은 기능을 한계비용 0으로 내놓는 순간 무너진다. 로컬 추론 시나리오를 한 줄 넣어두면 마진 구조가 달라 보인다. 마지막으로 이건 2027~2028년 베이스라인이라는 시계를 분명히 하라. 오늘 출시할 제품은 클라우드로 짓되, 내후년 디바이스가 로컬 추론을 기본으로 깔 때 갈아탈 수 있게 경계면만 깨끗이 끊어두면 된다.