Appleが高性能M6を飛ばす — チップ計画がオンデバイスAIへ舵を切った

AppleがM6 Pro・Max・Ultraをまるごと飛ばし、オンデバイスAI向けに設計したM7へ直行すると報じられた。あるチップ世代でProもMaxも出さないのは初めてだ。推論をクラウドでなく端末内で回す流れがMacのシリコン計画に刻まれた格好で、ローカルAIを前提に製品を組むべき合図だ。

何が起きたのか

6月25日、BloombergのMark Gurman氏が、AppleのMacチップ計画が一度切り替わったと伝えた。要点は二つだ。第一に、年内にも登場する基本型M6にはProやMaxが付かない。Appleシリコンの歴史で、ある世代にProもMaxも出さないのはこれが初めてである。第二に、上位の高性能チップはM6世代を飛ばし、そのままM7世代へ移る。基本型M7が2027年前半、M7 ProとM7 Maxが2027年末、通常Maxのおよそ2倍の性能を出すM7 Ultraが2028年に最上位のMac Studio向けに登場する、という構図だ。

なぜ一世代をまるごと飛ばすのか。Gurman氏によれば、M7ラインは最初からオンデバイスAI処理を中心に据えて設計されている。年々重くなる推論処理とGPUを食うソフトウェアの需要に追いつくため、上位チップの日程を前倒ししたという。基本型M6を見るだけでも方向は読める。メモリ帯域はM5の153GB/sから200GB/sへ上がり、Neural Engineが一段強化され、GPUも刷新される。M7は帯域を約240GB/sまで引き上げると報じられた。チップの重心が、純粋なCPU性能からAI推論とグラフィックスへ移りつつある。

創業者にとっての意味

これはMac一機種のスペック表の話ではなく、推論をどこで回すかという問いにAppleが手の内を見せた出来事だ。チップ計画の全体をオンデバイスAIに賭けるとは、ノートPC・タブレット・スマホの中でモデルを直接動かすことが今後数年の前提になる、という意味になる。多くの開発者にとって「LLMを使う」とはAPI呼び出しのことだった。トークン課金、ネットワークの往復遅延、データを外部に送る負担が一束になって付いてきた。推論が端末側へ降りてくると、この三つが同時に揺れる。

機会は、関所のいらない原価構造にある。ユーザーの端末でローカルに推論を回せば、その分OpenAIやAnthropicに払っていたトークン費用が消える。音声メモの要約、写真の整理、文書検索、コード補完のように、呼び出しが頻繁で一件あたりの価値が小さい機能ほど差が大きい。クラウド推論では採算が合わなかった領域が、ローカルでは実質的に限界費用ゼロで回る。プライバシーを売りにする製品ならもっと直接的だ。医療・法務・金融のようにデータを外に出せない分野で、「あなたのデータは端末を離れません」が宣伝文句ではなくアーキテクチャ上の事実になる。

反対側の負担も正直に見ておきたい。オンデバイスはタダではなく、費用をユーザーの端末と開発の難しさへ移しただけだ。同じ機能を最新のMacBookでも5年前のAndroid端末でも動かすには、量子化、モデルの軽量化、フォールバック経路の設計がそのまま宿題になる。Apple生態系だけを見てCore MLとNeural Engineに深く最適化すれば、日本市場で多数を占めるAndroid・Windowsのユーザーがまるごと抜け落ちる。そしてこの計画は2027〜2028年の日程である点を忘れてはいけない。いま賭けるのは出荷済みのチップではなく、1〜2年先に普及する端末ベースだ。

今できること

推論をどこで回すべきか、機能単位で切り直す。呼び出しが頻繁で遅延に敏感、データが機微な機能はオンデバイス候補、重くてたまにしか走らない推論はクラウドに残す。ハイブリッドが現実的な答えで、どこに線を引くかがそのまま原価表になる。いますぐ触れるのはAppleのチップではなく、既に手元にある道具だ。Core ML、MLX、llama.cpp、ONNX Runtimeで4ビット・8ビットの量子化モデルをユーザー端末で動かし、同じ機能をクラウドで回した場合とトークン費用・遅延・体感品質を実測する。数字が出て初めて、どこまで端末側に降ろすか判断できる。

プラットフォーム依存も先に織り込む。Appleだけに最適化すると日本のユーザーに多いAndroid・Windowsが抜けるので、モデル形式と推論層は最初からOS中立に抽象化しておくのが得策だ。資金調達資料の原価前提も見直したい。推論原価を「トークン課金のクラウド費用」だけで組んだモデルは、競合が同じ機能を限界費用ゼロで出した瞬間に崩れる。ローカル推論のシナリオを一行加えるだけで、利益構造の見え方が変わる。最後に、これは2027〜2028年のベースラインだという時計を明確にしておく。今日出す製品はクラウドで作りつつ、来年・再来年の端末がローカル推論を標準にしたとき乗り換えられるよう、境界面だけはきれいに切っておけばいい。