GPUに続くAI特化プロセッサ「NPU」が「Windows 12」の基盤になる？

AIブームを経て、PCの内部構造が静かに、しかし確実に変わりつつあります。かつて「処理速度といえばCPU」「グラフィックスといえばGPU」という常識が通用していた時代から、今や「AI推論はNPU」という第三の計算資源が当たり前になろうとしています。本記事では、プロセッサの進化史からGPU高騰の真因、そして次世代Windowsの基盤となりうるNPUの実力まで、三段構えで解説します。

CPU・GPU・NPU：プロセッサの進化と役割の再編

「NPUが登場した」というニュースを目にするたび、「GPUの上位互換が出たのか」と思う方は少なくないでしょう。しかし実態はまったく異なります。NPUはGPUを置き換えるものではなく、用途が根本的に異なる”第三の計算資源”として、既存のCPUやGPUと並列に搭載される設計思想を持っています。まずはプロセッサの歴史を辿りながら、それぞれの役割を整理しましょう。

CPUとGPUの違い：「汎用」か「並列特化」か

コンピュータの心臓部であるCPU（中央処理装置）は、数十年にわたって「万能型」の計算機として機能してきました。OSの管理、アプリケーションの制御、分岐処理や例外ハンドリングなど、複雑かつ多様な命令を順序立てて実行することに強みがあります。コア数は多くても数十個程度ですが、一つひとつのコアの処理能力は非常に高く、逐次的な処理を極めて高速にこなします。

一方、GPU（グラフィックス処理装置）はもともと画面への映像出力を担うために開発されました。3Dグラフィックスのレンダリングには、ピクセルごとの計算を大量に並列で行う必要があります。GPUは1000個から数万個規模のコアを搭載し、「同じ計算をたくさんのデータに同時に適用する」ことが得意な構造になっています。これが「並列特化」の本質です。

GPGPUという「偶然の発見」

転機となったのは2000年代に広まったGPGPU（General Purpose GPU、汎用目的GPU）の概念です。グラフィックス向けに発展した並列演算器が、科学技術計算や機械学習の行列演算と構造的に相性が良いことが明らかになりました。行列の積算（MAC演算、すなわち乗算と加算の組み合わせ）は、画像処理と同様に「大量のデータを同じ演算で処理する」性質を持っているからです。

ディープラーニングが台頭した2010年代以降、NVIDIAのCUDAプラットフォームを中心に、GPUはAI計算の主役へと躍り出ました。これは「グラフィックス用に発展した技術が、たまたまAIと相性が良かった」という、やや偶発的な経緯でもあります。

AIと並列計算

現代のAIモデル、特にTransformerベースの大規模言語モデルや画像認識モデルが行う計算は、主に三種類の演算に集約されます。行列積（MAC）、畳み込み演算、そしてAttention（アテンション）機構です。

これらの演算に共通するのは、「膨大な数の乗算と加算を、独立して並行実行できる」という性質です。並列度が高いほどスループット（単位時間あたりの処理量）が向上するため、多数のコアを持つGPUが有利になります。加えて、大規模モデルではパラメータ（モデルの重みデータ）のサイズが数十GBから数百GBにも達するため、データをどれだけ速くプロセッサに供給できるか、すなわちメモリ帯域幅が極めて重要な指標となります。

ここで登場するのがTOPS（Tera Operations Per Second）という性能指標です。1秒間に何兆回の演算を実行できるかを表しますが、この数値には注意が必要です。TOPSは理論上の最大値であり、実際の性能は演算精度（FP32かINT8かなど）やスパース性（ゼロが多い演算を省略できるか）、モデルの構造によって大きく変わります。「TOPSが高い＝万能に速い」という理解は誤りで、あくまで特定条件下での指標と捉えるべきです。

NPUの設計思想は「省電力・常時稼働・低遅延」

NPU（Neural Processing Unit、ニューラル処理装置）は、「AI推論に特化した、より効率的な計算資源」として設計されました。GPUがグラフィックスの延長でAIに対応したのとは異なり、NPUははじめからAI演算に最適化されたアーキテクチャを持ちます。

GPUとNPUの最大の違いは、用途の想定と電力設計にあります。GPUはデータセンターや高性能PCで、学習や大規模推論に対応するよう設計されており、大きな電力を使って最大スループットを追求します。対してNPUは、スマートフォンやノートPCといった端末上で、バッテリー消費を抑えながら常に稼働し続ける（always-on）ことを前提としています。

具体的には、量子化（INT8やINT4など、データを低精度で表現して演算量を削減する技術）やスパース演算（ゼロに近い値の計算を省略する技術）を積極的に活用し、電力あたりの推論効率を最大化する設計が採用されています。また、OS側やアプリケーション側からAPIを通じて呼び出しやすい形に整えられており、開発者が「NPUを使っている」ことをあまり意識せずに推論処理を組み込める設計が志向されています。

競争が起きている「層」を理解する

本記事で後述する主要プレイヤーは、Microsoft、Intel、AMD、Qualcomm、NVIDIA、Apple、TSMCです。ただし、これらが競争している「場所」は一様ではありません。QualcommやAMD、IntelはSoC（System on Chip）レベルでCPU・GPU・NPUをどう統合するかを競い、MicrosoftはOSとAPIの層でNPUをどれだけ活用しやすくするかを設計し、TSMCは製造プロセスとパッケージング技術の層で全社を支えています。この「層の違い」は、後の章で詳しく掘り下げます。

【IT担当者様へ】Windows 11への移行や社内インフラの刷新でお悩みですか？

→ クラウド・インフラ構築サービス

【AIで業務効率化】次世代OSを待たずに、今すぐ始められるAIソリューション

→ AIによる議事録生成ツール「いきなり議事録」

なぜAI時代にGPUが高騰したのか

GPUが「入手困難」「価格が数倍に跳ね上がった」というニュースを、ここ数年で何度も耳にしてきたはずです。多くの人は「人気があるから高い」と受け取りがちですが、実態はより構造的な問題です。AI学習・推論の需要急増と、先端パッケージング・高性能メモリという製造上のボトルネックが同時に発生したことが、高騰の本質です。

生成AIが変えた「計算の前提」

2022年末から本格化した生成AI（大規模言語モデルや画像生成AIなど）の普及は、AIに必要な計算量を桁違いに引き上げました。従来の機械学習モデルとは異なり、GPT系の大規模言語モデルは学習時に数千から数万枚規模のGPUを並列接続して長期間動かし続ける必要があります。推論（モデルを使って実際に回答を生成する処理）においても、リアルタイムに応答するためには高速なGPUと大容量のメモリが不可欠です。

この変化により、主要クラウド事業者や新興AI企業がGPUをまとめて大量調達するようになり、民生向けの流通量にまで影響が及びました。データセンター向けの需要が市場全体を飲み込む勢いで拡大したことで、供給が需要に追いつかない状態が長期化しました。

世界の半導体市場全体を見ると、2025年の売上高は前年比25.6%増の7,917億ドルに達し、2026年には1兆ドルを超える見通しも出ています。この成長の主役がAI向け計算チップであることは、業界全体の共通認識となっています。

「作れる工場が限られる工程」の存在

GPUが急増産できない理由は、単純に「製造ラインが足りない」という話ではありません。最先端のGPUは、シリコンウェハの加工（前工程）に加えて、チップレット（複数の半導体チップを一つのパッケージに統合する技術）と先端パッケージング技術が必要になります。

代表的なのがCoWoS（Chip on Wafer on Substrate）と呼ばれるパッケージング技術です。TSMCが持つ独自技術であり、GPU本体のシリコンと高帯域メモリ（HBM）を物理的に近接させて実装することで、超高速なデータ転送を実現します。問題は、このCoWoSの製造能力が世界的に非常に限られており、前工程の製造ラインを確保できても、CoWoS工程がボトルネックになって出荷が滞るという状況が続いていることです。

TSMCとNVIDIAがアリゾナ州での生産拡大を検討する際にも、前工程は米国内で対応できても、CoWoS能力は別途確保が必要という問題が表面化しています。NVIDIAのCEOも先端パッケージングの需要変化とボトルネックについて明言しており、「製造能力の問題はシリコン製造だけに留まらない」ことが鮮明になっています。

HBMという「もう一つの制約」

GPU高騰を語る際に見落とされがちなのが、メモリの問題です。高性能GPUにはHBM（High Bandwidth Memory、高帯域幅メモリ）が搭載されますが、このHBMを製造できるメーカーは世界でも限られており、AI需要の拡大に伴って需給が逼迫しています。

HBM市場はSKハイニックスやSamsung、Micronなど一部のメーカーが担っていますが、製造工程の複雑さから増産には時間がかかります。AI向けの旺盛な需要がメモリ市場全体を圧迫し、価格と供給の両面で圧力がかかり続けています。「GPUを作るシリコン」と「GPUに載せるメモリ」と「GPUをパッケージングする技術」という三つのレイヤーすべてが律速となっているのが現状です。

「高騰」の解像度を上げる

GPU価格は「常に右肩上がり」ではなく、供給の改善やクラウドレンタル市場の活用拡大などによって調整局面が訪れることもあります。しかし企業の視点では、名目上の価格よりも「いつ、確実に、どれだけの数を調達できるか」という確保コストと機会損失のリスクが経営上の問題になっています。学習クラスターが計画通りに構築できなければ、サービス開発や市場投入のスケジュール全体がずれ込みます。

NPUへの「移行」が必然になる理由

こうした状況を踏まえると、「AIに関わる計算をすべてGPUで処理する」アプローチが、コスト・電力・供給の三面において持続可能でなくなりつつあることが見えてきます。特に推論処理、すなわち「学習済みモデルを使って実際に予測や生成を行う処理」については、大規模なGPUクラスターでなくても端末側で十分まかなえるケースが増えています。

NPUがノートPCやスマートフォンに標準搭載される流れが加速しているのは、技術的な必然であると同時に、データセンター側のコスト・供給問題への応答でもあります。次章では、その具体的な実態と「ソフト層の競争」に焦点を当てます。

【参考】Global Annual Semiconductor Sales Increase 25.6% to $791.7 Billion in 2025

NPUはGPUより優れている？その実像と市場予測

NPUはGPUの上位互換ではありません。両者が得意とする領域は明確に分かれており、その棲み分けを理解することが、AI時代のPC選びや開発戦略において不可欠な視点となります。

NPUとGPUの「棲み分け」を正確に理解する

NPUが優位なのは、「電力あたりの推論効率」「常時・軽量推論」「OS機能への深い組み込み」の三点です。バッテリー駆動のノートPC上で、リアルタイム字幕生成や顔認識、音声認識などを常時動かし続けるような用途において、GPUより遥かに少ない消費電力で同等の推論を実行できます。

一方、GPUが圧倒的に強いのは「モデルの学習」「数十億パラメータ規模の大規模推論」「グラフィックスレンダリングを兼ねた汎用並列処理」の領域です。TOPSの数値だけを比較してNPUがGPUより「多い」ケースが出てきたとしても、それはあくまで特定精度・特定用途での数値であり、用途が違えば意味を持ちません。

NPUが「推奨」ではなく「要件」になった

Microsoftが2024年に展開を始めたCopilot+ PCは、この文脈において極めて重要なマイルストーンです。Copilot+ PCの認定要件として、NPUが40 TOPS以上の性能を持つことが明記されています。従来のように「NPUがあると便利」という推奨レベルの話ではなく、OS側のAI機能を動かすための最低条件として位置づけられています。

Microsoftの開発者向けドキュメントにも、「40 TOPS以上のNPUが必要なWindows AI機能が存在する」ことが明記されており、OSがNPUの存在を前提に設計されていることが読み取れます。「Windows 12」の正式名称や仕様はまだ公表されていませんが、現在のWindows 11の方向性を見れば、次世代Windowsがさらにこの要件を引き上げていく可能性は高いと言えます。

数値より「設計思想」で読む

現在のPC向けNPU搭載SoCを、単なるTOPS比較ではなく「どのような設計哲学か」という観点で紹介します。

Snapdragon X Elite（Qualcomm）：NPU性能は最大45 TOPSで、Qualcommが長年モバイル向けSoCで培ってきたAI推論最適化の技術をPC向けに展開しています。CPUコア・GPUコア・NPUを単一チップに統合するSoC設計の強みを持ちます。
Ryzen AI 9 HX 370（AMD）：NPU単体で最大50 TOPS、CPU・GPU・NPUを合算したOverall TOPSは最大80に達します。「NPUだけ」ではなくCPU・GPU・NPUを協調させた総合的なAI処理能力を重視した設計思想が特徴です。
Core Ultra 7 258V（Intel）：NPUのピーク性能は47 TOPSで、対応フレームワークにWindowsML、DirectML、ONNX Runtime、WebNNなど主要なソフトウェア基盤を幅広くサポートしています。Intel独自の最適化技術であるOpenVINOとの連携も含め、ソフト層との接続の広さが強みです。
Apple M4 Neural Engine（Apple）：最大38 TOPSとWindows陣営と同等水準の性能を持ちます。AppleのMシリーズSoCにおけるNeural Engineは、端末でのAI処理が「特別な機能」ではなく標準部品として成熟したことを象徴しています。

「データセンター＝GPU」「端末＝NPU」の市場構造

市場全体の見通しを整理すると、「AIが計算系チップ全体を牽引する」という大きなトレンドの中で、データセンター層と端末層の役割分担が鮮明になっています。

データセンター向けのAIインフラ支出において、アクセラレーテッドサーバ（GPUやASICを搭載したサーバ）が占める比率は2028年に75%を超えると予測されており、大規模な学習・推論の中心はGPU・ASICが担い続けます。一方でエッジAIアクセラレータ市場（端末・現場での推論処理）は、2024年の約77億ドルから2030年には約384億ドルへと約5倍に拡大する見通しがあり、端末側での推論処理の重要性が急速に高まっています。

この二層構造を踏まえると、「NPUがGPUを市場から駆逐する」という理解が誤りであることがわかります。両者は競合ではなく、それぞれの場所で最適化された形で共存・連携する関係です。

本当の競争は「ソフト層」で起きている

NPUをめぐる競争において、ハードウェアのTOPS数は参入資格に過ぎないという認識が業界全体に広まりつつあります。実際の差別化が起きているのは、ソフトウェアの層です。

OS側では、MicrosoftがWindows AI APIsやFoundry on Windows（Foundry Local、Windows MLを含むローカルAI実行基盤）を整備することで、アプリケーション開発者がハードウェアの差を意識せずにAI推論を呼び出せる世界を構築しようとしています。NPUが搭載されたPCであれば自動的にNPUで処理し、なければCPUやGPUにフォールバックする、という抽象化レイヤーです。

ランタイム層では、DirectML（MicrosoftのAIアクセラレーション向けAPI）とONNX Runtime（オープンソースの推論エンジン）の組み合わせが、Windowsでハードウェア加速AIを配布する事実上の標準となっています。ONNX RuntimeのExecution Provider（EP）という仕組みを使うと、同一のモデルファイルでも実行先をNPU・GPU・CPUの間で切り替えることができ、ハードウェア構成が異なるPC間でも同じアプリが動作します。

ベンダー側では、IntelのOpenVINOをはじめとする独自最適化ツールチェーンが、モデルの量子化・カーネル最適化・特定ハードウェア向けのコンパイルで性能差を生み出そうとしています。

現在は「誰がより高いTOPSを出すか」ではなく、「コンパイラ・量子化・カーネル最適化・モデル配布の仕組みを誰が制するか」というソフト層の覇権争いへと移行しています。ハードウェアの性能を引き出せるかどうかは、上位のソフトウェアスタックの質に依存するからです。

【参考】Develop AI applications for Copilot+ PCs

【参考】Edge AI Accelerator Market (2025 – 2030)

NPUは「AI時代の標準装備」

GPU高騰の背景には「AI需要の急拡大」と「先端パッケージング・HBMという供給制約」の同時発生があり、入手性の不確かさは今後も企業の調達コストに影響を与え続ける可能性があります。その構造的な圧力に押される形で、端末側で処理できるAI推論はNPUへと移行し、OSの機能と一体化する流れが加速しています。ただし、NPUをめぐる勝敗を決めるのはTOPS数だけではありません。DirectML・ONNX Runtime・Windows AI APIsといったソフト層の吸収力こそが、次のAI時代における真の競争軸となるでしょう。

この記事を書いた人

ビジネス・テクノロジスト貝田龍太

お役立ちブログ