LLMはどこへ向かう?Transformerに続く次世代AIアーキテクチャとは

近年の大規模言語モデル(LLM)は、モデルを大規模にすることで飛躍的な性能向上を遂げてきました。しかし、計算資源の限界や運用コストの増大という壁に直面し、開発の主戦場は「単なる拡大」から「アーキテクチャの洗練」へと移り変わっています。本記事では、効率性を高めるMixture-of-Experts(混合専門家モデル)、外部知識を巧みに扱う次世代RAG、そしてTransformerの弱点を克服するMambaやハイブリッドモデルの最新動向を詳しく解説します。次世代AIの設計思想を紐解き、今後の技術の方向性を展望します。

【関連記事】「Windows AI PC」で何が変わる?高性能化が進むエッジAI技術の現在地

巨大Transformer路線の行き詰まり

近年のAI開発において、中心的な役割を果たしてきたのはTransformer(トランスフォーマー)と呼ばれるアーキテクチャです。この仕組みは、入力された文章内の単語同士の関係性を計算する「自己注意(セルフアテンション)」という機構を核としています。モデルのパラメータ数を増やし、学習データを膨大にするほど性能が向上するという「スケーリング則」に従い、AIの能力は爆発的に進化しました。しかし、この大規模化路線を突き進む中で、いくつかの深刻な課題が浮き彫りになっています。

Transformerが直面した物理的限界

Transformerの最大の特徴である自己注意機構は、入力される文章が長くなるほど、計算量とメモリの消費量が「長さの二乗」に比例して増大します。例えば、文章の長さを2倍にすると、計算コストは4倍に跳ね上がります。このため、本を丸ごと一冊読み込ませるような長文脈の処理においては、最新のGPUを用いても計算負荷が重くなりすぎます。結果として、処理速度の低下やメモリ不足といった問題が発生しやすくなりました。

また、モデルを巨大化し続けることは、莫大な計算資源と消費電力を必要とします。一つのモデルを動かすためにデータセンター規模の設備を占有し、巨額のコストを投じる手法は、持続可能性の観点からも限界が見え始めています。これまでの「すべての計算を、すべての入力に対して全力で行う」という密な設計(デンスモデル)では、効率の面で立ち行かなくなっています。現代のAI研究では、計算をいかに賢く節約するかが最大の焦点です。

MoE(混合専門家モデル)

こうした限界を打破するために脚光を浴びているのが、MoE(Mixture-of-Experts:混合専門家モデル)という設計思想です。これは従来のTransformerを完全に捨て去るのではなく、その内部構造を「疎(スパース)」なものに作り替えるアプローチです。MoEの考え方は、必要な専門家だけを呼び出す仕組みと言えます。

従来のモデルでは、どんな簡単な質問に対しても、全パラメータが総出で計算を行っていました。一方のMoEでは、モデル内部を多数の「専門家(エキスパート)」と呼ばれる小さなネットワークに分割します。そして、入力されたデータの内容に応じて、「ルーティング」と呼ばれる仕組みが、その処理に最も適した数名の専門家だけを選別して稼働させます。これにより、モデル全体のパラメータ数を数兆規模に増やして知識の容量を拡大しつつ、実際に計算を行う際の負荷を大幅に抑えられます。総量を増やしながら、毎回すべてを動かさないという発想の転換が、効率化の鍵となりました。

実運用レベルに到達したMoE

MoEは決して新しい理論ではありませんが、実運用レベルでその真価が証明されたのは近年のことです。Googleの「Switch Transformer」は、従来の設計をシンプルに保ちつつ、総パラメータ数を1兆規模まで拡大しながら、学習の効率を劇的に高められることを示しました。また、同社の「GLaM」は、GPT-3の約7倍という巨大な容量を持ちながら、学習に必要なエネルギーを3分の1に、推論時の計算量を半分に抑えつつ、多くの言語タスクで高い性能を記録しました

2024年末に公開されたDeepSeek-V3の技術レポートは、MoEが現代の主戦場であることを決定づけています。このモデルは総パラメータ数が6710億という巨大なものですが、一つの単語(トークン)を処理する際に実際に動くのはそのうちの370億パラメータに過ぎません。このような選択的アクティベーションによって、コストパフォーマンスを極限まで高めています。もはやMoEは、単なる研究テーマではなく、実用的なLLMを構築するための標準的な選択肢となりました。

MoEがもたらす新たな技術的課題

しかし、MoEは決して万能ではありません。計算量を減らす代わりに、これまでのデンスモデルにはなかった新しい課題に直面しています。まず挙げられるのが、専門家たちの負荷の偏りです。特定の優秀な専門家ばかりに仕事が集中してしまうと、他の専門家が学習されず、モデル全体の性能が低下する「ルーティングの崩壊」が起こります。これを防ぐために、負荷を均等に分散させるための複雑な制御が必要です。

さらに、システム実装の面でも大きな壁があります。MoEでは、異なる専門家が複数のGPUに分散して配置されるため、計算の過程でGPU間をまたぐ膨大なデータ通信が発生します。最新の調査報告によれば、学習時間全体の約3割から4割が、この通信コストに費やされるケースもあります。モデルの設計だけでなく、いかに高速にデータをやり取りするかというインフラ側の最適化も、MoEを成功させるための不可欠な要素です。

【参考】Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

RAGは「検索して貼りつける」段階を越えた

LLMの限界を補う手法として、今や欠かせない存在となったのがRAG(Retrieval-Augmented Generation:検索拡張生成)です。LLMが学習時に持っていなかった最新情報や、企業内部の情報を参照させるために、外部のデータベースから関連文書を検索し、それをLLMに渡して回答させる仕組みです。しかし、初期のRAGは「検索した結果を単にプロンプトに貼り付ける」という単純なものであり、多くの課題を抱えていました。現在、RAGはより高度な自律的判断を伴うアーキテクチャへと進化を遂げています。

従来型RAGの弱点

初期のRAGにおける最大の弱点は、検索結果の質がそのまま回答の質を左右してしまう点にありました。もし検索システムが的外れな文書を拾ってきてしまった場合、LLMはその誤った情報をもとに「もっともらしい嘘(ハルシネーション)」を生成してしまいます。また、文書を単純に短い断片(チャンク)に分割して検索する手法では、文書全体の文脈や複雑な論理関係が失われやすいという問題もありました。

検索した上位数件の文書を固定的にLLMへ渡すだけでは、不要なノイズが混入し、LLMが混乱する原因にもなります。特定の質問に対しては、そもそも検索が不要な場合もありますし、逆に一回の検索だけでは情報が不十分な場合もあります。こうした「検索器に依存しすぎる硬直性」を打破するために、最新の研究ではRAGの各プロセスに自己評価機能を組み込む動きが加速しています。

自己補正と能動的検索

進化したRAGの代表例として挙げられるのが、「Self-RAG」や「CRAG(Corrective RAG)」といった手法です。Self-RAGは、LLMが自ら「今、検索を行う必要があるか」を判断し、生成した回答が検索結果に基づいているかを自己批判する枠組みです。これにより、モデルは必要なときだけ外部知識を使い、不要なときは内部知識で対応するという柔軟性を獲得しました。

一方のCRAGは、検索された文書が質問に対して本当に適切かどうかを判定する軽量な評価器を導入しています。もし検索結果が不適切だと判断された場合、モデルは別の検索手段を講じたり、ウェブ検索をやり直したりといった動的なアクションを起こします。さらに、取得した文書から重要な箇所だけを抽出・再構成することで、情報の純度を高める処理も行われます。RAGはもはや単なる「検索と生成」ではなく、検索結果をチェックして補正する高度なパイプラインへと変貌しています。

構造的理解を深める

文書の「断片」ではなく「全体像」を捉えるためのアプローチも進化しています。「RAPTOR」という手法では、文書を単純に切り分けるのではなく、それらをクラスタリングして要約し、階層的な木構造として管理します。これにより、細かい事実に関する質問には末端の断片を参照し、文書全体にまたがる抽象的な質問には上位の要約を参照するという使い分けが可能になりました。

また、Microsoftが提唱する「GraphRAG」は、情報のつながりをグラフ構造として保持します。従来のベクトル検索は似ている言葉を探すのは得意でしたが、特定の人物と出来事の関係性を問うような、点と点をつなぐ問いには弱い側面がありました。GraphRAGでは、固有名詞などの関係性をグラフとして抽出し、コミュニティ単位での要約を作成します。これにより、コーパス全体を包括的に理解する必要がある質問に対して、精度の向上を実現しました。知識の構造化こそが、次世代RAGの核心です。

評価指標の再定義

最新の研究である「LongRAG」では、短いチャンク中心だった従来のRAGの常識を覆し、数千トークン単位の長い文章をそのまま検索の単位とすることを提案しています。長文脈を扱えるLLMの進化に伴い、検索側もより大きな文脈を一括で渡す方が、情報の欠落を防げるという考え方です。ただし、単に長い文章を渡せば良いわけではなく、モデルがその文脈を十分に活用できているかの判定が極めて重要になります。

RAGの進化は、技術的な手法だけでなく、その評価基盤にも及んでいます。検索器、再ランキング、LLM、そして評価指標の組み合わせは無限にあり、どの構成が最適かを客観的に判断するのは困難でした。そのため、再現性の高い比較を行うためのベンチマークライブラリの整備も進んでいます。RAGの真の勝負所は、検索アルゴリズム単体ではなく、これらすべての要素を有機的に統合したシステム全体の設計能力に移行しています。

Mambaとハイブリッドモデル

TransformerがLLMの黄金時代を築いてきた一方で、その計算効率の課題を根本から解決しようとする動きも活発です。その急先鋒として注目を集めているのが、State Space Models(SSM:状態空間モデル)をベースとした「Mamba」とその発展形です。これらは、Transformerが抱える「長文脈における計算量の爆発」を、数学的なアプローチによって回避しようとしています。大規模言語モデルの基礎構造の再設計とも呼べる取り組みです。

Mambaと線形スケーリング

Mambaが大きな衝撃を与えた理由は、Transformerの自己注意機構を使わずに高性能な系列モデルを実現した点にあります。Mambaは情報を、時間の経過とともに更新される「内部状態」として保持します。これにより、入力された文章の長さに対して計算量が比例して増える「線形スケーリング」を実現しました。

Transformerでは文章が2倍になれば計算は4倍になりますが、Mambaであれば2倍で済みます。この特性は、推論時の処理能力を向上させ、百万トークンを超えるような極めて長い系列に対しても高い性能を維持できる可能性を示しました。推論時の計算効率と長文脈耐性において、MambaはTransformerの強力なライバルとして、本格的に意識される転機となりました。

Mamba-2とTransformer

続く「Mamba-2」では、SSMとTransformerの間に数学的な共通点があることが整理されました。従来、この二つは全く異なる設計思想だと思われてきましたが、実はある種の「注意機構」のバリエーションとして統合的に理解できることが明らかになっています。この発見により、両者は「置き換え」の対象ではなく、同じ地平に立つ親戚のような存在となりました。

Mamba-2は初代Mambaの設計をさらに洗練させ、小規模から中規模のモデルサイズにおいてTransformerに匹敵する、あるいは凌駕する言語モデリングの能力を示しています。さらに、処理速度も2倍から8倍へと高速化されており、実用性が一段と高まりました。代替候補が単独の路線を突き進むのではなく、Transformerとの理論的な接続を深めながら進化したことで、次世代の設計論はより盤石なものとなっています。

再び注目を集める「Linear Attention」

現在の最新トレンドは、特定のアーキテクチャに固執するのではなく、それぞれの長所を組み合わせる「ハイブリッド化」にあります。その代表例が「Jamba」です。Jambaは、計算効率に優れるMamba層と、複雑な論理展開に強いTransformer層を交互に配置し、さらに一部にMoE(混合専門家モデル)を組み込んでいます。

この組み合わせにより、単一のGPUに収まるほどメモリ消費を抑えつつ、高い推論速度と25万トークンを超える長文脈性能を両立させました。また、2025年に発表された「Kimi Linear」の技術報告では、線形注意(Linear Attention)という手法が再び本命候補として注目を浴びています。Kimi Linearは、従来の完全な自己注意に勝るとも劣らない性能を示しながら、100万コンテキストでの計算負荷を劇的に削減することに成功しました。業界全体が、もはや巨大な密モデル一択ではなく、ハイブリッドやスパース化を前提とした多様な設計へと舵を切っています。

Transformerの現在地

これほど多くの新アーキテクチャが登場している現在、Transformerはもう役目を終えたのでしょうか。結論から言えば、Transformerが即座に姿を消すことは考えにくいといえます。Transformerはすでに膨大な学習ノウハウが蓄積されており、短文脈の処理においては依然として強力な性能を発揮します。また、ソフトウェアやハードウェアの最適化も、Transformerを基準に完成されています。

今後は、高い精度と安定性が求められるタスクには成熟したTransformerを用い、長文脈やリアルタイム性が求められる用途にはMambaやハイブリッドモデルを採用するという、用途に応じた併存が進むと考えられます。計算資源の制約が厳しくなる中で、LLMの裏側は、より多様で効率的なアーキテクチャへと確実に進化を続けています。

【参考】Kimi Linear: An Expressive, Efficient Attention Architecture

「大きいモデル」から「最適配分」へ

LLMの進化を、単なる「より大きなTransformerを作る競争」として捉える時代は終わりました。現在の主流は、MoEで計算をスパース化し、RAGで外部知識を接続し、SSMやハイブリッド設計で長文脈と推論効率を改善する流れにあります。今後の設計論は、モデル単体の巨大さよりも、どこを内部パラメータに持たせ、どこを外部知識に逃がし、どのアーキテクチャを選択するかという「最適配分」の議論へと移っていくでしょう。企業システムの構築においても、精度だけでなく、処理速度、GPUコスト、更新の容易さまでを含めた総合的なアーキテクチャ選択が、成功の鍵を握る時代です。

この記事を書いた人

ビジネス・テクノロジスト 貝田龍太