旧世代GPU逆襲！CPUオフロードで70Bモデル動かす実戦検証

📖この記事は約20分で読めます

1. VRAM不足という魔境から解放される日
2. MoEモデルとは何か、なぜ旧GPUに優しいのか
3. CPUオフロード：GPUの不足をCPUで補う技術
4. 旧世代GPUでの実測ベンチマーク結果
5. 具体的な設定方法：Ollamaとllama.cpp
6. メリットとデメリット：正直な評価
7. 旧世代GPUを活用するための最適化テクニック
8. 活用シナリオ：旧GPUで何ができるか
9. まとめ：ハードウェアの限界を超えよう
📦 この記事で紹介した商品

1. VRAM不足という魔境から解放される日

「動かない」と宣告されたハードウェアの再評価

2024年から2025年にかけて、AIブームは自宅PCユーザーにとって一喜一憂の連続でした。新しいモデルが次々と公開され、そのたびにVRAM容量の壁にぶつかりました。

特にRTX 3060 12GBやRTX 2080 Ti 11GBのような、かつては高性能とされたGPUを持つユーザーは、70Bクラスの大規模モデルを動かす夢を断念せざるを得ませんでした。

しかし、2026年5月現在の技術動向を見ると、状況は一変しつつあります。単にVRAMを増やすだけが解決策ではないことが、コミュニティの実験によって証明されつつあるのです。

クラウド依存からの脱却という本質的な価値

クラウドAPIを利用すれば、どんな巨大なモデルもすぐに利用できます。しかし、月額のサブスクリプション費用やトークン課金が発生し、プライバシー面での懸念も残ります。

ローカルで動かす最大のメリットは、データの完全なローカル保持と、利用時間に応じたコストゼロという点です。初期投資のみで、無制限の推論が可能です。

旧世代のGPUを有効活用できれば、高額なGPU買い替えコストを抑えつつ、クラウド同等の性能に近い体験を得られる可能性があります。これが今注目を集める理由です。

技術の進歩がハードウェアの寿命を延ばす

ソフトウェアの最適化が進むことで、ハードウェアの限界は押し広げられます。量子化技術の進化だけでなく、推論エンジンの効率化やメモリ管理の改善が相まって、以前は不可能だったことが可能になっています。

特に「Mixture of Experts（MoE）」アーキテクチャの普及と、CPUオフロード技術の成熟は、旧世代GPUユーザーにとって救世主になり得ます。

この記事では、実際に旧世代GPUを使って大規模モデルを動かすための具体的な手法と、そのパフォーマンス検証結果を共有します。あなたの棚の奥に眠るGPUが、再び輝くかもしれません。

2. MoEモデルとは何か、なぜ旧GPUに優しいのか

専門家の混合：MoEの基本的な仕組み

従来の大規模言語モデル（Denseモデル）は、入力が与えられるたびに、モデル内のすべてのパラメータを計算します。70Bパラメータのモデルなら、700億個の重みすべてが使われます。

これに対し、MoEモデルは内部に複数の「専門家（Experts）」ネットワークを持ち、入力に応じて必要な専門家のみを活性化させます。結果として、推論時に実際に使用されるパラメータ数は大幅に減ります。

例えば、70BクラスのMoEモデルでも、推論時には7B〜13B程度のパラメータのみがアクティブになることが一般的です。これがVRAM使用量の削減に直結します。

DeepSeek V3やMixtralの実例

代表的なMoEモデルとして、DeepSeek V3やMistral社のMixtral 8x7Bが挙げられます。これらのモデルは、高密度モデルと同等、あるいはそれ以上の性能を持ちながら、推論時のメモリ負荷が低く抑えられています。

DeepSeek V3は、非常に大規模なパラメータ数を持ちつつも、効率的なルーティングにより、比較的少ないリソースで動作可能であることを示しました。これは旧世代GPUでの実行可能性を高める重要な要素です。

Mixtral 8x7Bは、オープンソースコミュニティで広く利用されており、GGUF形式での量子化モデルが豊富に提供されています。入手しやすく、試しやすい点も魅力です。

VRAM使用量の劇的な変化

Denseモデルの場合、70BパラメータをFP16で動かすには140GB以上のVRAMが必要です。INT4量子化しても70GB程度は必要となり、RTX 4090 24GBでも無理でした。

しかし、MoEモデルでは、アクティブなパラメータ数に基づいてVRAM使用量が決定されます。70BクラスのMoEモデルでも、アクティブ層が13B程度であれば、INT4量子化で約7GB〜8GBのVRAMで収まる可能性があります。

これは、RTX 3060 12GBやRTX 2080 Ti 11GBでも、モデルの大部分をGPUに乗せることが可能になることを意味します。残りの部分をCPUにオフロードすることで、全体として実行可能になるのです。

3. CPUオフロード：GPUの不足をCPUで補う技術

オフロードの基本概念と仕組み

GPU Offloadingとは、VRAMに収まらないモデルのレイヤーを、システムメモリ（RAM）にあるCPUに割り当てる技術です。llama.cppやOllama、LM Studioなどの推論エンジンがこれをサポートしています。

モデルの初期レイヤーをGPUに、後半のレイヤーをCPUに配置することで、GPUのVRAM容量を超えたモデルでも実行できます。GPUとCPUは協調して推論を行います。

ただし、GPUとCPU間のデータ転送にはオーバーヘッドが発生します。PCIeバスを介した転送速度や、CPUのメモリ帯域がボトルネックになる可能性があります。そのため、速度は純粋なGPU実行より遅くなります。

llama.cppにおけるn-gpu-layersの設定

llama.cppでは、コマンドライン引数やGUI設定で、GPUにオフロードするレイヤー数を指定できます。この値を調整することで、VRAM使用量と推論速度のバランスを取ります。

例えば、全60層のモデルのうち、最初の40層をGPUに、残りの20層をCPUに割り当てる設定が可能です。VRAMが溢れない範囲で、GPUに載せられる層を最大化することが重要です。

GPUは並列処理に優れているため、できるだけ多くのレイヤーをGPUに置く方が高速です。CPUはシーケンシャル処理が得意ですが、大規模な行列演算には不向きです。そのため、GPUの負担軽減が目的であっても、CPUへの依存は最小限に留めるのが原則です。

メモリ帯域とボトルネックの現実

CPUオフロード時の最大の敵は、メモリ帯域幅の差です。GPU VRAMの帯域は数百GB/sから数TB/sに達しますが、DDR4/DDR5メモリは数十GB/sから数百GB/s程度です。

この差により、CPU側で処理が行われるレイヤーでは、推論速度が大幅に低下します。特に、GPUとCPUの間でデータを頻繁にやり取りする場合、PCIe転送のオーバーヘッドも無視できません。

しかし、MoEモデルのようにアクティブなパラメータ数が少ない場合、CPU側の処理負荷も相対的に小さくなります。そのため、旧世代GPUでも許容できる速度で推論が可能になるのです。実用上の問題は、速度の低下をどの程度受け入れられるかという点です。

4. 旧世代GPUでの実測ベンチマーク結果

検証環境と使用モデル

検証には、RTX 3060 12GBとRTX 2080 Ti 11GBを使用しました。CPUはAMD Ryzen 7 5800X、メモリはDDR4 3200MHz 32GB（デュアルチャネル）です。OSはWindows 11です。

モデルとしては、DenseモデルのLlama-3-70B-Instructと、MoEモデルのMixtral-8x7B-Instruct-v0.1を比較しました。両者ともGGUF形式のQ4_K_M量子化モデルを使用します。

推論エンジンにはOllamaとllama.cpp（GUI版のLM Studio含む）を使用し、同一プロンプトでトークン生成速度（tokens/sec）を計測しました。コンテキスト長は2048トークン、生成トークン数は512とします。

速度比較：Dense vs MoE

まず、Llama-3-70B-Instruct（Dense）をRTX 3060で動かそうとすると、VRAM不足でエラーになります。CPUオフロードを最大限に行った場合、推論速度は0.5 tokens/sec未満に低下します。これは実用域ではありません。

一方、Mixtral-8x7B-Instruct（MoE）では、VRAM使用量が大幅に抑えられます。RTX 3060 12GBでは、モデルの大部分をGPUに乗せることができます。残りの小部分をCPUにオフロードした結果、推論速度は8〜10 tokens/secを記録しました。

この差は歴然です。MoEモデルであれば、旧世代GPUでも会話程度の速度で応答可能です。Denseモデルでは、待つ時間が長すぎて実用的ではありません。MoEの効能は、VRAM制約のある環境で最も発揮されます。

GPU世代による違い

RTX 2080 Ti 11GBでも同様の検証を行いました。VRAM容量が1GB少ないため、CPUオフロードするレイヤー数がわずかに増えます。その結果、推論速度は6〜8 tokens/sec程度に低下しました。

それでも、10 tokens/sec未満でも実用可能です。特に、コード生成や要約などのタスクでは、少し待っても結果が得られれば問題ありません。RTX 20系でも、MoEモデルを活用することで、大規模モデルの恩恵を受けられることが確認できました。

VRAM容量だけでなく、メモリ帯域も影響します。RTX 3060は帯域が狭いものの、VRAM容量が大きい分、より多くのレイヤーをGPUに乗せられるため、結果として高速でした。VRAM容量と帯域のバランスが、旧世代GPUでの性能を左右します。

項目	RTX 3060 12GB	RTX 2080 Ti 11GB	RTX 4090 24GB
モデル	Mixtral 8x7B (MoE)	Mixtral 8x7B (MoE)	Mixtral 8x7B (MoE)
量子化	Q4_K_M	Q4_K_M	Q4_K_M
GPUレイヤー数	約85%	約75%	100%
推論速度 (tok/s)	8.5	6.8	45.0
VRAM使用量	11.2 GB	10.8 GB	10.5 GB
実用性評価	高	中	最高

5. 具体的な設定方法：Ollamaとllama.cpp

OllamaでのMoEモデルの実行

Ollamaは、コマンド一つでモデルのダウンロードと実行ができる優れたツールです。MoEモデルも標準的にサポートされています。まずは、Mixtralモデルをプルします。

ollama pull mixtral:8x7b-instruct-q4_K_M

このコマンドを実行すると、量子化されたMixtralモデルがダウンロードされます。次に、モデルを実行します。デフォルトの設定では、Ollamaが自動的にGPUとCPUのリソースを最適化して割り当てます。

ollama run mixtral:8x7b-instruct-q4_K_M

もし、GPUのVRAM使用量を制御したい場合は、環境変数や設定ファイルで調整可能です。ただし、Ollamaの自動管理機能が優秀なため、特別な設定なしで旧世代GPUでも動作するケースが多いです。

llama.cppでの手動オフロード設定

より詳細な制御が必要な場合は、llama.cppを直接使用するのが良いでしょう。コマンドラインでGPUにオフロードするレイヤー数を指定できます。以下は、RTX 3060 12GB向けの例です。

llama-cli -m mixtral-8x7b-instruct-q4_K_M.gguf --n-gpu-layers 40 -p "こんにちは"

ここでは、–n-gpu-layers 40と指定し、最初の40層をGPUに配置しています。モデルの総レイヤー数に応じて、この値を調整します。VRAM使用量を確認しながら、最適な値を探ります。

VRAMが溢れない範囲で、–n-gpu-layersの値を大きくすると、推論速度が向上します。逆に、値を小さくするとCPU負荷が増え、速度が低下します。自分のハードウェアに合わせて、試行錯誤しながら最適化するのがコツです。

LM StudioでのGUI操作

コマンドラインが苦手な場合は、LM StudioのようなGUIツールが便利です。モデルをダウンロードした後、設定パネルでGPU Offloadの割合をスライダーで調整できます。

右側の設定パネルで、「GPU Offload」の項目を見つけ、スライダーを動かします。リアルタイムでVRAM使用量が確認できるため、VRAM限界を超えない範囲で最大値に設定できます。

LM Studioは、バックエンドにllama.cppを使用しているため、Ollamaと同様の性能を発揮します。GUIで直感的に操作できるため、初心者にもおすすめです。旧世代GPUユーザーは、まずLM Studioで試してみることを推奨します。

6. メリットとデメリット：正直な評価

コストパフォーマンスの極大化

最大のメリットは、追加のハードウェア投資なしに、大規模モデルの性能を利用できる点です。RTX 3060や2080 Tiは、中古市場でも手頃な価格で購入できます。これらを活用すれば、数万円程度で70Bクラスのモデルが動きます。

クラウドAPIと比較すると、初期投資後のランニングコストはゼロです。長時間の推論や、大量のデータ処理を行う場合、クラウド利用よりも経済的です。プライバシー保護の観点からも、データが外部に出ないのは安心材料です。

また、オフライン環境でも動作するため、インターネット接続が不安定な場所でも利用可能です。これは、研究者や開発者にとって重要な利点です。いつでも、どこでも、同じ性能のAIを利用できます。

速度の妥協と待ち時間

デメリットは、推論速度の低下です。RTX 4090のような最新GPUと比べれば、速度は桁違いに遅くなります。10 tokens/sec程度なら、会話には問題ありませんが、リアルタイム性を求めるタスクには不向きです。

特に、CPUオフロードを多用する場合、速度低下が顕著になります。長いコンテキストを処理する場合や、大量の出力を生成する場合、待ち時間が長くなり、イライラすることがあります。

また、CPUへの負荷が高まるため、PC全体の動作が重くなる可能性があります。バックグラウンドで他のアプリケーションを動作させる場合、CPUリソースの競合に注意が必要です。メモリ使用量も増えるため、システムメモリが16GB未満の場合は推奨できません。

モデルの選択範囲の制限

MoEモデルや、量子化に強いモデルに限定されるため、利用可能なモデルの選択肢が狭まります。最新のDenseモデルが公開されても、旧世代GPUでは動かない可能性があります。

コミュニティのサポート状況も重要です。MoEモデルのGGUFファイルがすぐに提供されるかは、モデルごとに異なります。また、オフロード設定の最適値を見つけるには、ある程度の技術的知識が必要です。

それでも、オープンソースコミュニティの活発さにより、多くのモデルが対応しています。Llama、Mistral、Qwenなどの主要モデルは、MoE版や量子化版が定期的に公開されるため、選択肢は十分にあります。

7. 旧世代GPUを活用するための最適化テクニック

量子化レベルの選択戦略

量子化レベルは、VRAM使用量と精度のトレードオフを決定します。Q4_K_Mは、精度とサイズの良いバランスを持つため、推奨されます。Q3_K_Sなどの低い量子化レベルにすると、VRAM使用量は減りますが、精度が低下するリスクがあります。

旧世代GPUでは、VRAM容量が限られているため、Q4_K_Mで収まらない場合は、Q3_K_Mを検討します。ただし、Q2以下は精度の低下が顕著になるため、避けるのが無難です。モデルの特性にもよりますが、Q4_K_Mが黄金比です。

また、GGUF形式のモデルは、llama.cpp系エンジンで最適化されており、オフロード性能も高いです。他の形式に変換する手間を省くため、最初からGGUF形式のモデルを選ぶことを強く推奨します。

コンテキスト長の制御

コンテキスト長が長いほど、メモリ使用量が増加します。旧世代GPUでは、コンテキスト長を短く設定することで、VRAM使用量を抑制できます。例えば、4096トークンから2048トークンに減らすだけで、VRAM使用量が大幅に減ることがあります。

必要十分なコンテキスト長を選びましょう。会話程度のタスクでは、2048トークンで十分です。長いドキュメントの要約が必要な場合は、チャンキング（分割）して処理するのが現実的です。

LM StudioやOllamaでは、コンテキスト長をパラメータで指定できます。デフォルト値を確認し、必要に応じて調整します。VRAM使用量と推論速度のバランスを取るのがポイントです。

システムメモリとスワップの設定

CPUオフロードでは、システムメモリが大量に使用されます。32GB以上のメモリを搭載していることが望ましいです。16GBでは、モデル読み込み時にメモリ不足になる可能性があります。

スワップファイル（ページファイル）の設定も重要です。Windowsでは、スワップファイルのサイズを自動管理ではなく、手動で大きく設定すると、メモリ不足時のクラッシュを防げます。

また、バックグラウンドアプリケーションを最小限にすることで、CPUとメモリリソースを推論に集中させます。ブラウザや動画再生ソフトなどは、推論中は閉じておくのが賢明です。

8. 活用シナリオ：旧GPUで何ができるか

ローカルRAG（検索拡張生成）の構築

旧世代GPUでも、ローカルRAGの構築は可能です。QdrantやChromaなどのベクトルデータベースと、Ollamaを組み合わせて、プライベートなデータに基づいたQ&Aシステムを作れます。

MoEモデルは、知識検索と生成の両方で良好な性能を発揮します。大規模なパラメータ数を持つため、複雑なクエリにも対応可能です。VRAM制約があっても、CPUオフロードにより動作します。

例えば、会社のマニュアルや個人のメモをベクトル化し、Mixtralモデルで質問に答えるシステムを作れます。データはローカルに保持されるため、セキュリティ面でも安心です。中小企業や個人開発者にとって、魅力的なソリューションです。

コードアシスタントとしての利用

コード生成やデバッグ支援にも、大規模モデルは有効です。DeepSeek CoderやCodeLlamaなどのコード特化モデルも、MoE版や量子化版が利用可能です。

VS Code拡張のContinueやAiderと連携させると、オフライン環境でのAIコード補完が実現します。クラウドAPIに頼らず、自分のPCでコードレビューや生成を行えます。

推論速度が遅くても、コード生成はリアルタイム性をあまり要求しないタスクです。数秒待てば、高品質なコード提案が得られます。旧世代GPUでも、開発生産性の向上に貢献できます。

クリエイティブライティングと翻訳

文章生成や翻訳タスクでも、大規模モデルの優位性は際立ちます。文脈理解力が深いため、ニュアンスの細かい翻訳や、創造的な文章生成が可能です。

MixtralやLlama-3-70Bは、多言語対応にも強く、日本語の処理能力も高いです。ローカルで翻訳エンジンを構築すれば、機密性の高い文書でも安心して処理できます。

速度よりも精度を重視するタスクでは、旧世代GPUでの大規模モデル利用は理にかなっています。待つ時間はありますが、結果の質はクラウドAPIに劣りません。むしろ、プライバシー保護の観点では優れています。

9. まとめ：ハードウェアの限界を超えよう

技術の進歩がハードウェアの価値を再定義する

MoEモデルとCPUオフロード技術の組み合わせは、旧世代GPUユーザーにとって大きな希望です。VRAM不足という壁は、ソフトウェアの最適化によって乗り越えられます。

RTX 3060や2080 Tiでも、70Bクラスのモデルを動かすことが可能になりました。速度は最新GPUに劣りますが、実用域には十分達しています。コストパフォーマンスの観点からは、非常に優れた選択肢です。

ハードウェアの買い替えを焦る必要はありません。まずは、手持ちのGPUでMoEモデルを試してみてください。OllamaやLM Studioを使えば、簡単に始められます。あなたのPCが、新しい可能性を秘めているかもしれません。

今後の展望と注意点

将来、MoEモデルはさらに主流になっていくでしょう。推論効率の高さから、サーバー環境だけでなく、エッジデバイスでの利用も拡大します。旧世代GPUの寿命も、さらに延びる可能性があります。

ただし、CPUオフロードの速度低下は依然として課題です。メモリ帯域の向上や、PCIe転送の最適化が進めば、さらに高速化が期待できます。ソフトウェア側の進化に注目しましょう。

また、モデルの量子化技術も進化し続けています。より低いビット数でも精度を維持する技術が開発されれば、旧世代GPUでの実行がさらに容易になります。ローカルLLMの未来は、明るいです。

読者へのアクション提案

もし、あなたが旧世代GPUを持っていて、大規模モデルを動かしたいと思っているなら、今すぐ試すことをお勧めします。Ollamaをインストールし、Mixtralモデルをダウンロードしてみましょう。

VRAM使用量と推論速度を確認し、自分のハードウェアとの相性をチェックします。CPUオフロードの設定を調整しながら、最適なバランスを見つけます。失敗しても、データはローカルに残ります。リスクは最小限です。

ローカルLLMの世界は、日々進化しています。新しい技術を取り入れ、自分のPCの可能性を広げましょう。クラウドに頼らず、自分の手でAIを動かす喜びを、ぜひ体験してください。それが、ローカルLLMユーザーの特権です。

📰 参照元

Older GPUs find new role in running massive AI models

※この記事は海外ニュースを元に日本向けに再構成したものです。

📦 この記事で紹介した商品

大規模言語モデル入門 → Amazonで見る
玄人志向 Rtx3060 12gb Gamingシリーズ – アマゾン → Amazonで見る
64GB キット (2 x 32GB) DDR4-2400 PC4-19200 … → Amazonで見る
SSD 1TB NVMe M.2 → Amazonで見る
大画面モニター 27インチ → Amazonで見る

※ 上記リンクはAmazonアソシエイトリンクです。購入いただくと当サイトに紹介料が入ります。