Ollama完全ガイド【2026年4月最新版】インストールから実用テクニックまで徹底解説

Ollama完全ガイド【2026年4月最新版】 チュートリアル

ローカルでLLMを動かしたいが、複雑なセットアップにつまずいた経験はないでしょうか。Ollamaは、Llama、Gemma、Qwen、DeepSeek、gpt-ossといった主要なオープンソースLLMをたった1コマンドで起動できるツールです。本記事では、2026年4月時点の最新版であるv0.21系を題材に、初心者がゼロからインストールし、ChatGPTライクな対話、API連携、コードアシスタント連携、量子化モデルによるVRAM節約、トラブル対応までを完全網羅で解説します。読み終えたとき、Ollamaを「自分の道具」として使いこなせるようになっているはずです。

本記事は15,000字超のロングフォームです。インストールだけ知りたい方は「インストール手順」、運用ノウハウだけ知りたい方は「パフォーマンス最適化」「よくあるエラーとトラブルシューティング」へどうぞ。

  1. Ollamaとは何か
    1. 主な特徴
  2. 最新リリース情報(2026年4月最新版)
    1. 直近主要リリースの一覧
    2. 2026年で押さえておきたい3つの大きな変化
  3. 他のツールとの比較
  4. Ollamaのメリット・デメリット
    1. メリット
    2. デメリット
  5. 動作要件
    1. モデルサイズ別の必要VRAM目安
  6. インストール手順
    1. Windows(推奨:公式インストーラ)
    2. macOS
    3. Linux(Ubuntu/Debian/RHEL系共通)
    4. Docker
  7. 初期設定
    1. 主要な環境変数
    2. Windowsでの環境変数設定
    3. macOSでの環境変数設定
    4. Linux(systemd)での環境変数設定
  8. 基本的な使い方
    1. モデルのダウンロードと一覧表示
    2. 対話モードでの使用
    3. 1コマンドで質問するだけ(パイプ入力)
    4. 実行中モデルの確認
  9. 実践的な使い方
    1. ユースケース1:HTTP API経由で他アプリから呼び出す
    2. ユースケース2:OpenAI SDK互換でPythonから呼び出す
    3. ユースケース3:構造化JSON出力(v0.18+で強化)
    4. ユースケース4:ツールコール(関数呼び出し)
    5. ユースケース5:ビジョンモデルで画像を解析
  10. 応用・カスタマイズ
    1. Modelfileでカスタムモデルを作る
    2. HuggingFaceからGGUFモデルを直接インポート
    3. launchコマンドでコーディングエージェントと統合
    4. マルチモデル並列運用
  11. パフォーマンス最適化
    1. 1. Flash Attention v2.7を必ず有効化
    2. 2. KVキャッシュ量子化
    3. 3. コンテキスト長の最適化
    4. 4. 量子化レベルの選び方
    5. 5. GPU層数(num_gpu)の手動指定
    6. 6. KEEP_ALIVEで再ロードを防ぐ
  12. よくあるエラーとトラブルシューティング
    1. エラー1:GPU検出失敗(CPUで動いてしまう)
    2. エラー2:「out of memory」エラー
    3. エラー3:モデルダウンロードが途中で止まる
    4. エラー4:API呼び出しでconnection refused
    5. エラー5:スリープ復帰後にGPUが見つからない(Linux)
    6. エラー6:「model not found」エラー
    7. エラー7:日本語応答の品質が低い
  13. おすすめの組み合わせ・連携
    1. 1. Open WebUI:ChatGPTライクなWeb UI
    2. 2. Continue:VSCode/JetBrainsでローカルAIコーディング
    3. 3. LangChain / LlamaIndex でRAG構築
    4. 4. n8n / Difyでローエンジニアでも使える
    5. 5. ローカル翻訳パイプライン(DeepL代替)
  14. 推奨PCスペック(用途別)
    1. 入門:軽量モデル(3-7B Q4)で十分な人
    2. 標準:13B-32Bを快適運用したい人
    3. ハイエンド:70B以上のフラッグシップモデルをローカルで
  15. まとめ
  16. 📦 この記事で紹介した商品

Ollamaとは何か

Ollamaは、ローカル環境でLLM(大規模言語モデル)を動かすためのオープンソースツールです。バックエンドにllama.cppやMLX(Apple Silicon向け)を採用し、モデルのダウンロード、量子化バージョンの管理、サーバー起動、チャットUIの提供までをすべて一体化しています。コマンドラインからollama run llama3と打つだけで、モデルが自動的にダウンロードされ、対話セッションが始まります。

開発元は米国のOllama, Inc.で、ライセンスはMITライセンス。商用利用も改変も再配布も自由です。GitHubリポジトリはollama/ollamaで、スターは執筆時点で20万を超える、ローカルLLM分野で最も人気のあるツールです。

Ollama公式ロゴ
Ollamaの公式ロゴ(出典: 公式GitHubリポジトリ / MITライセンス)

主な特徴

  • 1コマンド起動ollama run モデル名でモデルダウンロードと対話開始まで完結
  • OpenAI互換APIlocalhost:11434でChatGPT API互換エンドポイントを提供。既存のOpenAI SDKコードがほぼそのまま動く
  • マルチプラットフォーム:Windows / macOS / Linux すべてに対応。Dockerイメージも公式提供
  • 豊富なモデルライブラリollama.com/libraryでKimi-K2.5、GLM-5、MiniMax、DeepSeek、gpt-oss、Qwen、Gemma、Llamaなど主要モデルを網羅
  • ビジョンモデル対応:v0.18以降、Qwen-VLやLlama-3 Visionなどのマルチモーダルモデルも同じollama runコマンドで起動可能
  • OpenAI互換構造化出力:JSON Schema指定でデコード時に強制バリデーション。エージェント開発でリトライループが激減
  • ストリーミング+ツールコール:レスポンスのストリーミングと並行してツール呼び出しが可能
  • Apple SiliconでのMLX対応:M1〜M4チップでMLXフレームワークを使った高速推論をプレビュー提供

最新リリース情報(2026年4月最新版)

2026年4月時点での最新版はv0.21.2(2026年4月23日リリース)です。プレリリースとしてv0.21.3-rc0(2026年4月24日)も配布されています。直近6ヶ月のリリースは更新ペースが極めて速く、毎週のように新機能が追加されています。

直近主要リリースの一覧

バージョンリリース日主要な変更点
v0.21.3-rc02026-04-24OpenAI連携でreasoning_effortをthinkパラメータにマップ、think"max"を許容
v0.21.22026-04-23ollama launchのOpenClaw連携の安定化、Web検索プラグインを同梱
v0.21.12026-04-22Kimi CLI連携(クラウド版K2.6モデル)、MLXランナーがlogprobs対応、macOSアプリのモデルピッカー修正
v0.21.02026-04-16Hermesエージェント追加、Apple SiliconでGemma 4対応、GitHub Copilot CLI連携、混合精度量子化の改善
v0.20.72026-04-13Gemma思考モードの品質修正、LinuxでROCm 7.2.1へ更新
v0.18系2026 Q1ビジョンモデルネイティブ対応、OpenAI互換構造化出力、ツールコール+ストリーミング両対応
v0.6.22026-03Llama 4対応、バッチ埋め込みAPI、Flash Attention v2.7、M4 Metal 3最適化

2026年で押さえておきたい3つの大きな変化

1つ目はMLX対応です。Apple Silicon(M1〜M4)ではMLXフレームワークを使うことで、従来のllama.cppバックエンドと比較して推論速度が大幅に向上します。プレビューですが、公式ブログ(2026年3月30日)で正式アナウンスされました。

2つ目はOpenClaw / launchコマンドです。Claude Code、OpenCode、CodexといったコーディングエージェントをOllamaのモデルと連携させるためのセットアップが、ollama launchコマンドで2分以内に完了するようになりました。GitHub Copilot CLIやKimi CLIとの統合もv0.21系で追加されています。

3つ目はモデルスケジューリングの刷新です。マルチGPU環境でのVRAM不足によるクラッシュが大幅に減少し、GPU利用率が最大化されるようになりました。複数モデルを同時にロードする運用がより安定しています。

他のツールとの比較

ローカルLLMを動かすツールはOllamaのほかに、llama.cpp、LM Studio、vLLMなどがあります。それぞれの特徴を整理します。

項目Ollama v0.21llama.cpp(最新)LM Studio v0.3系vLLM v0.7系
UI形式CLI + Web/Desktop(macOSアプリあり)CLIのみGUI中心サーバーAPIのみ
セットアップ難易度非常に簡単やや難(ビルドが必要なことも)簡単(GUIインストーラ)難(Python+CUDA環境が必要)
OpenAI API互換あり(標準)あり(serverモード)あり(サーバーモード)あり
モデル管理ollama pullで自動手動ダウンロードHuggingFaceブラウザ統合HuggingFace直接ロード
推論速度(同条件)標準最速クラス標準(Ollamaより僅かに重い)大量並行処理で最速
メモリオーバーヘッド約100MB最小約500MB(GUI込み)大きい(バッチング前提)
Docker対応公式イメージあり公式イメージありなし公式イメージあり
マルチモーダル標準対応対応対応一部対応
ライセンスMITMIT独自(無料利用可)Apache-2.0
主な用途個人開発、API統合、軽量サーバー最高性能、組み込み、カスタム量子化非エンジニアの探索、GUI重視本番サーバー、高並行リクエスト

結論:個人で「とりあえずローカルLLMを試す」「アプリにOpenAI互換APIを組み込む」ならOllamaが最適です。極限の推論速度を引き出したいならllama.cppを直接、GUIで気軽に試したいならLM Studio、本番運用で大量リクエストを捌くならvLLMという棲み分けになります。

Ollamaのメリット・デメリット

メリット

  • 導入のハードルが極めて低い:1コマンドのインストーラとモデル自動ダウンロードで、Pythonや依存ライブラリの管理が不要
  • OpenAI APIからの移行が容易:既存のOpenAI SDKコードでbase_urlをhttp://localhost:11434/v1に変えるだけで動く
  • モデルカタログが整理されている:公式ライブラリで量子化バージョンとタグが整備され、選択に迷わない
  • 常駐サービスとしての運用が安定:systemd/Windowsサービスとしてバックグラウンド常駐、API経由で複数アプリから利用可能
  • マルチGPU・大容量メモリ環境で性能を発揮:v0.21系のスケジューラ刷新により、複数モデル同時運用でも安定
  • 活発な開発:週次でリリースされ、新モデル対応も最速クラス

デメリット

  • カスタム量子化が制限される:公式ライブラリにない量子化バリエーションは、Modelfile経由でのインポートが必要
  • llama.cppより僅かに遅いケースがある:ベンチマーク次第だが、純粋な推論速度では劣ることもある
  • GPU検出に失敗するとサイレントにCPU動作:気付かないうちにCPUで動いていて遅いという事態が起きがち
  • Windowsの一部GPUドライババージョンと相性問題:特定のNVIDIAドライバ(例: 555.85)でGPU検出が壊れた事例がある
  • AMDのROCm要件が厳しい:ROCm 7必須で、古いドライバの環境では使えない
  • ファイル容量を圧迫しやすい:モデル1つで数GB〜数十GB。複数試すとSSDがすぐ埋まる

動作要件

Ollamaは比較的軽量ですが、動かすモデルのサイズによって必要VRAM/RAMが大きく変動します。バイナリ自体は4GB程度のディスクで足りますが、モデル本体は数GB〜数十GB必要です。

項目最小推奨
OSWindows 10 (64bit) / macOS 12 / Ubuntu 20.04Windows 11 / macOS 14+ / Ubuntu 22.04+
CPUx86_64 / ARM64(4コア以上)8コア以上の最近のCPU
RAM(7Bモデル想定)8GB16GB以上
GPU(任意)NVIDIA Compute Capability 5.0+ / AMD RX 6800以降 / Apple M1以降NVIDIA RTX 4060以降(VRAM 8GB+)/ Apple M2 Pro以降
NVIDIAドライバ531以上最新Game Ready / Studio
AMDドライバROCm 7対応版最新版
ディスク10GB(バイナリ + 小型モデル1つ)500GB以上のNVMe SSD
ネットワーク初回モデルダウンロード時のみ必須常時接続不要(オフライン運用可)

モデルサイズ別の必要VRAM目安

モデルサイズ量子化Q4_0量子化Q8_0FP16代表モデル
3B2GB4GB6GBLlama 3.2 3B、Gemma 4 2B
7-8B5GB9GB16GBLlama 3 8B、Qwen 7B、Mistral 7B
13B8GB14GB26GBLlama 2 13B、CodeLlama 13B
30-32B20GB34GB64GBQwen 32B、DeepSeek V2 Lite
70B40GB72GB140GBLlama 3 70B、DeepSeek V2.5

VRAMが足りない場合、Ollamaは自動的にモデルをCPU(システムRAM)にオフロードしますが、推論速度は1/10〜1/50に落ちます。「VRAMに収まる量子化サイズを選ぶ」のが基本戦略です。

インストール手順

Windows(推奨:公式インストーラ)

Windows版のOllamaはネイティブWindowsアプリとして動作します。WSLは不要です。CUDAランタイムはOllamaが内蔵しているため、別途CUDA Toolkitのインストールも不要で、NVIDIAドライバさえあれば動きます

方法1:PowerShellワンライナー(最も簡単)

irm https://ollama.com/install.ps1 | iex

方法2:手動インストーラ

  1. 公式サイトからOllamaSetup.exeをダウンロード
  2. ダブルクリックで実行(管理者権限不要、ユーザーフォルダにインストールされる)
  3. インストール完了後、自動的にバックグラウンドサービスとして起動
  4. タスクトレイにOllamaアイコンが表示されれば成功

動作確認:

ollama --version
# 出力例: ollama version is 0.21.2

ollama run llama3.2
# 初回はモデルが自動ダウンロード(約2GB)。>>> プロンプトが出れば成功

NVIDIA GPUを優先使用する設定:[設定] → [システム] → [ディスプレイ] → [グラフィック] → 「デスクトップアプリ」でollama.exeを追加し、「高パフォーマンス」を選択しておくと安心です。

macOS

方法1:DMGダウンロード(推奨)

  1. 公式サイトからOllama-darwin.zipをダウンロード
  2. 解凍してOllama.appを/Applicationsへドラッグ
  3. 初回起動時にCLIツールのインストール許可を出す

方法2:シェルスクリプト

curl -fsSL https://ollama.com/install.sh | sh

方法3:Homebrew

brew install ollama
brew services start ollama

Apple Silicon(M1〜M4)では2026年3月以降、MLXバックエンドのプレビューが利用できます。MLX対応モデル(Gemma 4など)は自動的にMLXで実行され、従来比で大幅に高速化されます。

Linux(Ubuntu/Debian/RHEL系共通)

公式ワンライナー:

curl -fsSL https://ollama.com/install.sh | sh

このスクリプトは以下を自動実行します:

  • バイナリを/usr/local/bin/ollamaに配置
  • ollamaユーザーとグループを作成
  • systemdサービス(ollama.service)を登録・起動
  • NVIDIA GPUまたはAMD GPUを検出し、必要なライブラリ(CUDAランタイム、ROCm 7)を配置

確認:

systemctl status ollama
ollama --version

サービス停止・再起動:

sudo systemctl stop ollama
sudo systemctl start ollama
sudo systemctl restart ollama

Docker

CPU版:

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

NVIDIA GPU版(NVIDIA Container Toolkit必須):

docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

AMD GPU版(ROCm版イメージ):

docker run -d --device /dev/kfd --device /dev/dri -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama:rocm

コンテナ内でモデルを実行:

docker exec -it ollama ollama run llama3.2

初期設定

インストール直後は基本的にそのまま使えますが、運用に入るならいくつかの環境変数を設定しておくと便利です。

主要な環境変数

変数名意味デフォルト推奨設定例
OLLAMA_HOSTListenアドレス127.0.0.1:114340.0.0.0:11434(LAN内公開)
OLLAMA_MODELSモデル保存先OS別デフォルト大容量SSDのパス
OLLAMA_KEEP_ALIVEモデルアンロードまでの時間5m30mまたは-1(常駐)
OLLAMA_NUM_PARALLEL同時リクエスト数14(API利用時)
OLLAMA_MAX_LOADED_MODELS同時ロード可能なモデル数1VRAM次第で2-3
OLLAMA_DEBUGデバッグログ出力未設定トラブル時に1
OLLAMA_FLASH_ATTENTIONFlash Attention有効化1(v0.6.2以降)そのまま

Windowsでの環境変数設定

  1. タスクトレイのOllamaアイコンを右クリック → Quit Ollama
  2. [システムのプロパティ] → [環境変数] → ユーザー環境変数に追加
  3. Ollamaを再起動(スタートメニューから起動)

あるいはPowerShellから一時的に:

$env:OLLAMA_HOST="0.0.0.0:11434"
ollama serve

macOSでの環境変数設定

launchctl setenv OLLAMA_HOST "0.0.0.0:11434"
launchctl setenv OLLAMA_MODELS "/Volumes/External/ollama"
# Ollama.appを再起動

Linux(systemd)での環境変数設定

sudo systemctl edit ollama.service

エディタが開いたら以下を追記:

[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_MODELS=/data/ollama"
Environment="OLLAMA_KEEP_ALIVE=30m"
Environment="OLLAMA_NUM_PARALLEL=4"

反映:

sudo systemctl daemon-reload
sudo systemctl restart ollama

基本的な使い方

モデルのダウンロードと一覧表示

# モデルをダウンロード(実行はしない)
ollama pull llama3.2

# インストール済みモデル一覧
ollama list

# 出力例:
# NAME                ID              SIZE      MODIFIED
# llama3.2:latest     a80c4f17acd5    2.0 GB    2 minutes ago
# qwen2.5:7b          845dbda0ea48    4.7 GB    1 hour ago

# モデル削除
ollama rm llama3.2

対話モードでの使用

ollama run llama3.2
>>> こんにちは。日本語で自己紹介してください。
こんにちは。私はLlama 3.2です。Meta社が開発した...

>>> /bye   # 終了
>>> /clear # コンテキストをクリア
>>> /set parameter temperature 0.3  # パラメータ変更
>>> /show info  # モデル情報表示

1コマンドで質問するだけ(パイプ入力)

echo "Pythonで素数を判定する関数を書いて" | ollama run llama3.2

# ファイルを読ませる
cat README.md | ollama run llama3.2 "このREADMEを3行で要約して"

実行中モデルの確認

ollama ps

# 出力例:
# NAME                ID              SIZE      PROCESSOR    UNTIL
# llama3.2:latest     a80c4f17acd5    3.1 GB    100% GPU     4 minutes from now

PROCESSOR列が100% GPUになっていればOK。100% CPU50/50 CPU/GPUになっていたらVRAM不足、もしくはGPU検出失敗です。

実践的な使い方

ユースケース1:HTTP API経由で他アプリから呼び出す

Ollamaは起動と同時にhttp://localhost:11434でAPIサーバーを公開します。最も基本的なエンドポイントが/api/chatです。

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    {"role": "user", "content": "Pythonでフィボナッチ数列を生成する関数を書いてください"}
  ],
  "stream": false
}'

ストリーミング応答が欲しい場合は"stream": trueを指定すれば、トークン単位でJSONチャンクが返ってきます。

ユースケース2:OpenAI SDK互換でPythonから呼び出す

Ollamaはhttp://localhost:11434/v1でOpenAI互換APIを提供しています。OpenAI公式のPython SDKがそのまま使えます。

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",  # ダミー値で可
)

resp = client.chat.completions.create(
    model="llama3.2",
    messages=[
        {"role": "system", "content": "あなたは優秀な日本語アシスタントです。"},
        {"role": "user", "content": "東京の観光名所を3つ挙げてください"},
    ],
    temperature=0.7,
)
print(resp.choices[0].message.content)

ストリーミング版:

stream = client.chat.completions.create(
    model="llama3.2",
    messages=[{"role": "user", "content": "1から10まで数えて"}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

ユースケース3:構造化JSON出力(v0.18+で強化)

OpenAI互換のresponse_formatでJSON Schemaを指定できます。デコード時にスキーマで強制バリデーションされるため、形式エラーが発生しません。

from openai import OpenAI
import json

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

schema = {
    "type": "object",
    "properties": {
        "name": {"type": "string"},
        "age": {"type": "integer"},
        "skills": {"type": "array", "items": {"type": "string"}},
    },
    "required": ["name", "age", "skills"],
}

resp = client.chat.completions.create(
    model="llama3.2",
    messages=[{"role": "user", "content": "30歳のフロントエンドエンジニアのプロフィールをJSONで"}],
    response_format={"type": "json_schema", "json_schema": {"name": "profile", "schema": schema}},
)
profile = json.loads(resp.choices[0].message.content)
print(profile)
# {'name': '田中太郎', 'age': 30, 'skills': ['React', 'TypeScript', 'CSS']}

ユースケース4:ツールコール(関数呼び出し)

tools = [{
    "type": "function",
    "function": {
        "name": "get_weather",
        "description": "指定都市の現在の天気を取得",
        "parameters": {
            "type": "object",
            "properties": {"city": {"type": "string"}},
            "required": ["city"],
        },
    },
}]

resp = client.chat.completions.create(
    model="qwen2.5:7b",  # ツールコール対応モデルを推奨
    messages=[{"role": "user", "content": "東京の天気を教えて"}],
    tools=tools,
)
tool_calls = resp.choices[0].message.tool_calls
if tool_calls:
    for tc in tool_calls:
        print(f"呼び出し: {tc.function.name}({tc.function.arguments})")

ユースケース5:ビジョンモデルで画像を解析

ollama pull qwen2.5vl:7b
ollama run qwen2.5vl:7b "この画像を説明して" ./photo.jpg

API経由の場合はmessages内でimagesフィールド(Base64)を渡します:

import base64

with open("photo.jpg", "rb") as f:
    img_b64 = base64.b64encode(f.read()).decode()

resp = client.chat.completions.create(
    model="qwen2.5vl:7b",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "この画像に何が写っていますか?"},
            {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{img_b64}"}},
        ],
    }],
)
print(resp.choices[0].message.content)

応用・カスタマイズ

Modelfileでカスタムモデルを作る

システムプロンプトや温度パラメータを固定したカスタムモデルを定義できます。

Modelfileを作成:

FROM llama3.2

# システムプロンプトを固定
SYSTEM """
あなたは関西弁で話す陽気なアシスタントや。
質問にはユーモアを交えて答えること。
"""

# パラメータ設定
PARAMETER temperature 0.8
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

# テンプレート(必要に応じて)
TEMPLATE """{{ if .System }}<|system|>{{ .System }}<|end|>{{ end }}{{ if .Prompt }}<|user|>{{ .Prompt }}<|end|>{{ end }}<|assistant|>"""

登録して使う:

ollama create kansai-llama -f Modelfile
ollama run kansai-llama "今日の天気どう?"

HuggingFaceからGGUFモデルを直接インポート

v0.21系では、HuggingFaceでホストされているGGUFファイルを直接FROMで読み込めます。

FROM hf.co/bartowski/Mistral-7B-Instruct-v0.3-GGUF:Q4_K_M
SYSTEM "You are a helpful assistant."
ollama create mistral-custom -f Modelfile

launchコマンドでコーディングエージェントと統合

v0.21系で大幅に強化されたollama launchコマンドは、Claude Code、OpenCode、Codex、GitHub Copilot CLI、Kimi CLI、Hermesエージェントなどとのセットアップを1コマンドで完結させます。

# Claude Codeをローカルモデルと連携
ollama launch claude-code

# GitHub Copilot CLIと連携
ollama launch copilot-cli

# Hermesエージェント(学習ベースのスキル生成)
ollama launch hermes

各コマンドは設定ファイルの自動生成、APIキー扱いの環境変数設定、推奨モデル候補の提示までを自動化します。設定ファイルを手書きする必要はありません。

マルチモデル並列運用

VRAMに余裕があるなら、複数モデルを同時にロードして用途別に使い分けることができます。

export OLLAMA_MAX_LOADED_MODELS=3
export OLLAMA_NUM_PARALLEL=4
sudo systemctl restart ollama

# 別々のターミナルから
ollama run llama3.2  # チャット用
ollama run qwen2.5-coder:7b  # コード用
ollama run nomic-embed-text  # 埋め込み用

v0.21系のスケジューラ刷新により、マルチGPU環境でのVRAM割り当てが最適化され、クラッシュが大幅に減少しています。

パフォーマンス最適化

1. Flash Attention v2.7を必ず有効化

v0.6.2以降、Flash Attention v2.7が標準で有効ですが、念のため確認します。

export OLLAMA_FLASH_ATTENTION=1

長いコンテキスト(4K超)で20〜40%の高速化と、VRAM消費の削減が見込めます。

2. KVキャッシュ量子化

長文プロンプトでVRAMが足りない場合、KVキャッシュをq8_0やq4_0に量子化できます。

export OLLAMA_KV_CACHE_TYPE=q8_0

FP16比でKVキャッシュ容量が半分(q8_0)または1/4(q4_0)に削減されます。品質劣化はq8_0なら無視できるレベル、q4_0は若干劣化します。

3. コンテキスト長の最適化

デフォルトは2048トークンですが、長文を扱うアプリでは拡張、短いやり取り中心なら縮小して高速化します。

ollama run llama3.2
>>> /set parameter num_ctx 8192

あるいはAPI呼び出し時にoptions.num_ctxを指定。コンテキスト長を増やすとVRAM使用量が比例的に増えるので注意が必要です。

4. 量子化レベルの選び方

量子化サイズ比品質推奨用途
Q4_0 / Q4_K_M約25%標準VRAM最優先、汎用
Q5_K_M約31%良好バランス重視
Q6_K約37%非常に良好品質重視
Q8_0約50%FP16にほぼ等しい最高品質、VRAM潤沢
FP16100%原典研究用途

個人利用ならQ4_K_MまたはQ5_K_Mが最良のコスパです。

5. GPU層数(num_gpu)の手動指定

VRAMぎりぎりのモデルでは、GPUにロードする層数を手動指定して最適化できます。

ollama run llama3.2
>>> /set parameter num_gpu 28

全層をGPUに乗せるとOOMになる場合に、層数を減らしてCPUに一部オフロードします。

6. KEEP_ALIVEで再ロードを防ぐ

API利用で間欠的にリクエストが来る場合、デフォルトの5分でモデルがアンロードされて再ロード待ち時間が発生します。常駐させたいなら:

export OLLAMA_KEEP_ALIVE=-1  # アンロードしない

よくあるエラーとトラブルシューティング

エラー1:GPU検出失敗(CPUで動いてしまう)

症状ollama ps100% CPUと表示される。推論が極端に遅い。

原因と対処

  1. NVIDIAドライバが古い、または未インストールnvidia-smiで確認し、エラーが出る場合は公式サイトから最新ドライバをインストール
  2. 特定ドライババージョンの不具合(例: 555.85)。安定版(最新Studio Driverまたは前バージョン)にロールバック
  3. 環境変数CUDA_VISIBLE_DEVICESが誤って空に設定されている。シェル起動スクリプトを確認
  4. ROCmが古い(AMD)。Ollama v0.20.7以降はROCm 7.2.1必須
  5. WindowsでOllamaが省電力GPUを掴んでいる。グラフィック設定でNVIDIAを高パフォーマンスに指定

診断方法:

OLLAMA_DEBUG=1 ollama serve
# ログ内の "discovering available GPUs..." を確認

エラー2:「out of memory」エラー

症状cudaMalloc failed: out of memorymodel requires more memory than available

対処

  • より小さい量子化版(例: Q8_0 → Q4_K_M)に切り替える
  • num_ctxを減らす(例: 8192 → 4096)
  • OLLAMA_KV_CACHE_TYPE=q8_0でKVキャッシュ量子化
  • num_gpuを減らしてCPUにオフロード
  • 他のGPUプロセス(ブラウザのハードウェアアクセラレーション、別のLLM)を停止

エラー3:モデルダウンロードが途中で止まる

症状ollama pull中にハングまたはconnection reset

対処

  • 同じコマンドを再実行(差分ダウンロードでレジューム)
  • VPN/プロキシ環境で発生しやすい。HTTPS_PROXY環境変数を確認
  • ディスク容量を確認(OLLAMA_MODELSパスの空き)
  • レジストリミラー切り替え:通常は不要だが、企業内ネットワーク等で必要ならOLLAMA_REGISTRYを設定

エラー4:API呼び出しでconnection refused

症状:別マシンからhttp://server:11434に接続できない

対処

  • デフォルトのListenは127.0.0.1:11434(localhostのみ)。OLLAMA_HOST=0.0.0.0:11434を設定して再起動
  • OS側のファイアウォールで11434/tcpを開放
  • サービスが起動しているかsystemctl status ollamaまたはollama psで確認
  • セキュリティ上の注意:0.0.0.0で公開する場合は、信頼ネットワーク内のみに限定すること。インターネットに直接公開してはいけない

エラー5:スリープ復帰後にGPUが見つからない(Linux)

症状:サスペンドから戻るとOllamaがCPUモードになる

対処:UVMモジュールを再ロード

sudo rmmod nvidia_uvm
sudo modprobe nvidia_uvm
sudo systemctl restart ollama

エラー6:「model not found」エラー

症状ollama run xxxxxで「Error: model ‘xxxxx’ not found」

対処

  • モデル名のスペル確認(公式ライブラリはollama.com/libraryで検索)
  • タグも含めて指定(例: llama3.2:1bqwen2.5:7b-instruct-q4_K_M
  • 事前にollama pullでダウンロード

エラー7:日本語応答の品質が低い

症状:英語で回答してしまう、文章が破綻する

対処

  • 日本語性能の高いモデルを選ぶ(推奨: Qwen 2.5、Gemma 4、Llama 3.3、ELYZA系)
  • システムプロンプトで「日本語で回答すること」を明示
  • 3B以下の小型モデルは日本語が苦手なので、可能なら7B以上を選択

おすすめの組み合わせ・連携

1. Open WebUI:ChatGPTライクなWeb UI

Open WebUIは、Ollamaと連携してChatGPT風のチャットUIを提供するOSSです。マルチユーザー対応、会話履歴管理、ドキュメントアップロードによるRAG機能まで揃っています。

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data --name open-webui \
  --restart always ghcr.io/open-webui/open-webui:main

ブラウザでhttp://localhost:3000にアクセス。

2. Continue:VSCode/JetBrainsでローカルAIコーディング

ContinueはGitHub Copilotライクな機能を提供する拡張機能です。OllamaのAPIを指定するだけで、コード補完・チャット・編集提案がローカルで動きます。

Continue設定例(~/.continue/config.json):

{
  "models": [
    {
      "title": "Qwen2.5 Coder 7B",
      "provider": "ollama",
      "model": "qwen2.5-coder:7b"
    }
  ],
  "tabAutocompleteModel": {
    "title": "Code Autocomplete",
    "provider": "ollama",
    "model": "qwen2.5-coder:1.5b-base"
  }
}

3. LangChain / LlamaIndex でRAG構築

OllamaはLangChainおよびLlamaIndexの公式インテグレーションを持っています。

from langchain_ollama import ChatOllama

llm = ChatOllama(
    model="llama3.2",
    base_url="http://localhost:11434",
    temperature=0.3,
)
print(llm.invoke("RAGとは何ですか?"))

埋め込みモデルもOllama経由で:

ollama pull nomic-embed-text
from langchain_ollama import OllamaEmbeddings
embeddings = OllamaEmbeddings(model="nomic-embed-text")
vec = embeddings.embed_query("ベクトル化したいテキスト")

4. n8n / Difyでローエンジニアでも使える

ノーコードAIワークフローツールのn8nDifyは、Ollamaを「LLMプロバイダ」として登録すれば、ローカル完結のAIエージェントを構築できます。クラウドAPIに比べてランニングコストがゼロという大きな利点があります。

5. ローカル翻訳パイプライン(DeepL代替)

cat english.txt | ollama run gemma2:9b "次の英文を自然な日本語に翻訳してください。原文以外は出力しないこと。\n\n"

推奨PCスペック(用途別)

入門:軽量モデル(3-7B Q4)で十分な人

パーツ推奨スペック備考
CPURyzen 5 7600 / Core i5-134006コア以上
GPURTX 4060 (8GB VRAM) / Apple M27B Q4まで快適
RAM16GB DDR532GBあるとさらに余裕
SSD1TB NVMe SSDモデル数本+OS
電源650W 80+ Bronze
用途個人チャット、ドキュメント要約、簡易コード補完

標準:13B-32Bを快適運用したい人

パーツ推奨スペック備考
CPURyzen 7 7800X3D / Core i7-14700K8コア以上
GPURTX 4070 Ti SUPER (16GB VRAM) / Apple M3 Max (36GB+)13B FP16または32B Q4が動く
RAM32GB DDR5 5600以上マルチモデル並行用
SSD2TB NVMe SSDモデル10本以上保管可
電源850W 80+ Gold
用途本格的なローカルAIアシスタント、コーディング、RAG構築

ハイエンド:70B以上のフラッグシップモデルをローカルで

パーツ推奨スペック備考
CPURyzen 9 7950X / Core i9-14900K / Threadripper16コア以上
GPURTX 5090 (32GB VRAM) ×1 または RTX 4090相当 ×2 / Apple M3 Ultra (192GB)70B Q4が単一GPUに収まる
RAM64-128GB DDR5巨大コンテキスト用
SSD4TB NVMe SSD Gen4以上モデル+データセット
電源1200W 80+ Platinum
用途研究、複数エージェント運用、企業内サーバー、長文RAG

Apple Siliconはユニファイドメモリの恩恵で、同価格帯のWindows/LinuxマシンよりVRAM相当容量で有利になりがちです。70Bを動かしたいなら、Mac Studio M3 Ultraは現実的な選択肢の一つです。

まとめ

Ollamaは、2026年4月時点でローカルLLM運用のデファクトスタンダードと言える地位を確立しています。インストールの簡単さ、OpenAI API互換性、活発な新機能追加、豊富なモデルカタログという4点において、競合ツールに対して明確な優位性を持っています。

本記事を読んで、以下のいずれかに当てはまるなら、Ollamaは間違いなくあなたのワークフローを変えます。

  • クラウドAPI料金を抑えたい個人開発者・スタートアップ
  • 機密情報を扱うため、データを外部に送れない業務用途
  • オフライン環境でAIアシスタントを使いたい人
  • VSCodeやJetBrainsでローカルコーディングAIを試したい開発者
  • RAGや独自エージェントを構築したいエンジニア
  • 学習目的でLLMの内部動作を理解したい学生・研究者

一方で、本番運用で大量並行リクエストを捌く必要があるならvLLM、純粋な推論速度を追求するならllama.cppへの移行を検討すべきタイミングが来るかもしれません。Ollamaはそれらへのステップアップ前の「最初の一歩」として最適です。

今後の展望としては、MLXバックエンドの正式版化、エージェント向け機能(Hermes、launch コマンド統合)の拡充、そしてOllama Cloudとローカルのハイブリッド運用がさらに進むと予想されます。週次ペースの活発なリリースは続いており、半年後には現在とは異なる景色になっている可能性が高いです。最新情報は公式リリースページ公式ブログを定期的に確認することをおすすめします。

まずはollama run llama3.2から始めましょう。あなたのPCがChatGPT級のアシスタントになる体験は、想像よりはるかに簡単です。

📦 この記事で紹介した商品

※ 上記リンクはAmazonアソシエイトリンクです。購入いただくと当サイトに紹介料が入ります。

タイトルとURLをコピーしました