KoboldCpp完全ガイド【2026年6月最新版 v1.115.2】1ファイル0インストールでGGUF推論・画像生成・Whisper・動画生成まで

KoboldCpp完全ガイド 2026年6月最新版 v1.115.2 チュートリアル

「llama.cppは設定が複雑」「Ollamaは便利だけどUIが弱い」「LM Studioは画像生成までは扱えない」――そんな不満を1本のEXEで解消できるのがKoboldCppです。LostRuins氏が開発するオープンソースの統合推論ランタイムで、たった1ファイルをダウンロードして起動するだけで、GGUF形式のLLM推論はもちろん、Stable Diffusion 1.5 / SDXL / SD3 / FLUXによる画像生成、Whisperによる音声認識、LTX2.3による動画生成、AceStep 1.5による音楽生成まで、ローカルAIに必要なすべての機能を1つのプロセスで動かせます。

本記事は2026年6月17日時点の最新版「v1.115.2」(2026年6月12日リリース)に基づき、Windows / Linux / macOSすべての環境でゼロから実用ワークフローを組み立てるまでを徹底解説します。Anthropic互換APIの追加、Gemma 4対応、MTP(Multi-Token Prediction)対応など、直近の重要アップデートも漏らさずカバーします。読者がこの1記事だけで完結できる決定版として執筆しました。

  1. KoboldCppとは何か
    1. 主な特徴
    2. ライセンス
  2. 最新リリース情報(2026年最新)
    1. 直近6ヶ月のリリース履歴
    2. v1.115.2で追加された重要機能の詳細
  3. 他ツールとの比較
    1. 使い分けの指針
  4. メリット・デメリット
    1. メリット
    2. デメリット
  5. 動作要件
    1. 対応バックエンド一覧
  6. インストール手順
    1. Windows(推奨:CUDA版バイナリ)
    2. Linux(Ubuntu / Debian / Arch / Fedora共通)
    3. macOS(Apple Silicon)
    4. ソースからビルドする場合(上級者向け)
  7. 初期設定
    1. GUIランチャーから設定する
    2. ブラウザでKoboldAI Liteを開く
    3. 日本語化について
  8. 基本的な使い方
    1. チャットモード(Instruct Mode)でAIと会話する
    2. 物語生成モード(Story Mode)
    3. アドベンチャーモード(Adventure Mode)
    4. OpenAI互換APIで使う
    5. Anthropic互換APIで使う(v1.115以降)
  9. 実践的な使い方
    1. ユースケース1:Stable Diffusion(FLUX)で画像生成
    2. ユースケース2:Whisperで音声をテキスト化
    3. ユースケース3:Qwen3 TTSで音声合成
    4. ユースケース4:LTX2.3で動画生成
  10. 応用・カスタマイズ
    1. RPCバックエンドで複数台のGPUを分散利用する
    2. OpenAI互換ルーターモード(モデル自動ホットスワップ)
    3. MTP(Multi-Token Prediction)で推論を高速化
    4. ローラ(LoRA)アダプタを動的に切り替える
    5. tool_calls(ツール呼び出し)でエージェント化
  11. パフォーマンス最適化
    1. 量子化形式の選び方
    2. KVキャッシュ量子化でコンテキストサイズを増やす
    3. Flash Attentionで高速化
    4. バッチサイズ調整で長文生成を高速化
    5. 連続バッチング(実験的)
  12. よくあるエラーとトラブルシューティング
    1. エラー1:起動直後にクラッシュ(古いCPU)
    2. エラー2:CUDA out of memory
    3. エラー3:ポート競合(Address already in use)
    4. エラー4:モデルロードが極端に遅い
    5. エラー5:APIから接続できない(外部マシンから)
    6. エラー6:日本語の応答が中国語混じりになる
    7. エラー7:画像生成が黒画像 / ノイズだらけ
  13. おすすめの組み合わせ・連携
    1. SillyTavernとの連携
    2. Continue.devでVSCode内コーディングアシスタント化
    3. Open WebUIで複数モデルを統合管理
    4. Claude Code / Clineからローカル接続
  14. おすすめモデル(2026年6月時点)
  15. 推奨PCスペック
    1. 入門構成(13B以下のLLM+SDXL画像生成)
    2. 標準構成(30B級LLM+FLUX画像生成+LTX2.3動画生成)
    3. ハイエンド構成(70B級LLM+動画生成本格運用)
  16. まとめ
  17. 📦 この記事で紹介した商品

KoboldCppとは何か

KoboldCppは「Run GGUF models easily with a KoboldAI UI. One File. Zero Install.」をスローガンに掲げる、GGML / GGUF形式モデル向けの統合推論エンジンです。GitHubリポジトリはLostRuins/koboldcppで公開されており、2023年4月の初回リリース以来、コミュニティドリブンで機能拡張を続けています。

本体はllama.cppstable-diffusion.cppをベースとしていますが、それらに大量のラッパー機能・Web UI・OpenAI互換APIを乗せ、エンドユーザーが「ダブルクリックだけで使える状態」にパッケージングしたものと考えるとイメージしやすいでしょう。

主な特徴

  • シングルバイナリ配布:Windows用koboldcpp.exe、Linux用koboldcpp-linux-x64、macOS用koboldcpp-mac-arm64のいずれも単一実行ファイル。Python環境構築は不要
  • CUDA / Vulkan / Metal / ROCm対応:NVIDIA / AMD / Intel / Apple Silicon、ほぼすべてのGPUで動作
  • マルチモーダル統合:テキスト生成・画像生成・画像理解・音声認識(Whisper)・音声合成(TTS)・動画生成(LTX2.3)・音楽生成(AceStep 1.5)まで1つのプロセスで完結
  • KoboldAI Lite UI内蔵:チャットモード・物語生成モード・アドベンチャーモード・インストラクションモードを切替可能なリッチなWebフロントエンド
  • OpenAI / Anthropic互換APIエンドポイント:既存のクライアントツールからほぼ無改変で接続可能
  • 後方互換性重視:過去の全GGML / GGUFモデルをサポート(llama.cpp本家がときどき切り捨てる古い量子化形式も継続サポート)

ライセンス

KoboldCpp本体のコードはAGPL v3.0、組み込んでいるllama.cppstable-diffusion.cppMIT Licenseです。個人利用・社内利用は完全に自由で、改変版をネットワーク経由で配信する場合のみソース公開義務が発生します。

KoboldCpp KoboldAI Lite UIのチャット画面プレビュー
KoboldCppに内蔵されたKoboldAI Lite UIのプレビュー(出典: LostRuins/koboldcpp公式リポジトリ / AGPL-3.0ライセンス)

最新リリース情報(2026年最新)

2026年6月17日時点での最新版はv1.115.2(2026年6月12日リリース)です。KoboldCppは月2回前後のペースで安定リリースを継続しており、直近6ヶ月だけでもAnthropic API互換・Gemma 4対応・MTP・連続バッチング・LTX2.3動画生成など、ローカルAI業界の最新動向を即座に取り込んでいます。

直近6ヶ月のリリース履歴

バージョンリリース日主要アップデート
v1.115.22026-06-12Anthropic /v1/messages API完全対応(マルチモーダル・ツール呼び出し含む)、Gemma 4 UV (12B) 対応、MTP / Gemma Assistantモデル対応、動画生成のリファレンス画像システム刷新(開始フレーム+終了フレーム指定可)
v1.114.12026-05-30連続バッチング(実験的)による並列テキスト生成、RPCバックエンドで複数マシンのGPU分散推論、LTX2.3動画生成、新規画像モデル4種(Lens / HiDream o1 / LongCat / Ernie)対応
v1.113.22026-05-16テンソル分割(split mode)再構築、ランタイムでの画像LoRAディレクトリ切替、RNN / ハイブリッドモデル向けSmartCache改善
v1.112.22026-04-20AceStepXL音楽生成モデル対応、思考モデル向けreasoning budget / effort制御、q5_1 KVキャッシュ量子化、Jinjaツール呼び出しのストリーミング対応
v1.111.22026-04-03Gemma 4(ビジョン対応)、Qwen3 TTS CustomVoice / VoiceDesign、/v1/responses / /v1/messages API基本対応
v1.1102026-03-19OpenAI互換ルーターモード(モデル自動ホットスワップ)、Qwen3 TTS 1.7B(音声クローン)、AceStep 1.5音楽生成(MP3出力対応)

v1.115.2で追加された重要機能の詳細

最新のv1.115.2では、特に以下の3点が実務インパクトの大きいアップデートです。

  1. Anthropic Messages API完全互換POST /v1/messagesエンドポイントがClaude API互換となり、system / tools / 画像入力(imageブロック)まで対応。Claude Code・Cline・Continueなど、Anthropic APIを前提に作られたクライアントから無改変で接続できます。
  2. MTP(Multi-Token Prediction)対応:起動オプション--usemtpを有効化、もしくはドラフトモデルとしてgemma-4-26b-A4B-it-assistant-Q4_0.ggufを指定すると、メインモデルの推論を高速化できます。投機的デコーディングと同等の仕組みで、対応モデルでは10〜30%のスループット向上が報告されています。
  3. 動画生成リファレンス画像の刷新:SDUI Img2Imgで「特定フレームに終わる動画」が生成可能になり、txt2imにアップロードした2枚のリファレンス画像で「開始フレームと終了フレームを指定」できるようになりました。短尺ループ動画やシームレスな繋ぎ動画の制作が格段に楽になっています。

詳細なリリースノートは公式リリースページを参照してください。

他ツールとの比較

同じGGUF推論エンジンであっても、ツール選択で快適度が大きく変わります。代表的な4ツールと比較した表を以下にまとめます。バージョンはすべて2026年6月17日時点の公式リポジトリ確認値です。

項目KoboldCppllama.cppOllamaLM Studiotext-generation-webui
最新版v1.115.2 (2026-06-12)b9672 (2026-06-16)v0.30.9 (2026-06-15)0.4.16v4.9 (2026-05-20)
ライセンスAGPL-3.0MITMITクローズド(無料)AGPL-3.0
配布形態単一EXE / バイナリソース+llama-serverインストーラ / バイナリGUIインストーラPython+シェルスクリプト
初期セットアップ難易度★☆☆☆☆(最低)★★★★☆★☆☆☆☆★☆☆☆☆★★★☆☆
Web UIKoboldAI Lite内蔵シンプルなチャットUIなし(CLI / API)独自デスクトップGUIGradio UI(高機能)
OpenAI互換API○(llama-server)
Anthropic互換API○(v1.115以降)××××
画像生成内蔵○(SD1.5 / SDXL / SD3 / FLUX)××××
Whisper音声認識××××
TTS音声合成○(Qwen3 TTS / CustomVoice)×××○(拡張)
動画生成○(LTX2.3)××××
音楽生成○(AceStep 1.5 / XL)××××
マルチGPU分散○(RPCバックエンド)○(RPC)×
カスタムバックエンド切替1ツールで完結不可不可不可5バックエンド切替

使い分けの指針

  • KoboldCpp:1台のPCでLLM・画像・音声・動画・音楽を全部やりたいクリエイター志向のユーザー。インストールが面倒くさいと感じる人
  • llama.cpp:最低限の依存で最高速度を出したいエンジニア。サーバーやDocker環境への組み込み
  • Ollama:「ollama run llama3」のような最短コマンドだけで使いたい人。CLIワークフロー
  • LM Studio:純粋にチャット用途。デスクトップアプリの見た目を重視する人
  • text-generation-webui:複数バックエンドを切替えてベンチマーク・LoRA訓練までやりたい研究者・上級者

メリット・デメリット

メリット

  • 導入が圧倒的に簡単:EXE / バイナリをダウンロードしてダブルクリックするだけ。Python / Conda / CUDA Toolkitのインストールも不要
  • 1プロセスでマルチモーダル完結:LLM・SD・Whisper・TTSのプロセスを別々に立ち上げる必要がない
  • 低スペックPCでも動く:CPUオンリーでもLLM推論が可能。古いGPUでもVulkanで動作
  • Web UIが豊富:チャット・物語・アドベンチャー・インストラクションの4モードを切替可能
  • 後方互換性が極めて高い:本家llama.cppが古い量子化形式を切り捨てても、KoboldCppでは引き続き動作することが多い
  • 更新が活発:月2回前後の安定リリース。新モデル対応の速さは業界トップクラス
  • RPC分散推論:複数台のGPUを束ねて1つのモデルを動かせる

デメリット

  • バイナリサイズが大きい:全機能入りのためEXEだけで数百MB~1GB超
  • 本家llama.cppより若干遅い場合がある:抽象化レイヤー分のオーバーヘッドが乗ることがある(5〜10%程度)
  • AGPL-3.0なのでSaaS組み込みは要注意:ネットワーク経由で改変版を提供する場合、ソース開示義務が発生
  • ドキュメントが散逸している:機能が多すぎてWiki / Issues / Discordに情報が分散している
  • 新機能は実験的なものが混じる:最新バージョンでは連続バッチング・MTPなどexperimentalな機能もあり、安定性に注意

動作要件

KoboldCppは「動くかどうか」のハードルは極めて低いですが、「快適に動かす」には適切なスペックが必要です。LLMサイズと用途別の目安を示します。

項目最小(7Bモデル動作)標準(13B + 画像生成)推奨(70B + 動画生成)
OSWindows 10 / Ubuntu 20.04 / macOS 12Windows 11 / Ubuntu 22.04 / macOS 14Windows 11 / Ubuntu 24.04 / macOS 15
CPUAVX2対応 4コアAVX2 / AVX-512対応 8コア16コア以上(Ryzen 9 / Core i9 / Apple M3 Pro+)
GPU不要(CPUオンリーで動作可)NVIDIA RTX 4060 (8GB) / Apple M2NVIDIA RTX 5090 / RTX 4070 Ti SUPER 複数枚
VRAM―(CPUオンリー)8GB以上24GB以上 or 複数GPU合計48GB+
システムRAM16GB32GB64GB DDR5以上
ストレージ30GB(モデル数本)500GB NVMe SSD2TB NVMe SSD(モデル+出力動画)
速度目安3〜8 tok/s(7B Q4)20〜40 tok/s(13B Q4)50〜120 tok/s(70B Q4)

対応バックエンド一覧

バックエンド対象GPU起動フラグ備考
CUDANVIDIA GeForce / RTX / Quadro--usecuda最高速度。RTX 4000 / 5000系で推奨
VulkanNVIDIA / AMD / Intel Arc--usevulkanクロスベンダー対応。AMD RX 7000 / Intel Arc B580で実用
MetalApple Silicon (M1/M2/M3/M4)自動検出macOS版バイナリで自動有効化
ROCmAMD Radeon Pro / Instinct非公式フォーク使用YellowRoseCx/koboldcpp-rocmを別途利用
CLBlast古いGPU(OpenCL対応)--useclblast 0 0レガシー用。VulkanかCUDAを優先推奨
CPU onlyフラグ無し古いCPUは--noavx2を追加

インストール手順

KoboldCppのインストールはOSを問わず簡単ですが、それぞれの環境で最適な手順が異なります。コピペで完了する手順を示します。

Windows(推奨:CUDA版バイナリ)

NVIDIA GPUを使う場合はCUDA版バイナリ、それ以外は通常版(Vulkan対応)を選択します。

# PowerShellを管理者権限で開く
# 作業ディレクトリを作成
mkdir C:\KoboldCpp
cd C:\KoboldCpp

# 最新版バイナリをダウンロード(CUDA版)
Invoke-WebRequest -Uri "https://github.com/LostRuins/koboldcpp/releases/latest/download/koboldcpp.exe" -OutFile "koboldcpp.exe"

# 起動確認(GUIランチャーが立ち上がる)
.\koboldcpp.exe

# CUI起動の場合(モデルパス指定)
.\koboldcpp.exe --model C:\Models\llama-3-8b-instruct.Q4_K_M.gguf --usecuda --gpulayers 99 --contextsize 8192

NVIDIA GPUを持たないPCではkoboldcpp_nocuda.exeをダウンロードし、Vulkanまたは--useclblastを指定します。

# Vulkan版バイナリ(AMD / Intel GPU向け、CUDAランタイム不要で軽量)
Invoke-WebRequest -Uri "https://github.com/LostRuins/koboldcpp/releases/latest/download/koboldcpp_nocuda.exe" -OutFile "koboldcpp_nocuda.exe"

.\koboldcpp_nocuda.exe --model C:\Models\llama-3-8b-instruct.Q4_K_M.gguf --usevulkan --gpulayers 35

Linux(Ubuntu / Debian / Arch / Fedora共通)

# 任意のディレクトリで実行
mkdir -p ~/koboldcpp && cd ~/koboldcpp

# 最新バイナリをダウンロード
wget https://github.com/LostRuins/koboldcpp/releases/latest/download/koboldcpp-linux-x64

# 実行権限を付与
chmod +x koboldcpp-linux-x64

# 動作確認
./koboldcpp-linux-x64 --help

# モデル指定起動
./koboldcpp-linux-x64 \
    --model ~/models/llama-3-8b-instruct.Q4_K_M.gguf \
    --usecuda \
    --gpulayers 99 \
    --contextsize 8192 \
    --port 5001 \
    --host 0.0.0.0

CUDA版バイナリにはNVIDIAドライバ・CUDA Toolkit 12.x以上が必要です。インストール済みでない場合は、ディストリビューションのパッケージマネージャからnvidia-driver-560以上を入れてください。

macOS(Apple Silicon)

cd ~/Downloads

# Apple Silicon用バイナリ
curl -L -o koboldcpp-mac-arm64 \
    https://github.com/LostRuins/koboldcpp/releases/latest/download/koboldcpp-mac-arm64

chmod +x koboldcpp-mac-arm64

# Gatekeeperの隔離属性を解除(初回のみ)
xattr -d com.apple.quarantine koboldcpp-mac-arm64

# 起動(Metalバックエンドが自動有効化される)
./koboldcpp-mac-arm64 \
    --model ~/Models/llama-3-8b-instruct.Q4_K_M.gguf \
    --gpulayers 99 \
    --contextsize 8192

Apple Siliconは統一メモリアーキテクチャのため、--gpulayersを最大値(99)にして全層をGPUに乗せるのが最高速度です。Intel Mac版バイナリはv1.100以降で配布停止されたため、Intel Macユーザーはソースからビルドする必要があります。

ソースからビルドする場合(上級者向け)

git clone https://github.com/LostRuins/koboldcpp.git
cd koboldcpp

# CUDA版ビルド
make LLAMA_CUDA=1 LLAMA_OPENBLAS=1 -j$(nproc)

# Vulkan版ビルド
make LLAMA_VULKAN=1 -j$(nproc)

# Python依存も含めるならrequirements.txt経由
pip install -r requirements.txt

# 起動
python koboldcpp.py --model ~/models/llama-3-8b-instruct.Q4_K_M.gguf
KoboldCpp GUIランチャー画面
KoboldCppのGUIランチャー。チェックボックスとスライダーだけで全設定が完結する(出典: LostRuins/koboldcpp公式リポジトリ / AGPL-3.0ライセンス)

初期設定

初回起動時はGUIランチャー(koboldcpp.exeをダブルクリックすると現れるウィンドウ)から設定するのが最も簡単です。CUIで全部済ませたい場合は--helpで全オプションを確認してください。

GUIランチャーから設定する

  1. Modelタブ:「Browse」ボタンで.ggufファイルを指定。「Model」フィールドにファイルパスが入る
  2. Quick Launchタブ:「Use CUDA」「Use Vulkan」など、自分のGPUに合うバックエンドにチェック
  3. GPU Layers:スライダーで「99」(全層オフロード)に設定。VRAM不足でクラッシュする場合は少しずつ下げる
  4. Context Size:8192(標準)または16384(広いコンテキスト用)
  5. Launchボタンを押下。コンソールに「Please connect to http://localhost:5001」と表示されたら成功

ブラウザでKoboldAI Liteを開く

ブラウザでhttp://localhost:5001/を開くと、KoboldAI Lite UIが表示されます。右上の「Settings」アイコンから以下を設定するのが基本です。

  • Settings → Format:使用モデルのプロンプトテンプレート(Llama 3 / Mistral / Gemma / ChatML 等)を選択
  • Settings → Samplers:Temperature 0.7、Top-P 0.92、Min-P 0.05 が多くのモデルで無難な初期値
  • Settings → Token Settings:Max Output(生成最大トークン数)を512〜2048に設定
  • Settings → Memory:会話の記憶(永続コンテキスト)を入力する欄

日本語化について

KoboldAI Lite UI自体は英語のみですが、出力言語は使用するモデル次第です。日本語で会話したい場合は、日本語に強いモデルを選択してください(後述「おすすめモデル」参照)。UIメニューだけ日本語化したい場合はブラウザ翻訳機能の利用が現実的です。

基本的な使い方

チャットモード(Instruct Mode)でAIと会話する

もっとも使う頻度の高いモードです。左上のメニューから「Instruct Mode」を選択し、下部の入力欄にメッセージを入れて送信します。

User: 日本の首都はどこですか?
AI: 日本の首都は東京です。約1,400万人の人口を擁し、政治・経済・文化の中心地となっています。

物語生成モード(Story Mode)

長編小説の続きを生成する用途に最適化されたモードです。「Story Mode」を選択すると、入力枠が大きくなり、続きを書かせる感覚で進められます。プロット指示はMemory欄、世界観設定はAuthor’s Note欄に分けて入れると、長文生成時に一貫性が保たれます。

アドベンチャーモード(Adventure Mode)

テキストアドベンチャーゲーム風に「あなたは~する」「言う」コマンドで進行できるモードです。KoboldAI Liteの伝統的なゲームモードです。

OpenAI互換APIで使う

KoboldCppはOpenAI互換のChat Completions APIを提供します。OpenAI Python SDKからそのまま叩けます。

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:5001/v1",
    api_key="dummy"  # 認証は不要だが何か入れる必要がある
)

response = client.chat.completions.create(
    model="koboldcpp",
    messages=[
        {"role": "system", "content": "あなたは親切な日本語アシスタントです。"},
        {"role": "user", "content": "PythonでフィボナッチをDP実装してください。"}
    ],
    temperature=0.7,
    max_tokens=1024,
    stream=True
)

for chunk in response:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

Anthropic互換APIで使う(v1.115以降)

v1.115.2ではPOST /v1/messagesがClaude API完全互換となり、Anthropic SDKからも接続できます。Claude Code・Cline・Continueなどのクライアントからローカルモデルを使う際に便利です。

import anthropic

client = anthropic.Anthropic(
    base_url="http://localhost:5001",
    api_key="dummy"
)

message = client.messages.create(
    model="koboldcpp",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "こんにちは、自己紹介してください。"}
    ]
)
print(message.content[0].text)

実践的な使い方

ユースケース1:Stable Diffusion(FLUX)で画像生成

KoboldCppは画像生成専用のSDUIタブを内蔵しています。LLMモデルを起動するときに--sdmodelオプションでSDモデルを同時にロードしておくと、ブラウザ画面右側の「SDUI」タブから画像生成できます。

# LLM + FLUX.1-dev を同時ロード
./koboldcpp.exe \
    --model C:\Models\llama-3-8b-instruct.Q4_K_M.gguf \
    --sdmodel C:\Models\flux1-dev-Q4_0.gguf \
    --sdvae C:\Models\ae.safetensors \
    --sdclipt5 C:\Models\t5xxl_fp16.safetensors \
    --sdclipl C:\Models\clip_l.safetensors \
    --usecuda --gpulayers 99 --contextsize 8192

FLUXは高品質ですがVRAMを大量に使用するため、VRAM 12GB以上推奨です。VRAMが少ない環境ではSDXLまたはSD1.5を選んでください。

ユースケース2:Whisperで音声をテキスト化

Whisperモデルを--whispermodelオプションで指定して起動すると、Web UIに音声アップロード機能が追加されます。日本語音声の場合はggml-large-v3-turbo-q8_0.binが最も精度と速度のバランスが良い選択です。

./koboldcpp.exe \
    --model C:\Models\llama-3-8b-instruct.Q4_K_M.gguf \
    --whispermodel C:\Models\ggml-large-v3-turbo-q8_0.bin \
    --usecuda --gpulayers 99

APIエンドポイント/v1/audio/transcriptionsはOpenAI Whisper API互換なので、既存のWhisperクライアントから接続できます。

ユースケース3:Qwen3 TTSで音声合成

v1.110以降、Qwen3 TTSによる音声クローン機能が標準搭載されました。--ttsmodelでTTSモデル、--ttswavtokenizerでwavtokenizerを指定して起動します。

./koboldcpp.exe \
    --model C:\Models\llama-3-8b-instruct.Q4_K_M.gguf \
    --ttsmodel C:\Models\Qwen3-0.6B-TTS-Q4_0.gguf \
    --ttswavtokenizer C:\Models\wavtokenizer.gguf \
    --usecuda --gpulayers 99

API経由ではPOST /v1/audio/speech(OpenAI TTS互換)が使えます。

ユースケース4:LTX2.3で動画生成

v1.114.1で追加されたLTX2.3対応により、テキストから動画生成・画像から動画生成・動画から動画生成が可能になりました。VRAM 16GB以上が現実的な動作要件です。

./koboldcpp.exe \
    --sdmodel C:\Models\ltx-video-2.3-Q5_K_M.gguf \
    --sdvae C:\Models\ltx-video-vae.safetensors \
    --usecuda --gpulayers 99

SDUIタブで「Video」モードに切り替えると、フレーム数・FPS・カメラモーションを指定して生成できます。v1.115.2では2枚のリファレンス画像で「開始フレーム+終了フレーム」を指定できるようになり、スムーズなトランジション動画が可能になりました。

KoboldCpp 動画生成 / 画像生成のSDUIプレビュー
KoboldCpp SDUIタブの操作画面。LLM / 画像 / 動画 / 音声を1画面で切替(出典: LostRuins/koboldcpp公式リポジトリ / AGPL-3.0ライセンス)

応用・カスタマイズ

RPCバックエンドで複数台のGPUを分散利用する

v1.114.1で導入されたRPCバックエンドは、複数のマシンに分散したGPUを束ねて1つの巨大モデルを動かす機能です。70B以上の巨大モデルを家庭内LANで分散推論できます。

# ワーカー側(GPUを提供するマシン)
./koboldcpp-linux-x64 --rpcserver 0.0.0.0:50052 --usecuda

# メイン側(オーケストレーションするマシン)
./koboldcpp-linux-x64 \
    --model llama-3-70b-instruct.Q4_K_M.gguf \
    --rpc 192.168.1.10:50052,192.168.1.11:50052 \
    --usecuda --gpulayers 99

OpenAI互換ルーターモード(モデル自動ホットスワップ)

v1.110で追加されたルーターモードは、複数のモデルを事前に定義しておき、APIリクエストのmodelパラメータに応じて自動的にホットスワップする機能です。

./koboldcpp.exe --modelrouter routes.json

# routes.json の例
{
  "models": {
    "small": {"model": "C:\\Models\\llama-3-3b.Q4_K_M.gguf", "gpulayers": 99},
    "medium": {"model": "C:\\Models\\llama-3-8b.Q4_K_M.gguf", "gpulayers": 99},
    "large": {"model": "C:\\Models\\llama-3-70b.Q4_K_M.gguf", "gpulayers": 40}
  }
}

MTP(Multi-Token Prediction)で推論を高速化

対応モデル(Gemma 4 Assistant / DeepSeek V3等)では、MTPによってスループットが大きく向上します。

./koboldcpp.exe \
    --model gemma-4-26B-A4B-it-UD-Q4_K_M.gguf \
    --draftmodel gemma-4-26b-A4B-it-assistant-Q4_0.gguf \
    --usemtp \
    --usecuda --gpulayers 99 \
    --debugmode

--debugmodeでドラフトモデルのhit率(投機的デコーディングの成功率)を確認できます。サンプルプロンプト「Give me the first 100 integers」では90%超のhit率が出ることが報告されています。

ローラ(LoRA)アダプタを動的に切り替える

v1.113.2でランタイム LoRA ディレクトリ切替が追加され、起動後にLoRAを動的に着脱できるようになりました。

./koboldcpp.exe \
    --model llama-3-8b.Q4_K_M.gguf \
    --loradir C:\Models\loras\ \
    --usecuda --gpulayers 99

SDUIタブのLoRAセレクタから、指定ディレクトリ内のLoRAファイルをリアルタイムで適用・解除できます。

tool_calls(ツール呼び出し)でエージェント化

v1.112.2でJinjaツール呼び出しのストリーミング対応が追加され、OpenAI / Anthropic互換APIからtoolsパラメータを使った関数呼び出しが利用できます。LangChain・LlamaIndex・OpenAI Agents SDKなどのエージェントフレームワークからそのまま使えます。

パフォーマンス最適化

量子化形式の選び方

量子化サイズ(7Bモデル)品質速度用途
Q8_0約7.2GB★★★★★★★☆☆☆研究用・最高品質要求
Q6_K約5.5GB★★★★★★★★☆☆VRAM 8GBで実用品質
Q5_K_M約4.8GB★★★★☆★★★★☆バランス型・推奨
Q4_K_M約4.1GB★★★★☆★★★★★標準・もっとも普及
IQ4_XS約3.6GB★★★☆☆★★★★★VRAM 6GB向け
Q3_K_M約3.3GB★★☆☆☆★★★★★低VRAM緊急用

迷ったらまずQ4_K_Mを選びます。VRAMに余裕があればQ5_K_M、極限まで品質を上げたいならQ6_Kです。Q3以下は明らかな精度劣化が出るため、緊急時のみ使用してください。

KVキャッシュ量子化でコンテキストサイズを増やす

v1.112.2でq5_1 KVキャッシュ量子化が追加され、長文コンテキスト時のVRAM使用量を大幅に削減できます。

# KVキャッシュをq8_0で量子化(VRAM約半減)
./koboldcpp.exe \
    --model llama-3-8b.Q4_K_M.gguf \
    --quantkv 2 \
    --contextsize 32768 \
    --usecuda --gpulayers 99

# 値: 0=f16(デフォルト), 1=q8_0, 2=q5_1, 3=q5_0, 4=q4_1, 5=q4_0

q8_0なら品質劣化はほぼなく、q5_1でもチャット用途では実用範囲です。32K以上のコンテキストを扱う場合はほぼ必須テクニックです。

Flash Attentionで高速化

NVIDIA Ampere(RTX 3000系)以降のGPUでは、Flash Attentionを有効化すると20〜30%高速化します。

./koboldcpp.exe \
    --model llama-3-8b.Q4_K_M.gguf \
    --flashattention \
    --usecuda --gpulayers 99

バッチサイズ調整で長文生成を高速化

初回プロンプト処理(プロンプトプロセシング)が遅い場合は、--blasbatchsizeを大きくします。逆にVRAMが足りない場合は小さくします。

# プロンプト処理を高速化(VRAM豊富な場合)
--blasbatchsize 2048

# VRAM節約(古いGPU)
--blasbatchsize 128

連続バッチング(実験的)

v1.114.1で追加された連続バッチングは、同時並行で複数リクエストを処理する機能です。マルチユーザーAPI用途で大きな効果があります。

./koboldcpp.exe \
    --model llama-3-8b.Q4_K_M.gguf \
    --multiuser 4 \
    --parallelizetext \
    --usecuda --gpulayers 99

よくあるエラーとトラブルシューティング

エラー1:起動直後にクラッシュ(古いCPU)

症状:起動した瞬間に「Illegal instruction」やWindowsのクラッシュダイアログ。
原因:CPUがAVX2に対応していない(Sandy Bridge以前など)。
対処--noavx2または--failsafeフラグを付けて起動します。

./koboldcpp.exe --model llama-3-8b.Q4_K_M.gguf --noavx2

エラー2:CUDA out of memory

症状:「CUDA error: out of memory」でモデルロード失敗。
原因:GPU層数(--gpulayers)が多すぎる、コンテキストサイズが大きすぎる。
対処

  1. --gpulayersの数値を減らす(99 → 30 → 20 のように段階的に)
  2. --contextsizeを縮小する(8192 → 4096)
  3. --quantkv 2でKVキャッシュを量子化する
  4. より小さい量子化(Q4_K_M → IQ4_XS)に変更

エラー3:ポート競合(Address already in use)

症状:「Address already in use」で起動失敗。
原因:他のプロセスがポート5001を使用している(前回のKoboldCppがゾンビ化など)。
対処:別ポートを指定するか、既存プロセスを終了します。

# 別ポート使用
.\koboldcpp.exe --port 5002

# Windowsで占有プロセスを確認
netstat -ano | findstr :5001
# 表示されたPIDを終了
taskkill /F /PID PID番号

エラー4:モデルロードが極端に遅い

症状:起動からチャット可能になるまで数分かかる。
原因:HDD上にモデルを置いている、メモリマップロードが効いていない。
対処

  1. モデルファイルをNVMe SSDに移動する(HDDの10倍以上高速)
  2. --useswaでSliding Window Attentionを有効化
  3. 初回起動時はOSキャッシュに乗るまでが遅い。2回目以降は高速

エラー5:APIから接続できない(外部マシンから)

症状:他のPCやLAN内サーバーからAPI接続できない。
原因:デフォルトでlocalhostのみバインドしている、ファイアウォール。
対処

# 全インターフェースでLISTEN
./koboldcpp.exe --host 0.0.0.0 --port 5001

# Windowsファイアウォール例外追加(PowerShell管理者)
New-NetFirewallRule -DisplayName "KoboldCpp" -Direction Inbound -Protocol TCP -LocalPort 5001 -Action Allow

エラー6:日本語の応答が中国語混じりになる

症状:日本語で質問しても中国語や英語が混ざる。
原因:プロンプトテンプレートが間違っている、または英語特化モデルを使用している。
対処

  1. Settings → Formatで使用モデルに合うテンプレート(Llama 3 / Qwen / Gemma等)を選択
  2. 日本語特化モデル(Qwen3-32B-Instruct、Llama-3-ELYZA-JP-8B、karakuri-lm-7b-chat-v0.1 等)に変更
  3. Temperatureを下げる(0.7 → 0.5)

エラー7:画像生成が黒画像 / ノイズだらけ

症状:SDUIで生成しても真っ黒な画像、もしくはランダムノイズが出力される。
原因:VAEが指定されていない、CFG値が極端、VRAM不足。
対処--sdvaeでVAEファイルを明示指定、CFG Scaleを7前後に戻す、VRAMが足りなければSDXLからSD1.5に切替。

おすすめの組み合わせ・連携

SillyTavernとの連携

SillyTavernは本格的なキャラクターチャットUIです。KoboldCppをバックエンドにすると、キャラクターカード・グループチャット・世界観設定など、本格的なロールプレイ環境が構築できます。

SillyTavern側の「API Connections」で「KoboldCpp」または「Text Completion → kobold」を選択し、URLにhttp://localhost:5001を入力するだけで接続完了です。

Continue.devでVSCode内コーディングアシスタント化

VSCode拡張Continueconfig.yamlでKoboldCppをChat / Autocompleteモデルとして登録すれば、GitHub Copilot代替として使えます。

models:
  - name: KoboldCpp Llama 3
    provider: openai
    model: koboldcpp
    apiBase: http://localhost:5001/v1
    apiKey: dummy
    roles:
      - chat
      - autocomplete

Open WebUIで複数モデルを統合管理

Open WebUIはOpenAI互換APIを叩く高機能なChatGPT風UIです。KoboldCppをバックエンドに、ベクトルDB(RAG)やWeb検索プラグインを組み合わせると、本格的なナレッジアシスタントが構築できます。

Claude Code / Clineからローカル接続

v1.115.2のAnthropic API対応により、Claude Codeのbase URLをhttp://localhost:5001に向けることで、ローカルモデルでClaude Codeのエージェント機能を使う実験が可能になりました。Claudeレベルの賢さは出ませんが、ネット遮断環境やプライバシー重視の作業では便利です。

KoboldCpp 連携ツールのプレビュー
KoboldCppの拡張連携(出典: LostRuins/koboldcpp公式リポジトリ / AGPL-3.0ライセンス)

おすすめモデル(2026年6月時点)

モデル名サイズ用途日本語必要VRAM
Llama-3.3-70B-Instruct-Q4_K_M70B汎用最高品質40GB
Qwen3-32B-Instruct-Q4_K_M32B多言語・コーディング20GB
Gemma 4-26B-A4B-it-UD-Q4_K_M26B (MoE)高速+高品質16GB
DeepSeek-V3.1-Q4_K_M671B (MoE)推論・コーディング特化400GB+(CPUオフロード前提)
Llama-3-ELYZA-JP-8B8B日本語特化6GB
FLUX.1-dev-Q4_0画像生成12GB
SDXL-Lightning高速画像生成6GB
ggml-large-v3-turbo-q8_0音声認識2GB

モデルファイル(.gguf)はHugging Faceから「モデル名 GGUF」で検索すると見つかります。bartowski氏やunslothのリポジトリが品質高くおすすめです。

推奨PCスペック

用途別の推奨構成です。2026年6月時点のパーツ価格を踏まえて現実的な選択肢を提示します。

入門構成(13B以下のLLM+SDXL画像生成)

パーツ具体例VRAM/容量
CPUAMD Ryzen 7 7800X3D / Intel Core i5-14600K8コア
GPUNVIDIA RTX 4060 Ti 16GB16GB VRAM
メモリ32GB DDR5 560032GB
SSD1TB NVMe SSD(Gen 4)1TB
電源650W 80+ GOLD

標準構成(30B級LLM+FLUX画像生成+LTX2.3動画生成)

パーツ具体例VRAM/容量
CPUAMD Ryzen 9 7950X / Intel Core i9-14900K16コア
GPUNVIDIA RTX 4070 Ti SUPER 16GB16GB VRAM
メモリ64GB DDR5 600064GB
SSD2TB NVMe SSD(Gen 4 / Gen 5)2TB
電源850W 80+ GOLD

ハイエンド構成(70B級LLM+動画生成本格運用)

パーツ具体例VRAM/容量
CPUAMD Ryzen Threadripper 7960X / Intel Core Ultra 9 285K24コア以上
GPUNVIDIA RTX 5090 32GB(または RTX 4090 24GB ×2でNVLink)32GB VRAM
メモリ128GB DDR5 6400128GB
SSD4TB NVMe SSD(Gen 5)4TB
電源1200W 80+ PLATINUM

CPUオンリーで運用したい場合は、メモリを96GB~192GBまで増設すれば、70Bクラスでも実用速度(3〜8 tok/s)で動かせます。GPU予算が確保できない場合の選択肢として現実的です。

KoboldCpp 各種モデル動作の比較プレビュー
KoboldCppで複数モデルを切り替えて動かす様子(出典: LostRuins/koboldcpp公式リポジトリ / AGPL-3.0ライセンス)

まとめ

KoboldCppは「1ファイル0インストール」のシンプルさを保ちつつ、LLM推論・画像生成・動画生成・音声認識・音声合成・音楽生成のすべてを1つのプロセスで完結させる、現時点で最も統合度の高いローカルAIランタイムです。2026年6月の最新版v1.115.2では、Anthropic API完全互換・Gemma 4対応・MTP・LTX2.3動画生成といった、業界の最新動向を即座に取り込んでいます。

こんな人におすすめ

  • 1台のPCでローカルAIを「全部」やりたいクリエイター
  • llama.cppのビルドやPython依存に挫折した人
  • OllamaのCLIだけでは物足りず、本格的なWeb UIを使いたい人
  • 画像生成・動画生成までセットで運用したい人
  • RPC分散でハイエンドモデルを家庭内クラスタで動かしたい人

逆に、Dockerコンテナや自社サービスへの本格組み込みでは、軽量なllama.cpp(llama-server)のほうが適しています。また、研究用途で複数バックエンドをベンチマークしたいならtext-generation-webui、純粋なチャット利用ならLM Studioと、用途に応じて使い分けるのが賢明です。

KoboldCppは更新が極めて活発で、月2回前後の頻度で新機能が追加されています。公式のリリースページWikiを定期的にチェックして、新機能を活用していきましょう。

本記事が、あなたのローカルAI環境構築の助けになれば幸いです。

📦 この記事で紹介した商品

※ 上記リンクはAmazonアソシエイトリンクです。購入いただくと当サイトに紹介料が入ります。

タイトルとURLをコピーしました