チュートリアル llama.cpp完全ガイド【2026年5月最新版】インストール・GGUF量子化・llama-serverまで決定版
llama.cppはローカルLLM推論の中核エンジン。本記事では2026年5月最新版b9085をベースに、インストール、GGUF量子化(Q4_K_M / Q5_K_M)、llama-serverによるOpenAI互換APIの構築、CUDA / Metal / ROCm / Vulkan対応、テンソル並列など、運用に必要な情報を1記事で網羅した決定版ガイドです。