【2026年版】ローカルLLM用語集 – 完全ガイド

このページでは、ローカルLLM（Large Language Model）を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。

📖 LLMモデル

GPT （ジーピーティー）

GPT（Generative Pre-trained Transformer）は、OpenAIが開発した大規模言語モデル（LLM）のシリーズ。Transformerアーキテクチャを基盤とし、大量のテキストデータで事前学習されており、多様な

Gemma （ジェマ）

GemmaはGoogleが開発した効率的なLLMシリーズで、Gemma-2B/7Bなどサイズごとに最適化。多言語対応で、テキスト生成やコード作成に強み。ローカル環境でも軽量ながら高精度な推論を実現し、研究・プロダクション双方で活用可能。オープンソース化により、カスタマイズ性が高く、実践的な

LLM （エルエルエム）

LLM（Large Language Model）は、膨大なテキストデータで訓練された大規模言語モデルで、自然言語理解・生成を可能にします。ローカル環境では、パラメータ規模やトレーニングデータの質が性能に直結し、推論速度やメモリ制限が実装の鍵となります。

Llama （ラマ）

Mistral （ミストラル）

Mistralは、フランスのスタートアップMistral AIが開発したLLMシリーズ。Mistral-7Bなど、高精度かつ効率的なモデルが特徴。ローカルユーザー向けにオープンソース版が提供され、コード生成や論理的推論に優れる。競合モデル（LLaMAなど）と同等の性能を実現し、軽量

Phi （ファイ）

Qwen （チェン）

Qwenはアリババクラウドが開発した大規模言語モデルで、会話理解・コード生成・多言語対応に強みを持ちます。ローカル環境での導入が可能で、高精度な推論と軽量な実装が特徴。開発者向けに公式リポジトリが提供され、カスタマイズや拡張が容易です。

SLM （エスエルエム）

SLM

Transformer （トランスフォーマー）

Transformerは、2017年にGoogleが提案した注意機構を用いたニューラルネットワークアーキテクチャ。並列処理により高速な学習を実現し、長距離依存関係を処理する能力を持つ。現代のLLM（例：BERT、

ファインチューニング（ふぁいんちゅーにんぐ）

ファインチューニングは、既存のLLMに特定のタスクやドメインのデータで追加で学習させ、性能を向上させる手法です。ローカルユーザー向けには、自社データに最適化するための実用的なアプローチで、計算リソースと適切なデータセットが必要です。

📖 量子化・最適化

AWQ （エーダブリューキュー）

EXL2 （イーエックスエルツー）

FP16 （エフピーじゅうろく）

FP16（16ビット浮動小数点数）は、計算精度を半分に抑えることでメモリ使用量と演算速度を向上させる技術です。ローカルLLMでは、GPUメモリの制限を緩和し、高速な推論を実現しますが、精度の低下が生じる可能性があります。最適な性能と

GGUF （ジージーユーエフ）

GGUF（General GPU Universal Format）は、LLMの量子化・最適化に用いられる効率的なファイル形式。モデルサイズを小さくし、推論速度を向上

GPTQ （ジーピーティーキュー）

INT4 （イントよん）

INT4は、モデルの重みを4ビット整数で表現する量子化技術。モデルサイズを大幅に削減し、推

INT8 （イントはち）

KVキャッシュ（けーぶいきゃっしゅ）

量子化（りょうしか）

量子化は、モデルの重みやアクティベーションの精度を下げて計算効率を高める技術です。例：32bit浮動小数点を8bit整数に変換。モデルサイズを縮小し、推論速度を向上させますが、精度の低下や計算誤差のリスクがあります。ローカルLLMユーザー向けには、ハードウェア制約

📖 推論エンジン

ExLlamaV2 （イーエックスラマブイツー）

ExLlamaV2は、大規模言語モデル（LLM）をGPU上で効

LM Studio （エルエムスタジオ）

LM Studioは、ローカル環境でLLMを実行するための推論エンジン。GPU加速やモデル量子化をサポートし、ユーザーが自前のハードウェアで大規模言語モデルを効率的に運用可能に。UIが整っており、モデルの読み込みやパラメータ調整が直感的。クラウド依存を避けるための実践

LocalAI （ローカルエーアイ）

LocalAIは、ローカル環境でLLMを効率的に実行する推論エンジン。モデルの軽量化やメモリ最適化により、GPU/CPUsでの低リソース推論を可能にし、プライバシー保護とコスト削減を実現。ユーザーは自社サー

Ollama （オラマ）

Text Generation Inference （てきすとじぇねれーしょんいんふぁれんす）

Text Generation Inferenceは、LLMが入力に基づいてテキストを生成する際の推論処理を担当するエンジンです。ローカル環境

llama.cpp （ラマシーピーピー）

vLLM （ブイエルエルエム）

📖 画像生成

ComfyUI （コンフィユーアイ）

ComfyUIは、Stable Diffusionを操作するノードベースのインターフェースで、画像生成のワークフローを視覚的に構築できます。ローカルLL

ControlNet （コントロールネット）

ControlNetは、画像生成モデル（例：Stable Diffusion）に「制御信号」

Flux （フラックス）

LoRA （ローラ）

SDXL （エスディーエックスエル）

Stable Diffusion （ステーブルディフュージョン）

Stable Diffusionは、Stability AIが開発したテキストから画像を生成する拡散モデル。ノイズを徐々に追加・除去するプロセスで学習し、高品質な画像を生成。オープンソースでローカル環境でも利用可能で、アーティ

VAE （ブイエーイー）

📖 ハードウェア

CUDA （クーダ）

CUDAはNVIDIAが提供するGPU向け並列計算プラットフォームで、GPUの演算リソースを効率的に活用するためのAPIとツールキットを含みます。ローカルLLMユーザーは、CUDAを介してGPUアクセラレーションを実現し、大規模モデルのトレーニングや推論を高速化できます。CUDA

NPU （エヌピーユー）

NPU（Neural Processing Unit）は、AI計算を高速化する専用ハードウェア。深層学習のテンソル演算を効率的に処理し、モデル訓練や推論を加速。ローカルLLMユーザー向けに、GPUやCPUに比べて低消費電力で高パフォーマンスを実現するが、搭載環境に依存するため、ソフト

Tensor Core （テンサーコア）

Tensor CoreはNVIDIA GPUに搭載された専用ハードウェアで、行列演算を高速化し、AIトレーニング・推論を効率化します。混合精度（FP16/INT8）計算をサポートし、性能と電力効率を向上。ローカルLL

VRAM （ブイラム）

VRAM（ビデオRAM）は、GPUが画像処理や機械学習を効率的に行うために使用する専用メモリ。LLMユーザーにとって、モデルのパラメータやバッチサイズを大きくするための重要なリソース。容量不足では性能低下やエラーの原因となるため、ローカル実行時に十分な

eGPU （イージーピーユー）

📖 開発ツール

RAG （ラグ）

RAG（Retrieval-Augmented Generation）は、検索エンジンで外部情報を取得し、LLMに組み込むことで知識の正確性や最新性を高める技術。ローカルLLMユーザー向けには、外部データベースと連携させることで、モデルの知識範囲を拡張し、実用性を向上させます。

エンベディング（えんべでぃんぐ）

エンベディングは、テキストやデータを数値ベクトルに変換する技術で、意味の類似性を数値で表現します。ローカルLLMでは、検索やクラスタリングに活用され、効率的な処理を可能にします。Hugging Faceのsentence-transformersなど、実装ツールが豊富で、モデルの精度向上に直結します。

プロンプトエンジニアリング（ぷろんぷとえんじにありんぐ）

プロンプトエンジニアリングは、LLMに最適な入力（プロンプト）を設計・調整する技術です。明確な指示や例を組み込み、タスクに応じた出力を引き出す手法で、ローカルLLMユーザーはテンプレート作成や反復改善を通じて効率的な運用が可能です。

ベクトルストア（べくとるすとあ）

ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するツールです。ローカルLLMユーザーは、生成した埋め込み（Embedding）をこのストアに格納し、類似性検索やクエリ応

📖 フレームワーク

LangChain （ラングチェーン）

LangChainは、LLMを活用したアプリケーション開発を支援するフレームワークで、プロンプト・モデル・メモリの連携を簡易化。ローカル環境でも利用可能で、カスタムLLMとの連携やエージェントの構築に強みを持つ。実装の柔軟性と拡張性を重視した設計が特徴です。

LlamaIndex （ラマインデックス）

📖 コンセプト

Top-P （トップピー）

コンテキスト長（こんてきすとちょう）

コンテキスト長は、LLMが一度に処理可能な入力トークン数を指します。ローカル環境では、長すぎるコンテキストはメモリ制限により処理不能になる場合があり、精度が低下する可能性があります。実践上は、入力テキストを適切に分割（チャンク化）し、モデルの制限内に収めることが重要です。

トークン（とーくん）

トークンは、テキストを処理する際の基本単位で、単語や記号、サブワード（例：「running」→「run」＋「ning」）を含む。LLMでは入力・出力の長

ハルシネーション（はるしねーしょん）

ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。事実誤認や虚偽情報を含む場合があり、特に知識ベース外の質問時に発生しやすい。ユーザーは出力内容を常に確認し、信頼性を検証する習慣をつけるべき。

バッチ処理（ばっちしょり）

バッチ処理は、データを一括で処理する方法で、個別処理より効率が良い。ローカルLLMでは、大量のデータを一度に処理し、計算リソースを有効活用できる。ただし、メモリ使用量が増加するため、バッチサイズの調整が重要。学習時や推論

推論（すいろん）

推論（インフェレンス）は、学習済みモデルに新たな入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率（量子化・モデル圧縮）や、ハードウェアリソースの

温度（おんど）

LLMの「温度」は、出