【2026年版】ローカルLLM用語集 – 完全ガイド

このページでは、ローカルLLM（Large Language Model）を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。

📖 LLMモデル

GPT （ジーピーティー）

GPT（Generative Pre-trained Transformer）は、OpenAIが開発した大規模言語モデルシリーズ。Transformerアーキテクチャを基盤とし、大量のテキストデータで事前学習・微調整により、文章生成や理解に優れた性能を発揮。ローカルLLMユーザー向けには、チャットボットやコンテンツ作成、コード生成など幅広い応用が可能。

Gemma （ジェマ）

GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。テキスト生成・プログラミング・論理推論など多様なタスク

LLM （エルエルエム）

LLM（Large Language Model）は、膨大なテキストデータを学習し、自然な言語を理解・生成する大規模言語モデルです。ローカル環境で利用する際は、GPU/TPUの性能やメモリ容量に注意し、モデルの軽量化（例：Quantization）や最適化技術（例：LoRA

Llama （ラマ）

Llamaはメタが開発したオープンソースのLLMシリーズ（Llama1/2/3など）。高精度な言語理解・生成を実現し、チャットボットやコード生成など幅

Mistral （ミストラル）

Mistralは、フランスのMistral AIが開発したLLMシリーズ。Mistral 7BやMixtral 8x7Bなど、高精度な推論・コード生成を実現。オープンソースで、ローカル環境での導入が容易。軽量かつパフォーマンスに優れ、研究・開発用途に適している。

Phi （ファイ）

Phiはマイクロソフトが開発した軽量LLMシリーズ（Phi-1/Phi-2/Phi-3）。パラメータ数が少ないにもかかわらず、精度と効率を両立。ローカル環境での実行に適し、エッジデバイスやリソース制限環境での応用が可能。特にPhi-3は多言語対応で実用

Qwen （チェン）

Qwenはアリババクラウドが開発した大規模言語モデルで、テキスト生成や質問応答、コード作成など多様なタスクを処理可能です。ローカル環境での実行が可能で、プライバシー保護やカスタマイズに適しています。Qwen1、Qwen2など複数のバージョンが存在し、性能と用途に応じて選択可能です。

SLM （エスエルエム）

SLM（Small Language Model）は、パラメータ数が少なく、計算リソースを効率的に利用するLLMの小型版です。ローカル環境やエッジデバイスでの実装に適し、特定

Transformer （トランスフォーマー）

Transformerは、2017年にGoogleが提案した注意機構を用いたニューラルネットワークアーキテクチャ。並列処理を可能にし、長距離依存関係を

ファインチューニング（ふぁいんちゅーにんぐ）

ファインチューニングは、既存のLLMに特定のタスクやドメインに特化したデータで追加学習し、性能

📖 量子化・最適化

AWQ （エーダブリューキュー）

EXL2 （イーエックスエルツー）

FP16 （エフピーじゅうろく）

GGUF （ジージーユーエフ）

GGUFは、LLMの量子化・最適化に用いられるフォーマットで、モデルサイズを削減し、推論速度を向上させます。ローカル環境では、メモリ効率が高く、CPU/G

GPTQ （ジーピーティーキュー）

GPTQは、モデルの重みをグループごとに量子化する技術で、精度を維持しつつモデル

INT4 （イントよん）

INT8 （イントはち）

KVキャッシュ（けーぶいきゃっしゅ）

量子化（りょうしか）

量子化は、モデルの重みやアクティベーションの精度を下げて計算量やメモリ使用量を削減する最適化技術です。例として、32ビット浮動小数点を8ビット整数に変換します。これにより、ローカルLLMの実行効率が向上しますが、精度の

📖 推論エンジン

ExLlamaV2 （イーエックスラマブイツー）

LM Studio （エルエムスタジオ）

LM Studioは、ローカルでLLMを実行するための推論エンジン。GPU加速やモデル量子化をサポートし、軽量なUIでモデルの読み込み・推論を簡易化。ユーザーは自前のハードウェアで高精度な推論を実現でき、プライバシー保護やコスト削減に適している。

LocalAI （ローカルエーアイ）

LocalAIは、ローカル環境でLLMを実行するための軽量推論エンジン。クラウド依存を排除し、プライバシー保護と低遅延を実現。GPU加速やモデルカスタマイズをサポートし、コスト削減とオンプレミス利用を可能にします。

Ollama （オラマ）

Ollamaは、ローカルでLLMを効率的に実行する推論エンジン。GPUを活用した高速推論と、Transformer/PyTorchモデルの柔軟なサポートが特徴。シンプルなAPIでモデルのホスティングやAPI呼び出しを可能にし、開発者向けにロ

Text Generation Inference （てきすとじぇねれーしょんいんふぁれんす）

**Text Generation Inference**は、LLMが入力に基づいてテキストを生成する推論プロセスを最適化したエンジンです。ローカル環境では、高速な応答を実現するため、量子化やモデル圧縮技術を活用し、リアルタイム対話やコンテンツ生成に適しています。ユーザーは、リソース効率と応答性のバランスを考慮した実装が重要です。

llama.cpp （ラマシーピーピー）

vLLM （ブイエルエルエム）

vLLMは、大規模言語モデルの推論を高速化するエンジンで、メモリ効率化と並列処理を実現。スパースアテンションやバッチ処理を活用し、ローカル環境でも高効率な推論を可能に。特に長文処理や複数クエリ同時処理に適し、リソース制約下でも性能を維持。

📖 画像生成

ComfyUI （コンフィユーアイ）

ComfyUIは、Stable Diffusionを視覚的に操作できるノードベースのインターフェース。ワークフローを柔軟にカスタマイズ可能で、ローカル環境での高精度な画像生成に最適。オープンソースで、GPU対応により高速な処理が可能。

ControlNet （コントロールネット）

ControlNetは、拡散モデル（例：St

Flux （フラックス）

Fluxは、Black Forest Labsが開発したテキストから画像を生成する拡散モデルで、高品質な画像生成が特徴。ローカル環境

LoRA （ローラ）

LoRA（Low-Rank Adaptation）は、大規模モデルを効率的に微調整する

SDXL （エスディーエックスエル）

SDXL（Stable Diffusion XL）は、Stability AIが開発した高解像度画像生成モデル。従来のバージョンより高品質な画像生成が可能で、より詳細なテキストプロンプトに対応。ローカル実行

Stable Diffusion （ステーブルディフュージョン）

Stable Diffusionは、Stability AIが開発したオープンソースのテキストから画像を生成するモデル。拡散過程（ノイズを減らすステップ）とUNetアーキテクチャを用い、LAIONデータセットで訓練。ローカル環境でも実行可能で、GPU性能に依存し、高品質な画像生成

VAE （ブイエーイー）

📖 ハードウェア

CUDA （クーダ）

CUDAはNVIDIAが提供する並列計算プラットフォームおよびAPIで、GPUの計算能力を活用して高速な処理を実現します。ローカルLLMユーザー向けには、NVIDIA GPU上でモデルトレーニングや推論を効率化するための基盤技術として重要です。CUDAの有無は、GPUアクセラレーションの有効性に直結します。

NPU （エヌピーユー）

NPU（Neural Processing Unit）は、AI計算を最適化した専用ハードウェアで、特に機械学習や深層学習の推論・訓練を高速化します。ローカルLLMユーザー向けには、

Tensor Core （テンサーコア）

Tensor Coreは、NVIDIA GPUに搭載された専用処理ユニットで、行列演算を高速化し、LLMのトレーニング・推論を効率化します。特に、混合精度計算

VRAM （ブイラム）

VRAM（ビデオRAM）は、GPUが画像処理や機械学習モデルの計算時に使用する専用メモリ。ローカルLLMでは、モデルのパラメータやバッチサイズを保持し、高速な推論を実現。VRAM容量が不足すると、モデルが読み込めない、または性能が低下する。GPUの仕様確認や、モデルの軽量化（例：Quantization）が重要。

eGPU （イージーピーユー）

📖 開発ツール

RAG （ラグ）

RAG（Retrieval-Augmented Generation）は、外部データベースから情報を検索し、LLMに統合して回答を生成する技術。ローカルLLMユーザー向けに、トレーニング不要で最新データを活用可能。実装にはベクトルDBと検索エンジンを組み合わせ、効率的な知識統合が可能。

エンベディング（えんべでぃんぐ）

エンベディングは、テキストを意味を含む数値ベクトルに変換する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、自然言語処理の基盤となります。Hugging Faceのsentence-transformersなど、効率的なベクトル生成・検索ライブラリ（例：FAISS）が実装に不可欠です。

プロンプトエンジニアリング（ぷろんぷとえんじにありんぐ）

プロンプトエンジニアリングは、LLMに最適な入力（プロンプト）を設計する技術です。クエリの構造化、例の提示、役割の明確化などにより、出力の精度や効率を向上させます。ローカルLLMユーザーは、タスクに応じたプロンプトの最適化で性能を引き出すことが重要です。

ベクトルストア（べくとるすとあ）

ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するデータベースです。LLMユーザー向けには、類似性検索やセマンティック検索を高速化し、大規模な埋め込みデータを扱う際のスケーラビリティを向上させます

📖 フレームワーク

LangChain （ラングチェーン）

LangChainは、LLMを活用したアプリケーション開発を支援するフレームワーク。プロンプト、モデル、メモリなどのモジュールを組み合わせて柔軟に構築可能。ローカル環境での実装を簡易化し、カスタマイズ性を高める設計が特徴です。

LlamaIndex （ラマインデックス）

LlamaIndexは、LLMとデータソースを連携させるためのフレームワークで、ドキュメントのインポート・インデックス作成・クエリ処理を

📖 コンセプト

Top-P （トップピー）

コンテキスト長（こんてきすとちょう）

コンテキスト長は、LLMが一度に処理可能な入力トークン数を指します。長さが大きいほど、長文の理解や複雑なタスクに対応可能ですが、メモリ使用量や推論速度に影響を与えます。ローカルユーザーは、タスクに応じて適切なモデルを選択し、必要に応じてコンテキストを分割・要約する工夫が必要です。

トークン（とーくん）

トークンは、テキストをモデルが処理可能な最小単位に分割した要素（単語・文字・記号など）。トークナイズによって入力が分解され、モデルはトークン

ハルシネーション（はるしねーしょん）

ハルシネーションは、LLMが訓練データにない情報を勝手に

バッチ処理（ばっちしょり）

バッチ処理は、一括でデータを処理する方法で、ローカルLLMでは大規模データのトレーニングや推論時に効率を向上させます。逐次処理より計算リソースの負荷を分散し、並列処理を可能にします。ただし、リアルタイム性は犠牲になるため、用途に応じた選択が重要です。

推論（すいろん）

推論（インフェレンス）は、学習済みモデルに新たな入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率（高速化・メモリ削減）や、精度と性能

温度（おんど）

温度は、LLMの出力生成において確率分布のランダム性を調整するパラメータ。値が低いほど出力が確定的・論理的（例