【2026年版】ローカルLLM用語集 – 完全ガイド

このページでは、ローカルLLM（Large Language Model）を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。

📖 LLMモデル

GPT （ジーピーティー）

GPT（Generative Pre-trained Transformer）は、OpenAIが開発した大規模言語モデル（LLM）シリーズ。Transformerアーキテクチャを基盤とし、大量のテキストデータで事前学習し、会話生成や翻訳など多様なタスクに適応可能。ローカル環境での利用には、モデルの

Gemma （ジェマ）

GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。2B～7Bパラメータの小型モデルで、テキスト生成やコード作成に適し、ローカル環境での効率的な実行が可能。ライセンスフリーなため、コストを抑えつつ柔軟なカスタマイズが可能。

LLM （エルエルエム）

LLM（Large Language Model）は、膨大なパラメータ数と多様なトレーニングデータを用いて構築された高度な言語モデルです。自然言語処理やテキスト生成に優れており、ローカル環境での導入にはGPU/TPUの高性能なハードウェアと最適化された推論技術（例：量化、カーネル最適化）が不可欠です。実用上は、モデルサイズと応用シーンのバランスを考慮した選定が重要です。

Llama （ラマ）

LlamaはMetaが開発した大規模言語モデル（LLM）シリーズで、Llama、

Mistral （ミストラル）

Mistralは、フランスのMistral AIが開発した大規模言語モデルシリーズ（例：Mistral-

Phi （ファイ）

Phiはマイクロソフトが開発した

Qwen （チェン）

Qwenはアリババクラウドが開発した大規模言語モデルで、会話理解やコード生成、多言語対応に優れています。ローカル環境でも導入可能で、高精度な推論と効率的なリソース利用が特徴です。開発者向けにコード生成や自然言語処理をサポートし、実用性の高いモデルとして注目されています。

SLM （エスエルエム）

SLM（Small Language Model）は、パラメータ数が少なく、計算リソースを効率的に利用できるLLMの小型版。ローカ

Transformer （トランスフォーマー）

Transformerは、2017年に発

ファインチューニング（ふぁいんちゅーにんぐ）

ファインチューニングは、既存のLLMに特定のタスクやドメインのデータで追加で学習させ、性能を最適化するプロセスです。ローカルユーザー向けには、自社のデータでモデルをカスタマイズし、精度を向上させる実践的な手法です。過学習を防ぐため、適切なデータ分割と学習率調整が重要です。

📖 量子化・最適化

AWQ （エーダブリューキュー）

AWQ（Activation-aware Weight Quantization）は、アクティベーションの分布を考慮した重み量子化技術。精度

EXL2 （イーエックスエルツー）

FP16 （エフピーじゅうろく）

FP16は16ビット浮動小数点形式で、FP32より精度が低く、メモリ使用量と計算速度を約半分に抑えることができます。ローカルLLMでは、GPUのVRAM制限に対応し、推論やファインチューニングの効率化に役立ちますが、精度の低下が生じる可能性があります。軽量化と性能のバランスを取

GGUF （ジージーユーエフ）

GGUFは、LLMの量子化・最適化に用いられるフォーマットで、モデルサイズを縮小し、推論速度を向上させます。ローカル環境では、メモリ効率が高く、4bit/8bitなど低精度化を可能にし、

GPTQ （ジーピーティーキュー）

GPTQ（Group-wise Quantization）は、モデルの重みをグループごとに量子化し、精度を維持しつつモデルサイズを削減する技術。ローカルLLMユーザーには、GPUメモリの制約下でも高速な推論を実現し、大規模モデル

INT4 （イントよん）

INT8 （イントはち）

KVキャッシュ（けーぶいきゃっしゅ）

KVキャッシュは、LLMの推論時にAttentionメカニズムで使用されるKeyとValueを効率的に保存・再利用する技術です。長文処理時にメモリを節約し、計算を高速化。ローカルユーザー向けに、GPUメモリの

量子化（りょうしか）

量子化は、モデルの重みやアクティベーションの精度を下げて計算量やメモリ使用量を削減する技術です。例として、32ビット浮動小数点を8ビット整数に変換します。これにより、ローカルLLMの実行効率が向上しますが、精度の低下がトレ

📖 推論エンジン

ExLlamaV2 （イーエックスラマブイツー）

ExLlamaV2は、ローカルで大規模言語モデルを効率的に推論するためのエンジン。GPU/CPUを活用し、量子化技術でメモリを最適化。軽量なモデル実行を可能にし、高精度な推論を低リソース環境でも実現。ユーザーは高速な応答と安定した性能を期待できる。

LM Studio （エルエムスタジオ）

LM Studioは、ローカル環境で大規模言語モデル（LLM）を実行するための推論エンジン。複

LocalAI （ローカルエーアイ）

LocalAIは、ローカル環境で大規模言語モデル（LLM）を実行するためのオープンソースの推論エンジンです。クラウドに依存せず、プライバシー保護と低遅延を実現します。モデルの

Ollama （オラマ）

Ollamaは、ローカル環境で大規模言語モデル（LLM）を効率的に実行するための推論エンジン。軽量で高速なモデル実行を可能にし、ユーザーがカスタムモデルを簡単にデプロイ・管理できるように設計されている。オープンソースで、CPU/GPUを問わず柔軟な推論をサポートし、ローカルLLMユーザー向けの実用性が高く、モデルのスケーリングや最適化にも対応。

Text Generation Inference （てきすとじぇねれーしょんいんふぁれんす）

「Text Generation Inference」は、LLMが推論時にテキストを生成するプロセスを指します。ローカル環境では、GPUメモリ効率を重視した最適化（例：Quantization、Batching）が重要です。TensorRTやHugging Face Transformersを活用し、リアルタイム性と精度のバランスを取る必要があります。

llama.cpp （ラマシーピーピー）

llama

vLLM （ブイエルエルエム）

vLLMは、LLMの推論を高速化するオープンソースのエンジンで、並列処理とメモリ最適化により、高スループット・低レイテンシを実現。Hugging Face Transformersなど

📖 画像生成

ComfyUI （コンフィユーアイ）

ComfyUIは、Stable Diffusionを視覚的に操作できるノードベースのインターフェース。ユーザーは各ステップをカスタマイズ可能で、モデルやプロンプトの調整が直感的。ローカルLLMユーザー向けに、柔軟なワークフローと高精度な画像生成を実現。オープンソースで拡張性に優れる。

ControlNet （コントロールネット）

ControlNetは、画像生成モデル（例

Flux （フラックス）

Fluxは、Runwayが開発した機械学習フレームワークで、画像生成

LoRA （ローラ）

SDXL （エスディーエックスエル）

SDXLは、Stability AIが開発した大規模な画像生成モデルで、高解像度かつ詳細なテクスチャや複雑なシーンを

Stable Diffusion （ステーブルディフュージョン）

Stable Diffusionは、拡散モデルを用いたテキストから画像を生成するAI。ノイズを徐々に除去し、画像を構築するプロセスを特徴とし、オープンソースでローカル環境でも実行可能。高品質な画像生成が可能で、アートやデザイン用途に広く利用されている。

VAE （ブイエーイー）

📖 ハードウェア

CUDA （クーダ）

CUDAはNVIDIAが提供する並列計算プラットフォームで、GPUを活用した高速な数値計算を実現します。LLMのトレーニングや推論では、CUDAを介してGPUの計算リソースを効率的に利用し、性能を飛躍的に向上させます。実装にはcuBLASやcuDNNなどのライブラリが用いられ、ローカル環境での高速処理が可能になります。

NPU （エヌピーユー）

Tensor Core （テンサーコア）

Tensor CoreはNVIDIA GPUに搭載された専用演算ユニットで、行列計算を高速化し、LLMのトレーニング・推論を効率化します。混合精度計算をサポートし、メモリ効率も向上。ローカルユーザー向けには、高パフォーマンスを低コストで実現するキーハードウェアです。

VRAM （ブイラム）

VRAM（ビデオRAM）は、GPUが画像処理や機械学習を効率的に行うために使用する専用メモリ。ローカルLLMユーザーにとって、大規模モデルの推論やトレーニング時にモデルパラメータやバッチサイズを保持するための

eGPU （イージーピーユー）

eGPU（外部グラフィックボード）は、ThunderboltやUSB-C経由で接続し、ノートPCや小型PCに高性能GPUを追加するハードウェア。ローカ

📖 開発ツール

RAG （ラグ）

RAG（Retrieval-Augmented Generation）は、検索エンジンとLLMを組み合わせて、外部データをリアルタイムに参照しながら回答を生成する技術。ローカルLLMユーザーには、モデルのパラメータを増やすことなく、最新情報や専門知識を活用する手段として有効。効率的な知識統合が可能で、応答の正確性と柔

エンベディング（えんべでぃんぐ）

エンベディングは、テキストやデータを数値ベクトルに変換する技術です。LLMでは、語彙や文脈を高次元空間に表現し、類似性検索や機械学習の入力として活用されます。ローカル環境では、事前に学習済みモデル（例：Sentence-BERT）を用いて効率的にベクトル化し

プロンプトエンジニアリング（ぷろんぷとえんじにありんぐ）

プロンプトエンジニアリングは、LLMに最適な入力文（プロンプト）を設計する技術です。構造化された指示や具体例を組み込み、反復的なテストを通じて精度を向上させます。ローカルユーザーは、モデルの性能を最大限に引き出すため、明確な指示とタスクの定義が不可欠です。

ベクトルストア（べくとるすとあ）

ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するデータベースです。LLMユーザーは、類似テキストの検索やクエリ応答に活用し、FAISSやPineconeなどのライブラリで実装します。ローカル環境では、高速な検索と大規模データの

📖 フレームワーク

LangChain （ラングチェーン）

LangChainは、LLMを活用したアプリケーション開発を支援するフレームワークです。プロンプト、モデル、メモリの連携や、データベースとの統合を簡易化し、ローカル環境での柔軟な構築を可能にします。エージェントやチェーン機能により、複雑なワークフローを効率的に構成できます。

LlamaIndex （ラマインデックス）

LlamaIndexは、LLMを活用したアプリケーション開発を簡易化するフレームワーク。データのインデックス作成、クエリ処理、モジュールの統合をサポートし、ローカルLLMとの連携をスムーズにします。実装の柔軟性とパフォーマンス向上が特徴です。

📖 コンセプト

Top-P （トップピー）

Top-P（核サンプリング）は、確率分布の上位P%の

コンテキスト長（こんてきすとちょう）

コンテキスト長は、LLMが一度に処理可能な入力トークン数の上限を指します。ローカル環境では、長すぎるコンテキストはメモリ制限により処理不能になる場合があり、精度が低下する可能性があります。実践上は、入力テキストを適切に分割し、モデルの制限内に収めることが重要です。

トークン（とーくん）

トークンは、テキストを処理する際の基本単位で、単語やサブワード、記号などに分ける。LLMでは入力・出力の長さを制限する「トークン数」が重要。ローカルユーザー

ハルシネーション（はるしねーしょん）

ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。事実誤認や虚偽情報を生みやすく、信頼性に影響。ローカルLLMユーザーは出力内容を常に確認し、信頼できるソースと照合する習慣を。対策として、ファクトチェックツールや精度向上のための微調整が有効。

バッチ処理（ばっちしょり）

バッチ処理は、複数のデータを一度に処理する方法で、効率性を重視します。ローカルLLMでは、大量のデータを一括で学習させたり、リソースを節約しながら処理を進める際に有効です。逐次処理に比べて、オーバーヘッドが少なく、並列処理に適しています。

推論（すいろん）

推論は、学習済みモデルに新たな入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、推論時の遅延やリソース消費、モデルの最適化

温度（おんど）

温度は、LLMがテキストを生成する際の確率分布を調整するパラメータです。値が低いほど出力が確定的