【2026年版】ローカルLLM用語集 – 完全ガイド

このページでは、ローカルLLM（Large Language Model）を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。

📖 LLMモデル

GPT （ジーピーティー）

GPT（Generative Pre-trained Transformer）は、OpenAIが開発した大規模言語モデルのシリーズ。Transformerアーキテクチャを基盤とし、大量のテキストデータで事前

Gemma （ジェマ）

GemmaはGoogleが開発した効率的なLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。テキスト生成やコード作成に優れ、多言語対応。オープンソースでローカル導入可能で、研究・産業用途に適した実用性が特徴。

LLM （エルエルエム）

LLM（Large Language Model）は、膨大なテキストデータを学習し、自然な文章生成や質問応答を可能にするAIモデルです。ローカル環境で実行可能で、プライバシー保護やオフライン利用が可能ですが、モデルサイズや計算リソースに制限がある場合があります。

Llama （ラマ）

Llamaはメタが開発したオープンソースのLLMシリーズ（Llama1～3）。多言語対応で、自然言語処理タスクに幅広く利用可能。ローカル環境での導入が容易で、Hugging Faceなどでのコミュニティサポートが充実。学

Mistral （ミストラル）

Mistralは、フランスのMistral AIが開発した大規模言語モデルシリーズ（例：Mistral-7B

Phi （ファイ）

Phiはマイクロソフトが開発した軽量なLLMシリーズで、少ないパラメータ数ながら高精度なコード生成や論理的推論を実現。ローカル環境でも効率よく動作し、軽量モデルの実装例として注目。特に、開発者向けのツール連携や低リソースでの利用に適している。

Qwen （チェン）

Qwenはアリババクラウドが開発した大規模言語モデルで、多言語対応の会話、文章作成、プログラミングなど幅広いタスクを処理可能。企業向けの最適化も行われており、ローカル環境での導入やカスタマイズが可能。オープンソース版も提供されており

SLM （エスエルエム）

SLM（Small Language Model）は、パラメータ数が少なく、特定のタスクやリソース制限

Transformer （トランスフォーマー）

ファインチューニング（ふぁいんちゅーにんぐ）

ファインチューニングは、既存のLLMを特定のタスクやドメインに最適化するための微調整手法です。ローカルユーザー向けには、計算リソースを節約しながら、自社データでモデルをカスタマイズ可能にし、精度向上や専門分野への適応を実現します。

📖 量子化・最適化

AWQ （エーダブリューキュー）

EXL2 （イーエックスエルツー）

EXL2は、LLM

FP16 （エフピーじゅうろく）

FP16（16ビット浮動小数点数）は、計算精度を半分に抑えることでメモリ使用量と演算速度を向上させる技術です。ローカルLLMでは、GPUメモリの制限に対応し、高速な推論を実現しますが、精度低下のリスクがあります。混合精度トレー

GGUF （ジージーユーエフ）

GGUFは、LLMの量子化・最適化に用いられるフォーマットで、モデルサイズを圧縮し、推論速度を向上させます。ローカル環境では、メモリ効率が高く、GPUやCPUでの実行が容易です。量子化レベル（例：Q2

GPTQ （ジーピーティーキュー）

INT4 （イントよん）

INT4は、4ビット整数を用いた量子化技術で、モデルのサイズを大幅に削減し、推論速度を向上させます。ただし、精度の低下が生じるため、性能と

INT8 （イントはち）

KVキャッシュ（けーぶいきゃっしゅ）

量子化（りょうしか）

量子化は、モデルの精度を下げずに計算量やメモリ使用量を削減する技術です。例として、32ビット浮動小数点を8ビット整数に変換し、推論速度を向上させます。ただし、過剰な量子化は精度低下を招くため、適切なスケーリングが重要です。ローカルLLMでは、軽量化と性能のバランスを取る実践的な手法です。

📖 推論エンジン

ExLlamaV2 （イーエックスラマブイツー）

LM Studio （エルエムスタジオ）

LM Studioは、ローカルで大規模言語モデル（LLM）を実行するための推論エンジン。GPU加速や複数モデル対応、カスタマイズ可能なインターフェースを提供し、開発者向けに最適化されたオープンソースツール。ローカル環境での高速推論と柔軟な設定が特徴で、研究やプロトタイピングに適している。

LocalAI （ローカルエーアイ）

Ollama （オラマ）

Ollamaは、ローカルで大規模言語モデル（LLM）を効率的に実行できる推論エンジン。モデルのロードやリソース管理を自動化し、GPU利用を最適化。シンプルなAPIと軽量な設計で、開発者向けに迅速なデプロイを実現。コミュニティモデルのサポートも充

Text Generation Inference （てきすとじぇねれーしょんいんふぁれんす）

**Text Generation Inference**は、LLMが入力に基づいてテキストを生成する推論プロセスです。ローカル環境では、TensorRTやHugging Face Transformersなどのエンジンが高速化を実現。量子化やモデル圧縮により、GPUメモリ効率を高め

llama.cpp （ラマシーピーピー）

llama.cppは、LLaMAモデルをC/C++で実装した推論エンジンで、CPUでの高速推論を実現。GPUサポートもあり、ローカル環境での軽量なモデル実行に適し、オープンソースで入手可能。少ないリソースでも大規模

vLLM （ブイエルエルエム）

vLLMは、大規模言語モデルの推論を高速化するオープンソースのエンジンで、メモリ効率化と並列処理技術により、ローカル環境でも高パフォーマンスを実現。GPUのリソースを最適に活用し、低レイテンシーな

📖 画像生成

ComfyUI （コンフィユーアイ）

ComfyUIは、Stable Diffusionを視覚的に操作できるノードベースのインターフェース。ローカルユーザー向けに、コード不要で複雑なワークフローを構築可能。モデルのカスタマイズや拡張性に優れ、GPU利用効率も高い。AIアート制作

ControlNet （コントロールネット）

ControlNetは、画像生成モデル（例：Stable Diffusion）に「条件付き入力」（例：輪郭、ポーズ）を追加し、生成結果を制御する技術。ローカルLLMユーザー向けには、Hugging FaceやPyTorchで実装可能な拡張機能として活用可能。精度と柔軟性を両立させた制御を実現。

Flux （フラックス）

LoRA （ローラ）

LoRA（Low-Rank Adaptation）は、大規模

SDXL （エスディーエックスエル）

Stable Diffusion （ステーブルディフュージョン）

Stable Diffusionは、Stability AIが開発したオープンソースのテキストから画像を生成するモデルです。拡散過程により、ノイズから段階的に画像を生成し、高品質な結果を出力します。ローカル環境でも実行可能で、アート制作やデザインなど幅広い用途に活用されています。

VAE （ブイエーイー）

📖 ハードウェア

CUDA （クーダ）

CUDAはNVIDIAが提供するGPU向け並列計算プラットフォームで、LLMのトレーニングや推論を高速化します。GPUの計算リソースを効率的に活用し、複数のCUDAコアを並列処理で駆使します。PyTorchやTensorFlowなどフレームワークと連携し、高速なモデル処理を実現します。

NPU （エヌピーユー）

NPU（Neural Processing Unit）は、

Tensor Core （テンサーコア）

Tensor CoreはNVIDIA GPUに搭載された専用ハードウェアで、行列演算を高速化する。LLMのトレーニングや推論における行列乗算（例：注意機構）を効率的に処理し、性能を向上させる。CUDAを活用し、混合精度計算をサポートし、電力効率も改善。ローカルLLMユーザーは、Tensor

VRAM （ブイラム）

VRAM（ビデオRAM）は、GPUが画像処理やモデル計算時に使用する専用メモリ。LLMユーザーには、モデルの精度や処理速度に直結。容量が大きいほど大規模モデルを効率的に実行可能。不足時はモデルのスケーリングや量子化が必要になる。GPUのVRAM容量を確認し、適切なモデル選定が重要。

eGPU （イージーピーユー）

eGPU（外部グラフィックプロセッサ）は、ThunderboltやUSB-C経由で接続する外部GPU装置で、ノートPCなどに高性能なGPUを追

📖 開発ツール

RAG （ラグ）

RAG（Retrieval-Augmented Generation）は、検索エンジンとLLMを組み合わせた技術で、外部データをリアルタイムに検索・統合し、正確な回答を生成します。ローカルLLMユーザーには、知識ベースの拡張や最新情報の反映に最適で、トレーニング不要で柔軟な応用が可能です。

エンベディング（えんべでぃんぐ）

エンベディングは、テキストを意味を含む数値ベクトルに変換する技術です。LLMでは、類似性検索やクラスタリングに活用され、ローカル環境ではHugging FaceのモデルやFAISSを組み合わせて効率的な処理が可能です。実装時はベクトル次元や精度を調整し、用途に最適化することが重要です。

プロンプトエンジニアリング（ぷろんぷとえんじにありんぐ）

プロンプトエンジニアリングは、LLMに最適な入力（プロンプト）を設計する技術です。明確な指示や例の提示、役割の定義などにより、モデルの出力精度を向上させます。ローカルLLMユーザー向けには、計算リソースを活用しつつ、タスクに応じたプロンプト構造を工夫し、効率的な結果を得るための実践的なアプローチです。

ベクトルストア（べくとるすとあ）

ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するツールです。LLMの出力や検索クエリをベクトル化し、類似

📖 フレームワーク

LangChain （ラングチェーン）

LangChainは、LLMを活用したアプリケーション開発を支援するフレームワーク。プロンプト管理、ベクトルデータベース連携、RAGツールなど、ローカルLLMユーザー向けにモジュール化された構成を提供。ローカル環境での柔軟な拡張性と実装の簡易性を重視し、開発効率を向上させます。

LlamaIndex （ラマインデックス）

LlamaIndexは、LLMを活用したアプリケーション構築を支援するフレームワークです。データのインデックス作成、クエリ処理、知識ベース構築を簡易化し、ローカルLLMとの連携をスムーズにします。実装の柔軟性と拡張性を重視し、ユーザーが自社のLLMを効率的に活用できるように設計されています。

📖 コンセプト

Top-P （トップピー）

Top-P（核サンプリング）は、確率の累積値がPを超えるトークンのみを候補に選ぶ手法。Top-Kより柔軟で、Pを小さくすると出力が集中し、大きくすると多様性が増す。ローカルLLMユーザーは

コンテキスト長（こんてきすとちょう）

コンテキスト長は、LLMが一度に処理可能なトークン数の上限を指します。ローカル環境では、長すぎるコンテキストはメモリ制限により処理不能になるため、入力テキストを適切に分割する必要があります。また、モデルの性能に影響を与えるため、タスクに応じた最適な長さの設定が重要です。

トークン（とーくん）

トークンは、LLMが処理する最小

ハルシネーション（はるしねーしょん）

ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。事実誤認や虚偽情報を含む出力が生じるため、信頼性が低下。ローカルユーザーは出力内容を常に確認し、信頼できる情報源と照合する習慣をつけるべき。

バッチ処理（ばっちしょり）

バッチ処理は、複数のデータを一度に処理する方法で、効率性を重視します。ローカルLLMでは、大量のデータ

推論（すいろん）

推論（インフェレンス）は、学習済みモデルに新しい入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率（推論速度・メモリ使用量）や、量子化・モデル圧縮技術による最適化が重要です。実際の応用（チャットボ