このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模言語モデル(LLM)のシリーズで、Transformerアーキテクチャに基づく生成型モデルです。ローカルLLMユーザー向けには、GPTは商用利用に制限があるため、LLaMAやMistral
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2など複数のバージョンが存在。小規模なタスクから複雑な推論まで対応し、効率性と性能を両立。ローカル環境での導入が容易で、研究や実用アプリケーションに適した汎用性が特
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータで訓練された高パラメータ数を持つ言語モデルです。自然言語理解・生成を可能にし、質問応答や文章生成などに活用されます。ローカル環境での利用では、計算リソースの最適化やモデルの軽量化が実践的です。
Llama (ラマ)
LlamaはMetaが開発したオープンソース
Mistral (ミストラル)
Mistralは、フランスのMistral AIが開発したオープンソースのLLMシリーズ(例:Mistral-7B)。軽量かつ高精度な特徴から、ローカル環境での実行が容易で、中小企業や個人ユーザーにも適したモデル。ライセンスの柔軟性とパフォーマンスのバランスが強み。
Phi (ファイ)
Phiはマイクロソフトが開発した軽量LLMシリーズ(Phi-1/Phi-2/Phi-3)。パラメータ数が少ないにもかかわらず、効率的な推論と高精度な性能を実現。ローカル環境でも低リソースで動作し、チャットボットや特定タスク向けに最適化されている。
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルシリーズで、多言語対応・幅広いタスク処理能力を備える。ローカルユーザー向けには、自社サーバーでのデプロイやAPI利用が可能で、カスタマイズ性が高く、企業向けのアプリケーション開発や研究用途に適している。
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少ないLLMで、計算コストが低く、軽量なデバイスや特定タスクに適したモデルです。ローカル環境では、リアルタイム処理やリソース制限下での導入に有効で、精度と効率のバランスを重視するケースに適します。
Transformer (トランスフォーマー)
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクに最適化されたパラメータを追加学習する手法です。少量のターゲットデータで高精度化が可能で、計算リソースの効率的な利用が可能です。ローカル環境では、モデルの用途に応じ
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
FP16は16ビット浮動小数点形式で、FP32に比べてメモリ使用量を半分に抑え、計算速度
GGUF (ジージーユーエフ)
GPTQ (ジーピーティーキュー)
GPTQは、大規模言語モデル(GPT系)を効率的に実行するための量子化技術。重みをグループごとに量子化し、モデルサイズを削減しつつ精度を維持。ローカル環境では
INT4 (イントよん)
INT4は、モデルの重みを4ビット整数に変換する量子化手法で、モデルサイズを大幅に削減し、推論速度を向上
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
KVキャッシュは、Transformerモデルの推論時に過去のAttentionキー・値を一
量子化 (りょうしか)
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、ローカル環境で大規模LLMを効率的に推論するためのエンジン。量子化技術とメモリ最適化により、GPU性能を活かしつつ高精度推論を実現。ユーザーは専用ハードウェアを必要とせず、PCでも高速かつ安定した推論が可能。モデルの柔軟な展開性が特徴。
LM Studio (エルエムスタジオ)
LM Studioは、ローカル環境でLLMを実行するための推論エンジン。GPU加速やモデル量子化をサポートし、軽量なUIでモデルの読み込み・推論を簡易化。複数のLLMフォーマットに対応し、ユーザーが自前のハードウェアで高精度な推論を効率的に行えるように設計されている。
LocalAI (ローカルエーアイ)
Ollama (オラマ)
Ollamaは、ローカルで大規模言語モデル(LLM)を実行できる推論エンジン。軽量で高速な推論を実現し、データプライバシー保護や低遅延が可能。複数モデルのサポートと
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
**Text Generation Inference**は、トレーニング済みLLMが推論時にテキストを生成するプロセスを指します。推論エンジンとして、効率的な計算やメモリ管理を実現し、ローカル環境でも高速な応答を可能にします。ユーザーは、モデルの最適化(例:量子化)やバッチ処理の設定を通じて
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAモデルをC++で実装した推論エンジンで、CPUでの
vLLM (ブイエルエルエム)
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを視覚的に操作できるノードベースのインターフェース。ユーザーはノードを接続してワークフローを構築し、画像生成のプロセスを柔軟にカスタマイズ可能。ローカル環境で高精度な制御を実現し、拡張性に優れたオープンソースツールとして注目されている。
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable Diffusion)に「制御信号」(エッジ、ポーズ、
Flux (フラックス)
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルの微調整を効率化する
SDXL (エスディーエックスエル)
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成するオープンソースモデル。拡散過程を用いて高品質な画像を生成し、ローカル環境でも実行可能。GPUとVRAMの要件が高く、低解像度設定で軽減できる。ユーザーはプロンプト調整やモデルファインチューニングで最適化が可能。
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供する並列計算用のプラットフォームとAPIで、GPUの計算能力を活用して高速な処理を実現します。ローカルLLMユーザー向けには、NVIDIA GPU上でモデルのトレーニングや推論を効率化するための基盤技術として重要です。CUDAの利用により、GPUの並列性を最大限に引き出し、パフォーマンスを向上させられます。
NPU (エヌピーユー)
NPU(Neural Processing Unit)は、AI計算を効率化する専用チップ。機械学習や深層学習の行列演算を高速に処理し、ローカルLLMユーザーでは、GPU
Tensor Core (テンサーコア)
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載される専用メモリで、モデルの重みや計算中のデータを一時的に保存します。ローカルLLMでは、VRAM容量がモデルサイズやバッチサイズに直接影響し、不足すると性能低下やエラーを引き起こします。効率的な運用には、混合
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、外部データベースから情報を検索し、LLMに統合して生成精度を向上させる技術。ローカルLLMユーザー向けに、トレーニング不要で最新データを活用可能。検索エンジンと生成モデルを組み合わせ、効率的な知識拡張が可能。実装にはベクトルデータベースが有効。
エンベディング (えんべでぃんぐ)
エンベディングは、テキストやデータを数値ベクトルに変換し、意味を数値で表現する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、モデルの入力処理を効率化します。Hugging FaceのTransformerライブラリなどで実装され、ユーザーはベクトル空間での計算を簡易に実現できます。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力文(プロンプト)を設計し、応答品質を向上させる技術です。具体的には、例示・構造化・反復テストを通じて、タスクに応じた効果的な指示文を構築します。ローカルLLMユーザー向けには、プロンプトのバリエーションを試行錯誤し、結果を比較・改善する実践的なア
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMアプリケーション開発を支援するフレームワークで、プロンプト・モデル・メモリのモジュール化やデータ処理ツールを提供。ローカルLLMとの連携を簡易化し、チェーン構築やカスタマイズを効率化します。実装の柔軟性とワークフローの最適化が特徴です。
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMとデータを連携させるためのフレームワークで、ドキュメントのインデックス作成・検索・クエリ処理を支援します。ローカルLLMユーザー向けに、ベクトルストレージとの統合や、データの構造化・検索最適化を簡易に実装できる点が特徴です。オープンソースで、アプリケーション開発の効率化に
📖 コンセプト
Top-P (トップピー)
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能なトークン数を指します。ローカルLLMユーザーは、この制限内で入力や生成を行う必要があります。長さが長いほど、複雑なタスク(例:長文要約、多ターン会話)に対応可能ですが、メモリ使用量や処理速度に影響を与えるため、最適なバランスを取ることが重要です。
トークン (とーくん)
トークンは、LLMがテキストを処理する際の基本単位。単語、サブワード、記号などを含む。トークナイズ(分割)方法(例:BPE)により
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を誤って生成する現象です。ユーザーは出力内容を常に確認し、信頼性を確保する必要があります。対策として、出力の検証ツールの活用や、訓練データの質向上が有効です。
バッチ処理 (ばっちしょり)
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルが新しい入力データから予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(推論速度・メモリ使用量)を最適化する技術(例:量子化、モデル圧縮)が重要です。実際の応用では、チャットボットやデータ解析などで即
温度 (おんど)
温度は、LLMの出力確率分布を調整するパラメータ。低温度では確率分布


コメント