このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer
Gemma (ジェマ)
GemmaはGoogleが開発した効率的なLLMシリーズで、Gemma-2B/7Bなどサイズごとに最適化。多言語対応で、テキスト生成やコード作成に強し。オープンソースでローカル実行可能。軽量ながら高精度を実現し、研究・実用シーンで活用可能。
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータで訓練された高パラメータ数を持つ言語モデルで、自然言語理解・生成を可能にします。ローカル環境での利用では、GPUメモリ対応や推論最適化(例:quantization)が実践的です。応用例はQA、文章生成、コード補完など多岐にわたります。
Llama (ラマ)
Llamaはメタが開発したオープンソースのLLMシリーズ(Llama1~Llama3)。大規模なテキストデータで訓練
Mistral (ミストラル)
Mistralは、フランスのMistral AIが開発したオープンソースLLMシリーズ。Mistral
Phi (ファイ)
Phiはマイクロソフトが開発した効率的なLLMシリーズ(Phi-1/2/3)。パラメータ数が少ないにもかかわらず、精度が高く、チャットボットやコード生成に適する。ローカル実行向けに最適化されており、軽量な環境でも高性能を発揮する。
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルシリーズで、多言語対応・コード生成・会話
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを効率的に利用できるLLMの一種
Transformer (トランスフォーマー)
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクやドメインに特化したデータで追加学習し、性能を向上させる手法です。ローカルユーザー向けには、少ないデータでモデルをカスタマイズでき、計算リソースを効率的に活用できます。実践では、タスクに最適な微調整手法(例:LoRA
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
GGUF (ジージーユーエフ)
GGUF(General GPU Format)は、LLMの量子化モデルを効率的に保存・運用するためのファイル形式。4bit/8bitなど低精度化した重みを格納し、推論速度向上とメモリ削減を実現。ローカルユーザー向けに、llama.cppなどと連携
GPTQ (ジーピーティーキュー)
GPTQは、モデルの重みをグループごとに量子化する技術で、精度を維持しつつモデルサイズを削減します。ローカルLLMユーザーには、GPUメモリの制約下でも大規模モデルを効率的に実行できる利点があります。Hugging Faceなどと
INT4 (イントよん)
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
量子化 (りょうしか)
量子化は、モデルの重みやアクティベーションの精度を下げて計算量やメモリ使用量を削減する最適化技術です。例として、32ビット浮動小数点を8ビット整数に変
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、ローカルGPUで大規模LLMを効率的に推論するためのエンジン。メモリ最適化と量子化サポートにより、高精度な推論を低スペックハードウェアでも実現。ユーザーは軽量な設定で複数モデルを柔軟に実行可能。
LM Studio (エルエムスタジオ)
LM Studioは、ローカル環境でLLMを実行するための推論エンジン。複数モデルのサポート、GPU加速、メモリ最適化を備え、開発者向けに簡易なUIでモデルのテストやカスタマイズを可能にします。クラウド依存なしで高精度な推論を実現し、研究やプロトタイピングに最適です。(198字)
LocalAI (ローカルエーアイ)
LocalAIは、ローカル環境でLLMを実行するための推論エンジン。クラウドに依存せず、プライバシー保護と低遅延を実現。GPU利用やモデル最適化をサポートし、ユーザーが自社のハードウェアで柔軟に推論を実施可能。設定やリソース管理の簡易性が特徴。
Ollama (オラマ)
Ollamaは、ローカルで大規模言語モデル(LLM)を効率的に実行する推論エンジン。モデルのホスティングやAPI経由の推論をサポートし、Llamaシリーズを含む複数モデルに対応。軽量で高速な処理が可能で、プライバシー保護やコスト削減を目的としたユーザーに適したツール。
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
「Text Generation Inference」は、LLMが入力プロンプトからテキストを生成する推論プロセスを指します。ローカル環境では、モデルの軽量化(例:Quantization)や効率的なバッチ処理を活用し、リアルタイム性とリソース消費の
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAモデルをCPUで効率的に推論するためのC++ベースのエンジン。GGMLライブラリを活用し、量子化(例:Q
vLLM (ブイエルエルエム)
vLLMは、大規模言語モデル(LLM)の推
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを操作するためのノードベースのインターフェースで、柔軟なワークフロー構
ControlNet (コントロールネット)
ControlNetは、拡散モデルにおいて画像生成を制御する
Flux (フラックス)
LoRA (ローラ)
SDXL (エスディーエックスエル)
SDXL(Stable Diffusion XL)は、高解像度かつ詳細な画像
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成する拡散モデル。ノイズを徐々に除去するプロセスで画像を生成し、オープンソースなためローカル環境でも利用可能。高品質な画像生成と柔軟なカスタマイズが特徴で、アート制作やプロトタイピングに広く活用されている。
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供する並列計算用のプラットフォームとAPIで、GPUの計算能力を活用して高速な処理を実現します。ローカルLLMユーザー向けには、NVIDIA GPU上でモデルのトレーニングや推論を効率化するための基盤技術として重要です。CUDAの利用により、GPUの並列性を最大限に引き出し、性能を向上させることができます。
NPU (エヌピーユー)
NPU(Neural Processing Unit)は、AI処理を最適化した専用ハードウェアで、行列演算やテンソル計算を高速に実行。ローカル
Tensor Core (テンサーコア)
Tensor CoreはNVIDIA GPUに搭載された専用演算ユニットで、行列演算を高速化し、深層学習やLL
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUが画像処理や機械学習を効率的に行うために使用する専用メモリ。ローカルLLMユーザーでは、モデルパラメータやバッチサイズを大きくする際、VRAM容量が性能に直結。不足すると計算が遅く、メモリエラーを引き起こす可能性
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、外部データベースから情報を検索し、LLMに統合して回答を生成する技術。ローカルLLMユーザーには、モデルの知識を拡張し、最新データや専門情報に基づいた回答を実現する実用的な手段として有効。効率的な知識統合が可能で、再訓練不要な柔軟性が特
エンベディング (えんべでぃんぐ)
エンベディングは、テキストやデータを意味を含む数値ベクトルに変換する技術
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに正確な出力を得るために、入力文(プロンプト)の構造や表現を最適化する技術です。具体的には、質問の明確化、指示の詳細化、例示の追加などを行い、モデルの理解を促進します。ローカルLLMユーザー向けには、反復的なテストと調整を通じて、最適なプロンプト設計を実践することが重要です。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するデータベースです。ローカルLLMユーザーは、類似性検索やセマンティック検索を実現するために、FAISSやPineconeなどの技術を活用します。ストレージ効率とクエリ性能を重視し、アプリケーション開発に最
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワーク。プロンプト、モデル、メモリのモジュール化や、データ処理・チェーン実行ツールを提供。ローカル環境でのモデルデプロイやファインチューニングを簡易化し、実用的なワークフロー構築を可能にします。
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMとデータソースを連携させるためのフレームワークで、データのインジェスト・インデックス作成・クエリ処理を簡易化します。ローカルLLMユーザー向けに、データベースやドキュメントを効率的に統合し、RAG(Retrieval-Augmented Generation)を実現するためのモジュールを提供します。
📖 コンセプト
Top-P (トップピー)
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能なトークン数を指します。長さが大きいほど、長文や複雑なタスクに対応可能ですが、メモリや計算リソースを多く消費します。ローカル環境では、ハードウェア制限に注意し、不要
トークン (とーくん)
トークンは、LLMが処理する最小単位で、文字・語・サブワードなどに分類されます。モデルの入力長さや処理精度に直結し、トークン数制
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。誤った事実や架空の内容を出力し、信頼性を損なう。ローカルLLMユーザーは、出力内容を常に
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一度に処理する方法で、効率性を重視します。ローカルLLMユーザー向けに、GPUメモリの有効活用や処理速度の向上に役立ちます。特に大規模データの学
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルに新しい入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(推論速度・メモリ使用量)を最適化する技術(例:量子化、モデル
温度 (おんど)
温度は、LLMの出力確率分布を調整するパラメータです。値が低いほど確率が高いトークンを選びやすく、出力が安定します。高いほど確率が低いトークンも選ばれ、多様性が増します。

コメント