このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模言語モデルシリーズ。Transformerアーキテクチャを基盤とし、大量のテキストデータで事前学習し、微調整により特定タスクに最適化されます。文章生成や翻訳など多様な応用が可能
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2など複数のバージョンが存在。小規模から大規模まで対応し、効率的な推論性能と多様なタスク処理能力を備える。ローカル環境での導入が
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なパラメータ数と多様な訓練データを用いて、自然言語処理タスクに優れた性能を発揮するAIモデル。ローカル環境での利用では、GPU/TPUの性能やメモリ容量に注意し、モデルの軽量化や最適化技術(例:量化、カスタム訓練)を活用して効率的な運用が求められる。
Llama (ラマ)
Llamaはメタが開発したオープンソースのLLMシリーズ(Llama1~3)。大規模なテキストデータで訓練され、多言語対応・コード生成など幅広いタスクに対応。ロー
Mistral (ミストラル)
Mistralは、フランスのMistral AIが開発した大規模言語モデルシリーズ。Mistral-7Bなど、効率的で高パフォーマンスなモデルが特徴。オープンソースで、研究・実用シーンで幅広く利用可能。軽量ながら多言語対応や複雑なタスク処理
Phi (ファイ)
Phiはマイクロソフトが開発した効率的なLLMシリーズ(Phi-1/2/3)。パラメータ数が少ないにもかかわらず、タスク性能が高く、ローカル環境でも軽量で実用可能。特にチャットボットや特定タスク向けに最適化されており、リソース制約下での導入に適
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、多言語対応(日本語含む)の文生成・質問応答・コード作成を可能にします。ローカル環境での導入が容易で、チャットボットやコンテンツ生成など幅広い用途に適しています。高精度な推論と効率的なリソース利用が特徴です。
SLM (エスエルエム)
Transformer (トランスフォーマー)
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクやドメインのデータで追加学習し、性能を最適化する手法です。ローカルユーザー向けには、計算リソースを節約しながらモデルをカスタマイズでき、実用性が高まります。例:企業の内部データでモデルを調整し、専門的な応答を実現します。
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
FP16(16ビット浮
GGUF (ジージーユーエフ)
GPTQ (ジーピーティーキュー)
G
INT4 (イントよん)
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
KVキャッシュは、Transformerモデルの注意機構で、過去のキー(Key)と値(Value)を一時的に保存するメモリ領域。生成時に逐次計算を避けて効率化し、特にローカル環境ではメモリ使用量を抑
量子化 (りょうしか)
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
LM Studio (エルエムスタジオ)
LM Studioは、ローカル環境でLLMを実行するための推論エンジン。GPU加速やモデル量子化をサポートし、ユーザーが自社のハードウェアでモデルを実行・カスタマイズ可能。UIが整っており、開発者向けに柔軟
LocalAI (ローカルエーアイ)
LocalAIは、ユーザー端末上で動作する推論エンジンで、インターネット接続不要なローカル推論を実現します。プライバシー保護と低遅延が特徴で
Ollama (オラマ)
Ollamaは、ローカルでLLMを効率的に推論するためのエンジン。モデルのホスティングやGPU最適化、軽量化(量子化)をサポートし、開発者向けに簡易なAPIを提供。クラウド依存を避けてオンプレミスでの導入が可能で、実用性が高く、特に中小規模な環境
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
Text Generation Inferenceは、LLMが入力テキストから応答を生成する際の推論処理を担当するエンジンです。高速かつ効率的にトークンを生成し、ローカル環境でもリアルタイム対話やコンテンツ生成に活用可能。バッチ処理やカスタムプロンプト対応が実践的
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAモデルをC++で実装した推論エンジンで、CPUやGPU
vLLM (ブイエルエルエム)
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを視覚的に操作できるノードベースのインターフェース。ワークフローをカスタマイズし、パラメータ調整や自動化が可能。ローカル環境で高精度な画像生成を効率化し、ユーザーが柔軟に制御できる点が特徴。オープンソースで拡張性に優れる。
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable Diffusion)に接続して、エッ
Flux (フラックス)
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルを効率的に微調整する技術で、画像生成では予備トレーニングモデルに低ランク行列を追加し、特定タスクに適応させ
SDXL (エスディーエックスエル)
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成する拡散モデル。ノイズを徐々に除去するプロセスで画像を生成し、UNetアーキテクチャを採用。オープンソースでローカル環境でも実行可能で、カスタマイズ性が高く、アーティストや研究者に広く利用されている。
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供するGPU向け並列計算プラットフォームで、GPUの計算能力を活用して機械学習やLLMのトレーニング・推論を高速化します。ローカルLLMユーザーは、CUDAを介してNVIDIA GPUの性能を引き出し、計算効率を向上させられます。CUDA Toolkitのインストールや、PyTorch/TensorFlowなどの
NPU (エヌピーユー)
NPU(Neural Processing Unit)
Tensor Core (テンサーコア)
Tensor CoreはNVIDIA GPUに搭載された専用演算ユニットで、行列計算を高速化します。LLMの推論・学習では、注意機構や埋め込み層の行列演算に活用され、混合
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載された専用メモリで、LLMのモデルパラメータや計算中のデータを一時的に保存します。ローカルLLMユーザーにとって、VRAM容量はモデルサイズやバッチサイズに直接影響し、不足すると性能低下やエラーにつながります。効率的なメモリ管理が重要です。
eGPU (イージーピーユー)
eGPU(外部グラフィックボード)は、Thunderbolt/USB-C経由でPCに接続し、PCIeインターフェースでGPUを搭
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索結果をLLMに組み合わせて回答を生成する技術。ローカルLLMユーザー向けに、外部データベースから最新情報や専門知識を検索し、モデルの回答精度を向上させます。実装ではベクトル検索エンジンとLLM
エンベディング (えんべでぃんぐ)
エンベディングは、テキストやデータを数値ベクトルに変換する技術で、意味や関係性を数値で表現します。LLMでは、類似性検索やクラスタリングに活用され、Hugging Faceなどのツールで生成可能です。ローカル環境では、ベクトルデータベース(例:Faiss)と組み合わせて効率的な検索を実現します。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な出力を引き出すためのプロンプトの設計・最適化技術です。具体的には、明確な指示の記述、例の提示、反復的なテストを通じて、モデルの理解精度や応答品質を向上させます。ローカルLLMユーザーには、タスクに応じたプロンプト構造の工夫が実践的です。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するデータベースです。ローカルLLMユーザー向けには、生成した埋め込み(embedding)を格納し、類似性検索や検索クエリ処理に活用できます。FAISSやPineconeなどのツールが代表的で、大規模
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMアプリケーション開発を支援するフレームワークで、モジュール構成やデータベース連携、プロンプト管理機能を提供。ローカル環境でのモデル統合やカスタマイズを簡易化し、効率的な開発を実現します。
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMを活用したアプリケーション開発を簡易化するフレームワーク。データ処理、検索、アプリケーション構築を統合し、ローカル環境での柔軟なカスタマイズを可能にします。モジュール構成で拡張性に優れ、LLMとの連携を効率的に行えます。
📖 コンセプト
Top-P (トップピー)
Top-P(核サンプリ
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能な入力・出力トークン数の上限を指します。ローカルユーザー向けには、長文処理時にテキストを分割する必要性や、VRAM使用量の影響(長さが大きいほどメモリ消費が増加)を考慮する必要があります。モデルの性能とリソース制限のバランスを取るための重要なパラメータです。
トークン (とーくん)
トークンは、LLMが処理
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝
バッチ処理 (ばっちしょり)
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルに新たな入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(推論速度・メモリ使用量)を最適化する技術(例:量子化、モデル圧縮)が重要です。実際の
温度 (おんど)
温度はテキスト生成時の確率分布を調整するパ

コメント