このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模言語モデルシリーズ。Transformerアーキテクチャを基盤とし、大量のテキストデータで事前学習した後、特定タスクに微調整される。自然言語生成や理解に優れ、多様なNLPタスクで高精度
Gemma (ジェマ)
GemmaはGoogleが開発したLLMモデルシリーズで、Gemma-2B/7Bなどサイズごとに最適化され、効率性と性能を両立。多言語対応・コード生成・推論機能を備え、研究・商用用途に幅広く利用可能。ローカル環境でも軽量な実行が可能で、オープンソースとして入手可能。
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータで訓練された大規模言語モデルで、自然言語理解・生成を可能にします。ローカル環境での利用では、パラメータ規模や訓練データの質が性能に直結し、推論速度やメモリ制限が実装の課題となります。
Llama (ラマ)
LlamaはMetaが開発したオープンソースのLLMシリーズ(Llama1~3)。多言語
Mistral (ミストラル)
Mistralは、フランスのMistral AIが開発したオープンソースのLLMシリーズ(例:Mistral-7B)。軽量で高精度な特徴から、ローカル環境での実装に適し、GPU要件が低い。多言語対応と幅広いタスク処理能力が強み。研究・商用利用に活用可能。
Phi (ファイ)
Phiはマイクロソフトが開発した効率的なLLMシリーズ(Phi-1/2/3)。パラメータ数が少ないにもかかわらず、高精度なタスク処理
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、多言語対応・コード生成・会話理解など幅広いタスクを処理可能です。ローカル環境での導入も可能で、カスタマイズ性が高く、実務での活用が期待されます。
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少ないLLMで、計算コストが低く、推論速度が速いのが特徴。ローカル環境やエッジデバイスでの実装に適し、特定タスク向けに最適化されることが多い。
Transformer (トランスフォーマー)
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクやドメインのデータで追加学習し、性能を最適化する手法です。ローカルユーザー向けには、計算リソースを節約しながらも、自社データに合わせたカスタマイズが可能で、過学習を防ぐための適切なデータ選定が重要です。
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
FP16は16ビット浮動小数点形式で、FP32よりメモリ使用量と計算速度を約半分に抑えることができます。ただし
GGUF (ジージーユーエフ)
GPTQ (ジーピーティーキュー)
GPTQ(Group-wise Quantization)は、モデルの重みをグループ単位で量子化し、精度を維持しながらモデルサイズを削減する技術。ローカルLLMユーザーには、軽量化と推論速度向上が実現でき、大規模モデルの効率的なデプロイに適している。PyTorchなどと互換性があり、実装が比較的容易。
INT4 (イントよん)
INT4は、4ビット整数を用いた
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
KVキャッシュは、Transformerモデルの注意機構で過去のキー・値を一時的に保存するメモリ領域。生成時、再計算を避け効率化。ローカルLLMでは、メ
量子化 (りょうしか)
量子化は、モデルの重みやアクティベーションの精度を下げて計算効率を向上させる技術です。例として、32ビット浮動小数点を8ビット整数に変換し、モデルサイズを縮小・推論速度を向上させます。ただし、精度の低下が生じるため、トレードオフがあります
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、GPU
LM Studio (エルエムスタジオ)
LM Studioは、ローカルでLLMを実行するための推論エンジン。GPU加速や複数モデルサポート、直感的なUIを備え、カスタマイズ性が高く、プライバシー保護とコスト削減を目的としたオンプレミス利用に最適です。
LocalAI (ローカルエーアイ)
Ollama (オラマ)
Ollamaは、ローカル環境で大規模言語モデル(LLM)を効率的に実行できる推論エンジン。ユーザーが自前のハードウェアでモデルを動作させ、API経由で簡単に利用可能にし、クラウド依存を回避する。複数モデルのサポートと軽量性が特
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
**Text Generation Inference**は、LLMがテキストを生成する際の推論処理を最適化するエンジンです。ローカルユーザー向けには、高速な応答や低リソース消費を実現するため、量子化やモデル圧縮技術
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAモデルをC++で実装した推論エンジンで、CPUでの高速推論を可能にします。量子化技術(4bit/8
vLLM (ブイエルエルエム)
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを視覚的に操作できるノードベースのインターフェース。ローカルユーザー向けに、ワークフローの柔軟な構成やカスタマイズが可能で、プロセスの各ステップを個別に調整できる。コード知識不要で高精度な画像生成が実現し、コミュニティで
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable Diffusion)に「制御信号」(エッジ、ポーズ、セグメンテーションなど)を入力し、生成結果を意図的に調整する技術です。ローカルLLMユーザー向けには、ControlNetを組み合わせることで、特定の構造やスタイルを保った高精度な画像生成が可能となり、アート作成やデザイン支援に実用的です。
Flux (フラックス)
Fluxは、画像生成モデルの一種で、Black Forest
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルを効率的に微調整する技術で、画像生成では「低ランク行列」を追加してパラメータの調整範囲を限定します。これにより、計算リソースを抑えつつ特定のタ
SDXL (エスディーエックスエル)
SDXL(Stable Diffusion XL)は、Stability AIが開発した高解像度画像生成モデル。従来のStable Diffusionより詳細な質感や複雑な構図を再現し、ローカル環境でも高品質な出力を実現。ユーザーはカスタムトレーニングやリファインにより、特定のスタイルや用途に最適化可能。GPU性能に応じたスケーリングも特
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成するオープンソースモデル。拡散モデルを基盤とし、高品質な画像生成が可能。ローカル環境でも実行可能で、カスタマイズ性が高く、コミュニティで広く利用されている。訓練には潜在空間を活用し、効率的な生成を実現。
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供する並
NPU (エヌピーユー)
Tensor Core (テンサーコア)
Tensor Coreは、NVIDIA GPUに搭載される専用ハードウェアで、行列演算を高速化する。機械学習やLLMのトレーニング・推論で重要な行列乗算を効率的に処理し、性能を飛躍的に向上。特にVolta以降のアーキテク
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載された専用メモリで、画像処理や機械学習モデルの計算に使用されます。ローカルLLMユーザーにとって、モデルのサイズやバッチ処理能力に直結し、VRAM不足では性能低下やエラーが発生します。モデルの最適化(例:量子化)や、VRAM
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索エンジンとLLMを組み合わせて、外部データをリアルタイムに参照しながら回答を生成する技術。ローカルLLMユーザーには、トレーニングデータにない最新情報や専門知識を活用するための実用的な手段として有効。ドキュメントやデータベースから関連情報を検索し、その結果をもとに生成を補
エンベディング (えんべでぃんぐ)
エンベディングは、テキストを意味を含む数値ベクトルに変換する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、自然言語を機械が処理可能な形式に変換します。Hugging Faceなどのライブラリで生成され、モデルの精度向上や効率化に貢献します。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力指令(プロンプト)を設計・最適化する技術です。具体的には、例示や構造化された指示、反復的な調整を通じて、モデルの出力精度や効率を向上させます。ローカルLLMユーザー向けには、タスクに応じたプロンプトのテンプレート作成や、結果のフィードバックによる微調整が実践的です
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換して保存・検索するデータベースです。LLMの出力(埋め込みベクトル)を効率的に管理し、類似性検索や検索拡張に活用されます。ローカル環境では、FAISSやMilvusなどのオープンソースツールで構築
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワークで、
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMを活用したアプリケーション開発を支援するフレームワークで、データのインデックス作成・クエリ処理を簡易化します。ローカル環境でも動作し、ドキュメントやデータベースとの連携をスムーズに実現。RAG(Retrieval-Augmented Generation)を含む柔軟なアーキテクチャが特徴です。
📖 コンセプト
Top-P (トップピー)
Top-P(核サンプリング)は、
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能な入力トークン数を指します。ローカルユーザー向けには、長文処理や複雑なタスクに適応するための指標で、モデルの性能やメモリ使用量に直結します。設定値が大きいほど、長文の理解や連続的な会話が可能になりますが、ハードウェア制限に注意が必要です。
トークン (とーくん)
トークンは、テキストをモデルが処理可能な単位に分割した要素(単語・サブワード・記号など)。LLMでは、トークナイズ(分かち書き)によって入力がトークン列に変換され、各トークンが数値ベクトルにエンコードされる。トークン
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。誤った事実や架空の情報を出力するため、信頼性が低下します。ローカルLLMユーザーは、出力内容を常に確認し、信頼できる情報源と照らし合わせることでリスクを軽減しましょう。
バッチ処理 (ばっちしょり)
バッチ処理は、データを一括で処理する方法で、効率的なリソース管理を可能にします。ローカルLLMでは、大量のデータを一度に処理することで、GPU/TPUの利用率を向上させ、学習や推論のパフォーマンスを最適化します。バッチサイズの
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルに新たな入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(例:量子化、最適化技術)やハードウェアリソースの最適利用が重要です。訓練とは異なり
温度 (おんど)
温度は、LLMの出力のランダム性を調整するパラメータ。値が低いほど確率が高いトークンを選び、出力が確定的になる。高いほど多様性が増し、


コメント