このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模言語モデルシリーズ。Transformerアーキテクチャを基盤とし、大量のテキストデータで事前学習後、特定タスクに微調整可能。文章生成や質問応答など多様な用途に対応。ローカルLLMユーザー向けには、転移学習による柔軟性や、多言語サポートが
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在します。テキスト生成やコード作成、論理的推論など多様なタスクに対応し、スモールからラージまでサイズが豊富です。ローカル環境での導入が容易で、研究や実用用途に適しています。
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータを学習し、文章生成や翻訳、質問応答など多様なタスクを処理できるAIモデル。ローカル環境で導入することで、プライバシー保護やカスタマイズが可能。推論速度やメモリ使用量を最適化したモデル選択が実践的です。
Llama (ラマ)
LlamaはMetaが開発したオープンソースのLLMシリーズ(Llama1~Llama3)。大規模なテキストデータで訓練され、質問応答やコード生成
Mistral (ミストラル)
Mistralは、フランスのスタートアップMistral AIが開発したLLMシリーズ。Mistral-7Bなど、パラメータ数が少ないながらも性能が高く、オープンソース
Phi (ファイ)
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、会話理解・コード生成・多言語対応に優れ、ローカル環境での展開が可能。最新バージョンはQwen3で、推論効率と精度が向上。開発者向けにコード生成やデータ
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを効率的に利用するLLMの一種です。ローカル環境や端末向けに最適化され、低遅延・低消費電力が特徴。大規模モデルに比べて性能は劣るが、軽量な処理が求められるタスク(例:モバイルアプリ、エッジデバイス)に適しています。
Transformer (トランスフォーマー)
Transformerは、2017年に発表されたLLMの基盤
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクやドメインのデータで追加で学習させ、精度を向上させる手法です。ローカルユーザー向けには、自社のデータに合わせた最適化が可能で、計算リソースを活用してモデルの微調整が実現できます。過学習に注意しつつ、実用性を高める
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
FP16は16ビット浮動小数点形式で、FP32より半分の精度だが、メモリ使用量と計算速度を向上させます。ローカルLLMでは、GPUの性能に応じて推論時に採用され、
GGUF (ジージーユーエフ)
GGUFは、LLMの量子化・最適化に用いられる効率的なファイル形式です。モデルをQ2_Kなどの量子化手法で圧縮し、ストレージ容量を削減しつつ推論速度を維持します。ローカル環境での高速な実行や軽量なデプロイに適し、llama.cppなどと連携して利用可能です。
GPTQ (ジーピーティーキュー)
INT4 (イントよん)
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
量子化 (りょうしか)
量子化は、モデルの重みやアクティベーションの精度を低下させる最適化技術です。たとえば、32ビット浮動小数点を8ビット整数に変換し、モデルサイズを縮小・推論速度を向上させます。ただし、精度の低下や計算誤差のリスクがあります。ローカル
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
LM Studio (エルエムスタジオ)
LM Studioは、ローカルでLLMを実行するための推論エンジンで、複数モデルのサポート、GPU加速、直感的なUIを備えます。オープンソースでカスタマイズ可能で、非技術者も簡単に導入・運用でき、パフォーマンス最適化に特化しています。
LocalAI (ローカルエーアイ)
LocalAIは、ローカル環境でLLMを実行するためのオープンソース推論エンジン。GGUF形式のモデルをサポートし、GPU/CPUを問わず低遅延で動作。クラウド依存を避け、データプライバシーを重視するユーザー向け。軽量な構成でオンプレミスやエッジデバイスでの導入が可能。
Ollama (オラマ)
Ollamaは、ローカルで大規模言語モデル(LLM)を効率的に実行するための推論エンジン。モデルのホスティングやAPI経由の推論を簡易
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
**Text Generation Inference**は、LLMが入力に基づいてテキストを生成するための推論プロセスです。ローカルユーザー向けには、TensorRTやHugging Face Transformersなどのフレームワークで高速化・最適化され、GPU利用やバッチ処理により効率的な生成が可能になります。実践的には、リソース制約下でのスムーズなデプロイが重要です。
llama.cpp (ラマシーピーピー)
vLLM (ブイエルエルエム)
vLLMは、大規模言語モデル(LLM)の推論を高速化するエンジンで、メモリ効率化や並列処理技術を採用。
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを視覚的に操作できるノードベースのインターフェース。複雑なワークフローをコードなしで構築可能で、ローカル環境でのカスタマイズや拡張性に優れる
ControlNet (コントロールネット)
Flux (フラックス)
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルの微調整を効率化する
SDXL (エスディーエックスエル)
SDXL(Stable Diffusion XL)は、高解像度かつ高品質な画像生成を可能にする拡張型のディフュージョンモデルです。従来のバージョンに比べて、より詳細なテキストプロンプトへの対応や、複雑なシーンの再現能力が向上しています。ローカル
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成する拡散モデルで、オープンソースのためローカル環境でも利用可能。拡散過程によりノイズから高品質な画像を生成し、テキストエンコーダーと画像生成ネットワークの2段階構造を採用。
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供する並列計算用のプラットフォームとAPIで、GPUの計算能力を活用してLLMのトレーニングや推論を高速化します。ローカルLLMユーザー向けに、NVIDIA GPUでの高速処理を実現し、cuDNNなどのライブラリと連携して性能を最適化します。
NPU (エヌピーユー)
Tensor Core (テンサーコア)
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載された専用メモリで、LLMのモデルパラメータや計算中のデータを一時的に保存します。ローカルLLMユーザーにとって、VRAM容量はモデルサイズやバッチサイズに直接影響し、不足すると性能低下やエラーにつながります。効率的なメモリ管理(例:混合
eGPU (イージーピーユー)
eGPU(外部グラフィック
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索結果をLLMに組み合わせて回答を生成する技術。ローカルLLMユーザー向けに、外部データベースから関連情報を検索し、モデルの知識不足を補う。実
エンベディング (えんべでぃんぐ)
エンベディングは、テキストやデータを意味を含む数値ベクトルに変換する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、Hugging Faceなどのライブラリで生成可能です。モデルの入力特徴として用いられ、自然言語処理タスクの精度向上に貢献します。(196字)
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力(プロンプト)を設計する技術です。明確な指示や例を組み込み、反復的なテストを通じて精度を向上させます。ローカルLLMユーザーには、タスクに応じたプロンプト構造の最適化が実践的です。
ベクトルストア (べくとるすとあ)
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワークで、プロンプト・モデル・メモリの連携を簡潔に実装可能。ローカルLLMユーザー向けに、複数モデルの統合やエージェント処理をスムーズにし、実用的なアプリケーション構築を促進します。
LlamaIndex (ラマインデックス)
LlamaIndexは、ローカルLLMとデータソースを連携させるためのフレームワークです。ドキュメントの解析・インデックス作成、検索クエリの処理を支援し、RAG(Retrieval-Augmented Generation)システム構築に最適です。ユーザーは自社データを活用したアプリ開発が可能で、LLMの出力を高精度化・柔軟化
📖 コンセプト
Top-P (トップピー)
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能なトークン数を示す指標です。ローカル環境では、長すぎる入力は切り捨てられたり、メモリ制限で処理不能になる場合があります。適切な長さを設定することで、モデルの精度とリソース効率を最適化できます。
トークン (とーくん)
トークンは、LLMが処理する最小単位で、単語やサブワード(例:「unhappiness」→「un」「happi」「ness」)を含む。トークナイズによってテキストが分割され、モデルの入力・出力に影響を与える。ローカルLLMユーザーは、トークン数を意識してプロンプトを最適化し、リソース制限を管理する必要がある。
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。誤った事実や架空の内容を出力するため、ユーザーは結果を常に検証する必要があります。ローカルLLMでは、信頼性の高いソースと照合したり、出力の妥当性を確認するプロンプトを組み込むことでリスクを軽減できます。
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータやタスクを一度に処理する方法で、効率性とリソース最適化を目的とします。ローカ
推論 (すいろん)
推論(インフェレンス)は、訓練済みモデルに新たな入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行環境(CPU/GPU)、メモリ効率、遅延
温度 (おんど)
温度は、LLMの出力のランダム性を調整するパラメータ。値が低いほど確率の高いトークンを選び、出


コメント