このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模言語モデルのシリーズで、自然言語処理タスクに優れた性能を示します。ローカル環境で利用する際は、オープンソースの派生モデル(例:GPT-Neo、GPT-J)を検討し、GPUの性能やライセンス条件を確認することが重要
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。軽量で高精度な設計により、ローカル環境でも効率的に動作
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータを学習し、自然な文章生成や質問応答を可能にするAIモデルです。ローカル環境で利用する際は、モデルサイズ(パラメータ数)、推論速度、メモリ使用量を考慮し、最適な設定で運用することが重要です。
Llama (ラマ)
Mistral (ミストラル)
Mistralは、フランスのMistral AIが開発したLLMシリーズで、Mistral 7BやMixtral 8x7Bなど複数モデルを含む。高精度な推論・コード生成を実現し、軽量かつ
Phi (ファイ)
PhiはMicrosoftが開発した
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、会話理解やコード生成、多言語対応に優れています。ローカル環境での展開が可能で、プライバシー保護やカスタマイズに適しています。オープンソースのため、特定のタスクに最適化した調整が可能です。
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを効率的に利用できるLLMの一種。ローカル環境でも軽量な処理が可能で、特定のタスク(例:単純な会話
Transformer (トランスフォーマー)
Transformerは、2017年にGoogleが提案したLLMの基盤となるアーキテクチャで、自己注意機構(Self-Attention)を用いて文脈の関係性を効率的に捉えます。並列処理により高速な学習
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクやドメインのデータで追加学習し、性能を最適化する技術です。ローカルユーザーは、自社データに合わせてモデルを調整し、精度を高められます。計算リソースを節約しつつ、過学習を防ぐための適切なデータ選定が重要です。
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
FP16(16ビット浮動小数点数)は、計算精度を半分に抑えることでメモリ使用量を削減し、高速な演算を可能にする技術。ローカルLLMでは、GPUメモリの制限を緩和し、大規模モデルの実行を効率化。ただし、精度の低下が生じるため、トレー
GGUF (ジージーユーエフ)
GPTQ (ジーピーティーキュー)
GPTQ(Group-wise Quantization)は、モデルの重みをグループごとに量子化し、精度を維持しつつモデルサイズを削減する技術。ローカルLLMユーザーには、GPUメモリの制限下
INT4 (イントよん)
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
KVキャッシュは、Transformerモデルの推論時にキー・値ペアを効率的に保存し、メモリを節約する技術。長文処理や量子化と併用することで、ローカルLLMのVRAM使用量を抑える。実装では過去のAttention結果を再利用し、計算負荷を軽減する。
量子化 (りょうしか)
量子化は、モデルの重みやアクティベーションの精度を下げて計算効率を高める技術です。例:32bit浮動小数点を8bit整数に変換。モデルサイズと推論速度の向上が可能ですが、精度に多少の影響が出る場合があります。
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、ローカル環境で大規模言語モデル(LLM)を効率的に推論するためのエンジン。量子化技術とメモリ最適化により、GPUでの実行を可能にし、低リソースでも高精度な推論を実現。ユーザーは自前のハードウェアでLLMを活用しやすくなる。
LM Studio (エルエムスタジオ)
LM Studioは、ローカル環境でLLMを実行するための推論エンジン。モデルのロード・推論を効率化し、GPU利用やメモリ最適化をサポート。ユーザーインターフェースを備え、開発者向けにローカルでのモデルテストやカスタマイズを簡易化する。
LocalAI (ローカルエーアイ)
LocalAIは、ローカル環境でLLMを実行するためのオープンソースの推論エンジンです。軽量で高効率な設計により、プライバシー保護やコスト削減を目的としたオンプレミス利用を可能にします。ユーザーはモデルのカスタマイズや推論パラメ
Ollama (オラマ)
Ollamaは、ローカル環境で大規模言語モデル(LLM)を効率的に実行するためのオープンソースの推論エンジンです。軽量で高速な処理を実現し、GPU/TPUを活用したパフォーマンス最適化が可能です。モデルのローカル展開やカスタマイズを容易にし、クラウド依存を避けるため、
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
**Text Generation Inference**は、LLMが入力に基づいて自然なテキストを生成する推論プロセスです。ローカル環境では、効率的な計算(例:カーネル最適化、バッチ処理)や、生成品質を保つためのサンプリング手法(例:Top-k、Top-p)が重要です。また、メモリ制約に対
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAモデルをC/C++で実装した推論エンジンで、CPUでの高速推論を可能にします。ローカル環境向けに最適化され、GPU不要で軽量な実行が可能です。量化技術をサポートし、メモリ効
vLLM (ブイエルエルエム)
vLLMは、UCバークリーなどが開発した推論エンジンで、大規模言語モデル(LLM)
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを視覚的に操作できるノードベースのインターフェース。ローカル環境で高柔軟性のワークフロー構築を可能にし、モデルや拡張機能のカスタマイズが容易。UIの直感性と拡張性が特徴で、画像生成プロセスの最適化に最適。
ControlNet (コントロールネット)
Flux (フラックス)
FluxはRunwayが開発した画像生成モデルで、拡散モデルに基づく高品質な画像生成を可能にします。ローカル環境でも実行可能で、柔軟なパラメータ調整が特徴です。AIアート制作やプロトタイピングに適し、オープンソ
LoRA (ローラ)
SDXL (エスディーエックスエル)
SDXL(Stable Diffusion XL)は、Stability AIが開発した高解像度・高品質な画像生成モデル。従来のStable Diffusionよりパラメータ数が増加し、詳細なテキストプロ
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成する拡散モデル。ノイズを加えた画像を逆転させることで生成を実現
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供する並列計算プラットフォームで、GPUを活用した高速な数値計算を実現します。LLMユーザー向けには、GPUアクセラレーションによるモデルトレーニング・推論の高速化が可能で、cuBLASやcuDNNなどのライブラリを介して効率的な計算を実装できます。ローカル環境ではNVIDIA GPUの性能を最大限に引き出すための
NPU (エヌピーユー)
NPU(
Tensor Core (テンサーコア)
Tensor Coreは、NVIDIA GPUに搭載された専用ハードウェアで、行列演算を高速化する。LLMのトレーニングや推論における行列計算を効率化し、性能とエネルギー効率を向上させる。特に混合精度計算をサポートし、メモリ使用量を抑える実用性が高く、ローカルLLMユーザーにとって重要なアクセラレーション技術である。
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載された専用メモリで、LLMのモデルパラメータや計算中のデータを一時的に保存します。ローカルLLMでは、VRAM容量がモデルサイズやバッチサイズに直接影響し、不足すると性能低下やエラーを引き起こします。効率的なVRAM利用には、量子化や混合精度計算が
eGPU (イージーピーユー)
eGPU(外部グラフィックプロセッサ)は、ThunderboltやUSB-C経由で接続し、ノートPCや低スペ
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索エンジンで外部データを取得し、LLMに統合して回答を生成する技術。ローカルLLMユーザーには、モデルの知識範囲を拡張し、最新情報や専門データを活用できる実用性が高く、実装には検索APIとLLMの連携が不可欠です。
エンベディング (えんべでぃんぐ)
エンベディングは、テキストを意味を含む数値ベクトルに変換する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、Hugging Faceのsentence-transformersなどを使って効率的に生成可能です。ベクトル空間での距離計算により、自然言語の意味関係を数値化し、AIアプリケーションの精度向上に貢献します。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な出力を引き出すためのプロンプトの設計・最適化技術です。明確な指示や例の提示、反復的な調整を通じて、タスクに応じた効果的なクエリ構造を構築します。ローカルLLMユーザー向けには、カスタマイズ性と処理効率の向上に直結します。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するツールです。ローカルLLMユーザーは、生成した埋め込み(embedding)をここに格納し、類似性検索
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワークで、プロンプト・モデル・メモリの連携を簡潔に実装可能。ローカルLLMユーザー向けに、複数モデルの統合やエージェント処理を含む実用的なツールを提供し、開発効率を向上させます。
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMとデータベースを連携させるためのフレームワークで、データのインデックス作成・検索・統合を簡易化します
📖 コンセプト
Top-P (トップピー)
Top-P(核サンプリング)は、確率の累積値がPを超えるトークンを候補に選ぶ手法。top-kより柔軟で、出力の多様性と一貫性を調整可能。ローカルLLMユーザーは、Pを0.9〜0.95に設定することで自然な文章生成が期待され、精度と創造性のバランスを取れる。
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能なトークン数を示す指標です。ローカル環境では、長すぎる入力は切り捨てられるため、要約や分割が必要です。メモリ制限に注意し、効率的なトークン化を心がけましょう。
トークン (とーくん)
トークンは、LLMが処理する最小単位で、単語やサブワード(例:「unhappiness」→「un」「happi」「ness」)を含む。トークナイズ(分割)によってテキストを変換し、モデルの処理効率や精度に影響を与える。ローカルLLMでは、トークン数制限に注意し、適切なトーク
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。誤った事実や架空の内容を出力し、信頼性を損なう。ローカルユーザー向けには、出力内容の検証や、信頼できるソースへの依存を促すプロンプ
バッチ処理 (ばっちしょり)
推論 (すいろん)
推論とは、学習済みモデルが入力データを受け取り、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(遅延、メモリ使用量)や最適化(量子化など)が実践的ポイントです。
温度 (おんど)


コメント