このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模言語モデル(LLM)のシリーズで、自然言語処理タスクに優れた性能を示します。ローカル環境で利用するには、Hugging Faceなどのライブラリを用いてモデルをダウンロードし、GPU
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。多言語対応で、小規模から大規模まで幅広いサイズが用意され、研究・実
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータを学習し、自然言語を理解・生成するAIモデル。ローカル環境で動作させることで、プライバシー保護やカスタマイズが可能。会話応答、翻訳、文章生成などに応用され、モデルサイズや学習データの質が性能に直結する。
Llama (ラマ)
Mistral (ミストラル)
Mistralは、フランスのMistral AIが開発した大規模言語モデルシリーズ。7B~8
Phi (ファイ)
Phiはマイクロソフトが開発した効率的なLLMシリーズで、小型ながら高精度な推論・コード生成を実現。ローカル環境での実行に適し、企業向けAIソ
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルシリーズで、
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを効率的に利用できるLLMの一種です。大規模モデル(LLM)と比べて、複雑なタスクや広範な知識の要求には劣るが、軽量なデバイスやリアルタイム処理に適
Transformer (トランスフォーマー)
Transformerは、2017年にGoogleが提案した注意機構を用いたニューラルネットワークアーキテクチャ。並列処理可能な構造により、長距離依存関係を効果的に処理し、LLMの基盤技術として広く採用されている。
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクやドメインのデータで追加で学習させ、性能を最適化する技術です。ローカルユーザー向けには、計算リソースを節約しつつ、自社データに合わせたモデル調整が可能で、過学習を防ぐための適切なデータ選定が重要です。
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
FP16は16ビット浮動小数点形式で、FP32と比べてメモリ使用量を半分に抑え、計算速度を向上させます。
GGUF (ジージーユーエフ)
GPTQ (ジーピーティーキュー)
INT4 (イントよん)
INT4は、モデルの重みを4ビット整数で表現する量子化
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
KVキャッシュは、Transformerモデルの注意機構で計算されたキー・値ベクトルを一時的に保存するメモリ領域。推論時、過去のトークンの情報を再利用し、計算効
量子化 (りょうしか)
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、GPU上で大規模言語モデルを効率的に推論するためのエンジン。4bit/8bit量子化をサポートし、メモリ最適化により大規模モデルのローカル実行を可能に。Hugging Faceモデルとの互換性も高く、高速かつ安定した推論を実現します。
LM Studio (エルエムスタジオ)
LM Studioは、ローカルでLLMを実行するための推論エンジン。複数モデル対応、GPU加速、直感的なUIを備え、軽量な設定で高パフォーマンスを実現。モデル管理やカスタマイズが容易で、開発・テスト環境に最適。
LocalAI (ローカルエーアイ)
LocalAIは、ローカル環境で大規模言語モデル(LLM)の推論を実行するためのオープンソースエンジンです。API依存を排除し、プライバシー保護とコスト削減を実現。軽量でGPU加速対応で、オンプレミスでの高速推論が可能。ユーザーは自社サーバーやPCでモデルを直接運用し、データの所有権を維持できます。
Ollama (オラマ)
Ollamaは、ローカル環境で大規模言語モデル(LLM)を効率的に実行できる推論エンジン。オープンソースで、複数モデルの管理や軽量なリソース利用を可能にし、クラウド依存を避けるユーザー向けに設計されている。モデルのローカル実行と簡易な操作性が特徴。
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
「Text Generation Inference」は、LLMが入力に基づいてテキストを生成する際の推論処理を最適化する技術です。ローカル環境では、TensorRTやHugging Face Transformersの最適化機能を活用し、量子化やモデル圧縮で推論速度を向上させ、GPUメモリ効率を高めます。実装時には、バッチ処理やキャ
llama.cpp (ラマシーピーピー)
vLLM (ブイエルエルエム)
vLLMは、大規模言語モデル(LLM)の推論を高速化するエンジンで、
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを操作するためのノードベースのインターフェースで、ローカルLLMユーザー向けにカスタマイズ可能なワークフロー構築を可能にします。ノードを接続して複雑な処理を自動化でき、オープンソースのため自前のモデルと連携しやすいです。
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable Diffusion)に「制御信号」(エッジ、ポーズ、セグメンテーションなど)を入力し、生成結果を意図的に制御する技術です。ローカルLLMユーザー向けに、画像編集や構造制約付き生成を可能にし、
Flux (フラックス)
Fluxは、Black Forest Labsが開発した拡散モデルベースの画像生成モデル。高品質な
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルの微調整を効率化する技術で、画像生成では拡散モデルに適用される。低ランク行列を追加し、パラメータ
SDXL (エスディーエックスエル)
SDXL(Stable Diffusion XL)は、Stability AIが開発した高解像度画像生成モデル。従来のStable Diffusionよりパラメータ数が増
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したオープンソースのテキストから画像を生成するモデル
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供するGPUを活用するための並列
NPU (エヌピーユー)
Tensor Core (テンサーコア)
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUが画像処理やモデル計算時に使用する専用メモリ。LLMユーザーには、モデルのロード容量や推論速度に直結。VRAM不足時はモデルのスケーリングや精度低下の原因となるため、GPUの仕様確認が重要。
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索エンジンで関連情報を取得し、LLMがそれを基に回答を生成する技術。ローカルLLMユーザーには、外部データを効率的に統合し、知識の正確性を高
エンベディング (えんべでぃんぐ)
エンベディングは、テキストやデータを数値ベクトルに変換する技術で、意味の近さを距離で表現します。ローカルLLMでは、類似性検索やクラスタリングに活用され、Hugging Faceなどのライブラリで生成可能です。計算効率が高く、モデル入力の前処理に最適です。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力文(プロンプト)を設計する技術です。明確な指示や例の提示、構造化されたフォーマットを用いることで、出力の質を向上させます。ローカルLLMユーザーは、反復的な調整やユーザーの意図を反映したプロンプト設計を通じて、モデルの性能を最大限に引き出すことが重要です。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するツールです。LLMでは、類似性検索や知識ベース構築に活用され、FAISSやPineconeなどの実装が主流です。ローカル環境では、大規模な埋め込みデータの管理と高速クエリ処理を実現します。
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワークで、プロンプトエンジニアリング、メモリ管理、チェーン構築を簡易化。ローカルLLMユーザー向けに、複数モデルの統合やエージェント機能を提供し、
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMとデータを統合するためのフレームワークで、ドキュメントの構造化・クエリ処理を簡易化します。ローカルLLMユーザー向けに、データベースとの連携やRAG(Retrieval-Augmented Generation)を
📖 コンセプト
Top-P (トップピー)
Top-P(核サンプリング)は、確率の累積値がPを超えるトークンのみを候補に選ぶ手法。高P値で多様性を、低P値で一貫性を重視。ローカルLLMでは、出力の自然さと創造性のバランス調整に有効。温度パラメータと
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能なトークン数を示す指標です。ローカル環境では、長すぎるコンテキストはメモリ制限により処理不能になるため、入力の要約や分割が必要です。モデルの精度や応答の一貫性にも影響を与えるため、適切な長さの設定が実用性を高めます。
トークン (とーくん)
トークンは、テキストを処理する際の最小単位(単語・サブワードなど)。LLMでは入力・出力をトークンに分割し、モデルが処理します。トークン数制限は入力長に影響し、モデルごとにトークナイザが異なるため、実装時に注意が必要です。
ハルシネーション (はるしねーしょん)
バッチ処理 (ばっちしょり)
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルが新しい入力データから予測や出力を生成するプロセスです。訓練(モデルの学習)とは異なり、ローカルLLMユーザーでは推論時に計算リソースの最適化(例:量子化、モデル圧縮)が重要です。実行環境の
温度 (おんど)
温度は、LLMの出力のランダム性を調整するパ


コメント