このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模言語モデルシリーズ。Transformerアーキテクチャを基盤とし、広範なテキストデータで事前学習された後、特定タスクに微調整される。自然言語生成や理解に優れ、チャ
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。テキスト生成やコード作成、論理的推論など多様なタスクに対応。
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータで訓練された大規模言語モデルで、自然言語処理タスクに優れています。ローカル環境では、パラメータ規模やトレーニングデータの選定が性能に直結し、推論速度やメモリ制約を考慮した最適化が重要です。
Llama (ラマ)
Llamaはメタが開発したオープンソースのLLMシリーズ(Llama、Llama 2、Llama 3など)。大規模言語モデルとしての性能と、研究・商用利用の柔軟性を兼
Mistral (ミストラル)
Mistralは、フランスのスタートアップMistral AIが開発したLLMシリーズ。Mistral 7BやMixtral 8x7Bなど、高精度な推論・コード生成を実現。オープンソースでApache 2.0ライセンス提供。軽量かつパフォーマンスに優れ
Phi (ファイ)
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、多言語対応・幅広いタスク処理(質問応答・文章生成・プログラミングなど)が可能。ローカル環境での導入もサポートされ、企業向けのカスタマイズやプライバシー保護に適した実装が特徴です。
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、効率的な
Transformer (トランスフォーマー)
Transformerは、2017年に発表されたLLMの基盤となるアーキテクチャで、自己注意機構(Self-Attention)により文脈を効率的に処理します。並
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMを特定のタスクやドメインに最適化するための微調整手法です。ローカルユーザー向けには、少量のデータでモデルをカスタマイズし、精度を向上させる実践的な方法として活用されます。計算リソースを効率的に使い、特定の用途に特化した性能を引き出すことが可能です。
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
FP16(16ビット浮動小数点数)は、計算精度を半分に抑えることでメモリ使用量と演算速度を向上させる技術。ローカルLLMでは、GPUのVRAM制限を緩和し、高速な推論を実現。
GGUF (ジージーユーエフ)
GGUFは、Qwenが開発した量子化・最適化フォーマットで、モデルサイズを圧縮し、ローカル環境での効率的な実行を可能にします。4bit/8bit量子化をサポートし、精度と性能のバランスを維持しながら、ハードウェアリソースを節約します。軽量化により、オンプレミスでの導入や低スペックデバイ
GPTQ (ジーピーティーキュー)
GPTQ(Group-wise Quantization)は、モデルの重みをグループ単位で量子化し、精度を維持しながらモデルサイズを削減する技術。ローカルLLMユーザーには、GPUメモリの制約下でも大規模モデルを効率的に実行可能にし、推論速度とメモリ
INT4 (イントよん)
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
量子化 (りょうしか)
量子化は、モデルの重みやアクティベーションの精度を低くしてメモリ使用量と計算コストを削減する最適化技術です。例:32ビット浮動小数点を8ビット整数に変換。ただし、精度低下による性能劣化のリスクがあります。LLMでは、
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、大規模言語モデルを効率的に推論するためのエンジンで、メモリ最適化と高速化が特徴。ローカル環境でも高精度な推論を実現し、GPUの性能を最大限に活用可能。モデルのロード速度やバッチ処理の効率向上
LM Studio (エルエムスタジオ)
LM Studioは、ローカル環境で大規模言語モデル(LLM)を実行するための推論エンジンです。GPU加速やモデル最適化をサポートし、ユーザーが自前のハードウェアで高精度な推論を実現可能にします。開発者向けの直感的なインターフェースを備え、モデルの
LocalAI (ローカルエーアイ)
LocalAIは、ユーザーの端末上で実行される推論エンジンで、クラウドに依存せずプライバシーを重視した処理が可能。インターネット接続不要でオフラインでも利用可能だが、高性能なハードウェアを要する。TransformerやONNXなどの
Ollama (オラマ)
Ollamaは、ローカル環境で大規模言語モデル(LLM)を効率的に実行する推論エンジン。モデルのホスティングやAPI経由の推論をサポートし、クラウド依存を減らすことでコストとプライバシーを最適化。軽量な設計と多様なモデル対応が特徴で、開発者向けの実用性に優れる。
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
**Text Generation Inference**は、LLMが入力に基づいてテキストを生成する推論プロセスです。ローカル環境では、高速化技術(例:Quantization、KVキャ
llama.cpp (ラマシーピーピー)
vLLM (ブイエルエルエム)
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを操作するためのノードベースのインターフェースで、視覚的にワークフローを構築できます。ローカルユーザー向けに、モデルのカスタマイズやプロセスの可視化が容易で、複雑な処理をコードなしで実現可能です。拡張性が高く、さまざまな拡張機能と互換性があります。
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable Diffusion)に「条件付き生成」を可能にする技術で、線画やポーズ、セグメンテーションマップなどの補助情報を利用して生成画像の制御を高精度化します。ローカルLLMユーザー向けには、モデルと併用して導入し、特定のスタイルや構造を再現するのに有効です。
Flux (フラックス)
Fluxは、画像生成モデルの一種で、高品質な画像を生成するため
LoRA (ローラ)
SDXL (エスディーエックスエル)
SDXL(Stable Diffusion XL)は、Stability AIが開発した高解像度画像生成モデル。従来のSDモデルよりパラメータ数が増加し、詳細な質感やリアルな表現が可能。ローカル実行時は、高性能
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成するオープンソースモデル。拡散過程を用いて高品質な画像を生成し、
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供するGPU向け並列計算プラットフォームで、GPUの計算リソースをアプリケーションに直接利用可能にします。ローカルLLMユーザーにとって、モデルのトレーニングや推論を高速化するための基盤技術です。CUDAを活用することで、GPUの
NPU (エヌピーユー)
Tensor Core (テンサーコア)
Tensor CoreはNVIDIA GPUに搭載される専用ハードウェアで、行列演算を高速化する。LLMのトレーニングや推論における行列乗算を効率化し、性能を飛躍的に向上させる。特にVolta以降のアーキテクチャで採用され、混合精度計算をサポートし、省電力かつ高速な
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載された専用メモリで、LLMのモデルパラメータや計算中のデータを一時的に保存します。ローカルLLMユーザーにとって、VRAM容量はモデルサイズやバッチサイズに直接影響を与え、不足すると「メモリ不足エラー」が発生します。大規模モデルを扱う際は、VRAMの確認やモデル圧
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索システムと生成モデルを組み合わせた技術で、外部データをリアルタイムに参照し、正確な回答を生成します。ローカルLLMユーザー
エンベディング (えんべでぃんぐ)
エンベディングは、テキストやデータを数値ベクトルに変換する技術で、意味や関係性を保持します。ローカルLLMでは、類似性検索やクラスタリングに活用され、Hugging Faceなどのライブラリで実装可能です。モデルの入力特徴として用いられ、精度向上に寄与します。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力文(プロンプト)を設計・最適化する技術です。明確な構造、具体例の提示、反復的な調整が効果的です。ローカルLLMユーザーは、タスクに応じたプロンプトの設計を通じて、モデルの出力品質を大幅に向上させられます。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するデータベースです。ローカルLLMユーザー向けには、類似性検索や埋め込みベクトルの管理に活用され、FAISSやMilvusなどのツールで構築可能です。高速なクエリ処理と大規模データのスケーラビリティが特徴です。
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMとデータを連携させるためのフレームワークで、データの読み込み・インデックス作成・クエリ処理を簡易化します。ローカルLLMユーザー向けに、多様なデータソースを統一的に扱え、効率的なRAG(Retrieval-Augmented Generation)アプリケーション構築を支援します。
📖 コンセプト
Top-P (トップピー)
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能な入力トークン数を指します。ローカル環境では、長すぎるコンテキストはメモリ制限により処理不能になるため、モデル性能に影響を与えます。トークン化方式やハードウェアの制約を考慮し、適切な長さに調整することが重要です。
トークン (とーくん)
トークンは、テキストを処理する際の最小単位で、単語や文字、サブワードなどに分類されます。ローカルLLMでは、トークナイザの選択が精度や処理速度に影響を与えるため、日本語の場合はカナ・漢字の分割方法を確認し、適切なトークン化を実施することが重要です。
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象です。ユーザーは出力内容を常に検証し、信頼性のあるデータソースを活用する必要があります。また、出力の信頼性を高めるため、
バッチ処理 (ばっちしょり)
バッチ処理は、データをまとめて処理する
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルが新しい入力データから予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(量子化・最適化)、リソース消費、応用シーン(チャットボット・分析ツール)への適用が実践的です。学習とは
温度 (おんど)
温度は、LLMの出力


コメント