このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPTは
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2など複数のバージョンが存在。小規模から大規模まで対応し、効率的な推論性能と柔軟な応用性が特徴。ローカル環境での導入・カスタマイズが容易で、研究や実務に幅広く活用可能。
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータを学習し、自然言語を理解・生成するAIモデル。ローカル環境で実行可能で、プライバシー保護やコスト削減に適す。例:GPT、LLaMA。推論速度やメモリ効率を考慮した最適なモデル選定が実践的です。
Llama (ラマ)
Llamaはメタが開発したオープンソースのLLMシリーズ(Llama1/2/3)。
Mistral (ミストラル)
Mistralは、フランスのMistral AIが開発した大規模言語モデルシリーズ。Mistral-7Bなど、パラメータ数が少ないながらも効率的で高精度なモデルが特徴。ローカル環境でも軽量に動作し、コード生成や論理的推論に強みを持つ。オープンソースのため、カスタマイズや自社での導入が容易。
Phi (ファイ)
Phiはマイクロソフトが開発した軽量LLMシリーズ(Phi-1, Phi-2, Phi-3)。少ないパラメータ数で高い性能を実現し、エッジデバイスやリソース制限環境での利用に適する。特にPhi-3は精度と効率のバランスが優れており、実用性が高く、ローカル環境での導入が
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、多言語対応の文生成・質問応答・プログラミングなど幅広いタスクを処理可能です。ローカル環境での導入を想定し、効率的な推論性能と軽量なアーキテクチャを採用しており、企業向けのカスタマイズやプライバシー保護にも対応しています。
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少ないLLMで、計算リソースを抑えつつ特定タスクに最適化されたモデル。ローカル環境での実行やエッジデバイス利用に適し、軽量な処理が求められる応用(例:専用チャットボット)に有効。精度と効率のバランスが重要。
Transformer (トランスフォーマー)
Transformerは、2017年にGoogleが
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクやドメインに合わせた微調整を行う手法です。少量のデータで高精度なモデルを構築でき、実用性が高く、ローカル環境でも効率的に実施可能です。過学習を防ぐため、適切なデータ選定と学習率調整
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
FP16(16ビット浮動小数点数)は、計算精度を半分に抑えることでメモリ使用量と演算速度を向上させる技術。LLMのローカル実行では、GPU/TPUのメモリ制限を緩和し、高速な推論を実現。ただし
GGUF (ジージーユーエフ)
GGUF(General GPU Universal Format)は、LLMの量子化・最適化に用いられる効率的なファイル形式。モデルサイズを削減し、GPUやCPUでの高速推論を実
GPTQ (ジーピーティーキュー)
INT4 (イントよん)
INT8 (イントはち)
INT8は、モデルの重みやアク
KVキャッシュ (けーぶいきゃっしゅ)
KVキャッシュは、Transformerモデルの注意機構で用いられるキー(Key)と値(Value)を一時的に保存するメ
量子化 (りょうしか)
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、消費者向けGPUで大規模LLMを効率的に推論するためのエンジン。8bit/4bit量子化をサポートし、メモリ最適化により高精度な推論を実現。NVIDIA GPUの幅広
LM Studio (エルエムスタジオ)
LM Studioは、ローカルでLLMを実行するための推論エンジン。GGUF/GGML形式のモデルをサポートし、GPU加速で高速推論を実現。直感的なGUIを備え、モデルのロード・パラメータ調整が容易。開発・本番環境での利用が可能で
LocalAI (ローカルエーアイ)
LocalAIは、ユーザー端末でLLMを実行する推論エンジンで、インターネット接続不要なローカル推論を実現。プライバシー保護と低遅延が利点。モデルの転送やカスタマイズが可能で、個人利用や小規模デプロイに
Ollama (オラマ)
Ollamaは、ローカルで大規模言語モデル(LLM)を効率的に推論・ホスティングするオープンソースのエンジン。モデルの軽量化やメモリ最適化により、GPU/CPU環境での実行を簡易化し、API経由での利用も可能。ユーザーは自社サーバーで
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
「Text Generation Inference」は、LLMが入力に基づいてテキストを生成する推論プロセスを最適化した技術です。ローカル環境では、TensorRTやHugging Face Transformersなどのフレームワークで実装され、量子化やモデル圧縮により計算効率を向上。低遅延・高スループットを実現し、チャットボットやコンテンツ生成に活用されます。
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAモデルをC/C++で実装した推論エンジンで、CPUでの高速推論を可能にします。量子化技術によりメモリ効率が高く、GPU不要なローカル環境での実行に最適です。軽量な実装が特徴で、エ
vLLM (ブイエルエルエム)
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusion向けのノードベースの視覚的インターフェースで、画像生成ワークフローを直感的に構築できます。ローカル環境でモデルや拡張機能をカスタマイズし、ノード接続で複雑な処理を実現。コード不要で、ワークフロー
ControlNet (コントロールネット)
ControlNetは、拡散モデルに追加されるモジュールで、エッジやポーズなどの制御信号を入力し、画像生成の精度を高めます。ローカルLLMユーザー向けには、Stable Diffusionなどと組み合わせて、特定の構造
Flux (フラックス)
Fluxは、Black Forest Labsが開発した高品質な画像
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルを効率的に微調整する技術で、画像生成ではパラメータ数を抑えた
SDXL (エスディーエックスエル)
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成するオープンソースモデル。拡散モデルを基盤とし、ノイズを段階的に除去して画像を生成。ローカル環境での導入が可能で、アート制作やデザインの補助に活用される。訓練データは広範な画像から構成され、柔軟なカスタマイズが可能。
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供する並列計算プラットフォームで、GPUを活用した高速な数値計算を可能にします。LLMのトレーニングや推論では、CUDAを介してGPUの演算能力を最大限に引き出し、
NPU (エヌピーユー)
Tensor Core (テンサーコア)
Tensor Coreは、NVIDIA GPUに搭載された専用ハードウェアで、行列演算を高速化し、機械学習やLLMのトレーニング・推論を効率化します。混合精度計算をサポートし、計算負荷を軽減しながら性能を向上させ、ロー
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載された専用メモリで、画像処理や機械学習モデルの計算に使用されます。ローカルLLMユーザーにとって、モデルのサイズやバッチ処理能力に直結し、VRAM容量が不足すると性能低下やエラーが発生します。大規模モデルを
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索エンジンとLLMを組み合わせた技術で、外部データから情報を検索し、生成に活用します。ローカルLLMユーザー向けには、自社データを安全に活用できる点が利点。検索精度と
エンベディング (えんべでぃんぐ)
エンベディングは、テキストを意味を含む数値ベクトルに変換する技術です。LLMでは、類似性検索やクラスタリングに活用され、ローカル環境ではHugging FaceのモデルやFAISSを組み合わせて効率的に処理できます。実装時はベクトル次元や精度を調整し、メモリ制限に注意が必要です。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力(プロンプト)を設計する技術です。クエリの構造化、例示の追加、役割指定(例:「あなたは専門家です」)などにより、出力の精度や関連性を高めます。ローカルLLMユーザー向けには、モデルの特性に合わせたプロンプト設計で、リソ
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像などのデータを数値ベクトルに変換し、高速な検索や類似性比較を可能にするデータベースです。ローカルLLMユーザーは、生成された埋め込みベクトルを保存・検索し、検索エンジンや推奨システムなどに活用できます。
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発向けのフレームワークで、プロンプトテンプレートやメモリ管理、データベース連携を簡易化。ローカルLLMユーザー向けに、モデルのローカル実行と統合をサポートし、柔軟なアプリケーション構築を可能にします。
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMとデータを統合するためのフレームワークで、データのインデックス作成・クエリ処理を簡略化します。ローカルLLMユーザー向けに、データベース連携や結果の最適化
📖 コンセプト
Top-P (トップピー)
Top-P(核サンプリング)は、確率の累積値がPを超えるトークンを候補に選ぶ手法。Top-Kより柔軟で、Pを小さくすると出力が集中し、大きくすると多様性が増す。ローカルLLMでは、Pの調整で生成文の創造性と一貫性の
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能なトークン数を指します。ローカル環境では、長すぎるコンテキストはメモリ制限により処理不能になるため、入力の要約や分割が必要です。モデルの性能に直結するため、適切な長さ設定が実用性を高めます。
トークン (とーくん)
トークンは、テキストを処理する際の最小単位(単語・サブワードなど)。LLMはトークンをIDに変換して処理し、生成時にトークン数制限(例:3000トークン)があるため、入力・出力の長さに影響する。ローカルユーザーは、トークン化方法(モデルごとに異なる)を理解し、制限内での運用が重要。
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。事実誤認や架空の内容を含む場合があり、信頼性が低下します。実践では、出力内容を外部資料で確認し、信頼性の高い情報源を優先するように注意しましょう。
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一度に処理する方法で、効率性を重視します。ローカルLLMユーザー向けには、モデル訓練や推論時にバッチサイズを調整し、GPUメモリの最適利用や
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルが入力データを受け取り、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(量子化・最適化)、ハードウェアリソースの制約、応答
温度 (おんど)
温度はテキスト生成時の確率分布を調整するパラメータ。値が低いほど出力が確定的・論理的になり、高いほど多様性・創造性が増す。実践では


コメント