このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模言語モデル
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。テキスト生成やコード作
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータで訓練された高精度な言語モデルで、質問応答や文章生成など多様なタスクを処理します。ローカル環境で実行可能で、プライバシー保護やオフライン利用が可能ですが、GPUやメモリの高性能なハードウェアが必要です。代表例はLLaMAやMistralなどです。
Llama (ラマ)
Mistral (ミストラル)
Mistralは、フランスのスタートアップMistral AIが開発した大規模言語モデル(LLM)シリーズ。Mistral-7Bなど、高精度かつ効率的な推論性能が特徴。ローカル環境でも実行可能で、オープンソース化により自社サーバーでの導入が容易。軽量なモデル構成が、実用
Phi (ファイ)
Phiはマイクロソフトが開発したLLMシリーズで、パラメータ数が少ないにもかかわらず高い性能を発揮します。ローカル環境でも軽量で実行可能で、効
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルシリーズで、多言語対応や幅広いタスク処理能力を備える。ローカルユーザー向けには、自社サーバーでのデプロイやAPI利用が可能で、カスタマイズ性が高く、企業向けのアプリケーション開発やデータ分析などに実用性が高い。
SLM (エスエルエム)
Transformer (トランスフォーマー)
Transformerは、2017年に発表されたLLMの基盤となるアーキテクチャ。自己注意機構(Self-Attention)と位置エンコーディングを用い、並列処理と長距離依存関係のモデリングを可能にします。ローカルLLMでは、計算効
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクやドメインに合わせてパラメータを微調整
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
FP16(16ビット浮動小数点)は、モデルパラメータ
GGUF (ジージーユーエフ)
GPTQ (ジーピーティーキュー)
GPTQ(Group-wise Quantization)は、モデルの重みをグループごとに量子化し、精度を保ちつつメモリ効率を向上させる技術。ローカルLLMユーザー向けに、大規模モデルを低リソース環境でも効率的に実行可能にし、
INT4 (イントよん)
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
量子化 (りょうしか)
量子化は、モデルの精度を下げずに計算量やメモリ使用量を削減する技術です。例として、32ビット浮動小数点を8ビット整数に変換し、推論速度を向上させます。ただし、過剰な量子化は精度低下のリスクがあります。ローカルLLMでは、モデルサイズの削減と性能のバランスを考慮した実装が重要です。
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、大規模言語モデル(LLM)をGPUで効率的に推論するためのエンジン。量子化技術を活用し、メモリ使用量を抑えつつ高速な推論を実現。ローカル環境でも高精度な応答を可能にし、ユーザーが自前のハードウェアでLLMを柔軟に活用できるように設計されている。
LM Studio (エルエムスタジオ)
LM Studioは、ローカルでLLMを実行可能な推論エンジンで、GUIを備えており、モデルのロードや推論を簡易化。オープンソースで、カスタマイズやファインチューニングが可能。クラウド依存を避け、プライバシーとコスト削減に適したツール。
LocalAI (ローカルエーアイ)
Ollama (オラマ)
Ollamaは、ローカルで大規模言語モデル(LLM)を効率的に実行するための推論エンジン。モデルのホスティングやAPI経由の推論をサポートし、軽量で高速な処理が可能。ユーザーは自前のハードウェアでモデルを運用でき、プライバシー保護やコスト削減に適している。オープンソ
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
**Text Generation Inference**は、LLMが入力に基づいてテキストを生成する推論プロセスです。トークン化、確率計算、デコード(例:グリーディー検索・ビームサーチ)を含み、効率性と精度のバランスを取る技術が重要です。ローカル環境では、メモリ最適化や高速化手法(例:カーネル最適化
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAモデルをC++で実装した推論エンジンで、CPUでの高速推論を実現。量子化技術によりモデルサイズを削減し、GPU不要でローカル環境でも効率的に動作。
vLLM (ブイエルエルエム)
vLLMは、大規模言語モデルの推論を高速化するオープンソースのエンジンで、メモリ効率化と並列処理技術により、ローカル環境でも高精度な推論を低遅延で実現。Hugging Faceなどと連携し、大規模モデルのローカル実行
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを操作するためのノードベースの視覚的インターフェース。ユーザーはドラッグ&ドロップでノードを接続し、画像生成のワークフローをカスタマイズ可能。コード知識不要で柔軟な設定が可能で、ローカル環境での高精度な画像生成に最適。
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable Diffusion)に「制御信号」(エッジ、ポーズ、セグメンテーションなど)を入力し、生成画像の構造やスタイルを正確に制御する技術。ローカルLLMユーザー向けには、モデルと連携して特定の条件を満たす画像を生成
Flux (フラックス)
LoRA (ローラ)
Lo
SDXL (エスディーエックスエル)
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成する拡散モデル。拡散過程と逆過程を用い、高品質な画像を生成。オープンソースで、
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供する並列計算用のプラットフォームおよびAPIで、GPUの計算能力を活用して高速な処理を実現します。ローカルLLMユーザー向けには、NVIDIA GPU上でモデルを効率的に実行するための基盤技術であり、CUDAをサポートしたハードウェア環境が必須です。
NPU (エヌピーユー)
NPU(Neural Processing Unit)は、ニューラルネットワークの計算を高速化する専用ハードウェアです。ローカルLLMユーザー向けに、モデルの推論やトレーニングを効率化し、GPUに比べて電力消費が少ないため、エッジデバイスやスマートフォンでの実装に適しています。AIワークロードに特化したアーキ
Tensor Core (テンサーコア)
Tensor CoreはNVIDIA GPUに搭載された専用ハードウェアで、行列演算を高速化する。LLMのトレーニングや推論時に、FP16/INT8などの混合精度計算を効率的に行い、処理速度と電力効率
VRAM (ブイラム)
eGPU (イージーピーユー)
eGPU(外部GPU)は、ThunderboltやUSB-C経由で接続可能な外部グラフィックカード。ローカルLLMユーザーには、GPUメモリ不足を補うための高VRAMなGPUを仮想化
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索結果をLLMに組み合わせて回答を生成する技術。ローカルLLMユーザー向けには、外部データを効率的に検索・統合し、知識の正確性を高める実装が可能。技術的背景と実装上の注意点(例:検索エンジンの選定、データの
エンベディング (えんべでぃんぐ)
エンベディングは、テキストやデータを意味を含む数値ベクトルに変換する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、モデルの入力処理を効率化します。Hugging FaceのTransformerライブラリなどで実装可能で、ベクトル空間での計算を簡易化します。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力(プロンプト)を設計する技術です。質問の構造化や指示の明確化、反復的な調整を通じて、モデルの出力を意図通りに引き出す手法です。ローカルLLMユーザーは、タスクに応じたプロンプト設計でモデルの性能を最大限に活用できます。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するデータベースです。ローカルLLMユーザーは、生成された埋め込みベクトルをストアし、類似性検索やクエリ応答に活用できます。高速な検索と大規模データの管理を可能にし、アプリケーションのパフォ
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワーク。プロンプトエンジニアリングやチェーン構築、ローカルデプロイを簡易化し、ユーザーが柔軟にモデルとデータを統合できるように設計されています。実践的には、カスタマイズ性と効率的なワークフロー構築が強みです。
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMとデータソースを統合するためのフレームワークで、データのインジェスト、検索、RAG(Retrieval-Augmented Generation)を簡易化します。データ接続やクエリエンジン、モジュールを提供し、アプリ開発の効率化を図ります。ローカルLLMユーザー向けに、柔軟な拡張性と実装の簡易性を重視
📖 コンセプト
Top-P (トップピー)
Top-P(核サンプリング)は、確率の累積値がPを超えるトークンを候補に選ぶ手法。Pが低いほど出力が集中し、高いほど多様性が増す。ローカルLLMユーザーは、温度パラメータ単独では得られない自然な文章生成を実現するため、Top-Pを調整して精度と多様性をバランスよく制御するのに有効。
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能な入力トークン数の最大値です。ローカルユーザー向けには、長文処理や複雑なタスクに適応するための指標で、モデルの性能やメモリ使用量に直結します。設定値を超えると情報が切り捨てられるため、プロンプト設計時に注意が必要です。
トークン (とーくん)
トークンは、LLMが処理する最小単位で、単語やサブワード(例:「unhappiness」→「un」「happi」「ness」)を含む。トークン化により、モデルは未知語を扱いやすくし、効率的な学習が可能になる。ローカルLLMユーザーは、プロンプトの最
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象です。実践では、出力の信頼性を確認するため、外部データと照合したり、出力の妥当性を検証するプロ
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一括で処理する方法で、効率性を重視します。ローカルLLMでは、大量のデータを一度に処理することで、リソースの無駄を減らし、トレー
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルに新しい入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの軽量化(例:量子化)やハードウェア最適化が重要で、リアルタイム性やリソース効率
温度 (おんど)
温度は、LLMの出力のランダム性を調整するパラメータ。値が


コメント