このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。軽量で高精度な処理を実現し、ローカル環境でも効率的に動作。テキスト生成やコード作成など幅広いタスク
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータを学習し、自然な文章生成や質問応答などを行う大規模言語モデルです。ローカル環境で実行可能で、プライバシー保護やオフライン利用が可能ですが、モデルサイズや性能に制限がある場合があります。
Llama (ラマ)
Llamaはメタが開発したオープンソースのLLMシリーズ(Llama、Llama 2、Llama 3など)。ロ
Mistral (ミストラル)
Mistralは、フランスのスタートアップMistral AIが開発した大規模言語モデルシリーズ。Mistral-7Bなど、パラメータ数が
Phi (ファイ)
Qwen (チェン)
Qwenはアリババ
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少ないLLMで、計算コストが低く、軽量なデバイスや特定のタスクに最適。ローカル環境では、リアルタイム処理や電力制約のある端末(例:スマートスピーカー)で活用可能。精度はLL
Transformer (トランスフォーマー)
Transformerは、2017年にGoogleが提案した注意機構を用いたニューラルネットワークアーキテクチャ。並列処理により効率的な学習を実現し、自己注意(Self-Attention)により文脈の長距離依存関係を捉
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、事前にトレーニングされたLLMに特定のタスクやドメインのデータで追加学習し、精度を向上させる手法。ローカルユーザー向けには、LoRAやQLoRAなどの軽量アプローチを活用し、計算リソースを抑えつつ高精度なモデル調整が可能。データ品質と学習率の調整が実
📖 量子化・最適化
AWQ (エーダブリューキュー)
AWQ(Asymmetric Weight Quantization)は、ニュ
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
GGUF (ジージーユーエフ)
GPTQ (ジーピーティーキュー)
GPTQ(Group-wise Quantization)は、モデルの重みをグループ単位で量子化し、精度を維持しながらモデルサイズを削減する技術。ローカルLLMユーザー向けに、GPUメモリの制約下でも高精度な推論を実現し、軽量化と
INT4 (イントよん)
INT4は、4ビット整数を用いた量子化技術で、モデルサイズを大幅に削減し、推論速度を向上させます。ローカルLLMユーザー向けに、GPU
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
KVキャッシュは、Transformerモデルの注意機構において、KeyとValueの計算結果を一時的に保存するメカニズムです。再計算を
量子化 (りょうしか)
量子化は、モデルの精度を下げて計算量やメモリを削減する最適化技術です。例:32bit浮動小数点を8bit整数に変換。ローカルLLMでは、デバイス性能に応じて精度と速度のバランスを調整し、軽量化や高速化を実現します。ただし、過度な量子化
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、大規模言語モデル(LLM)のローカル推論を効率化
LM Studio (エルエムスタジオ)
LM Studioは、ローカルで大規模言語モデル(LLM)を実行するための推論エンジン。GPU加速や複数モデル対応、直感的なUIを備え、コスト効率の高いオンプレミス運用を実現。モデルカスタマイズやリソース最適化に特化し、研究・開
LocalAI (ローカルエーアイ)
LocalAIは、ユーザー端末やローカルサーバ
Ollama (オラマ)
Ollamaは、ローカルで大規模言語モデル(LLM)を効率的に実行する推論エンジン。GPUリソースを最適化し、TransformerやPyT
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
**Text Generation Inference**は、学習済みLLMが入力に基づいてテキストを生成する推論プロセスです。効
llama.cpp (ラマシーピーピー)
vLLM (ブイエルエルエム)
vLLMは、大規模言語モデルの推論を高速化するオープンソースのエンジンで、GPUメモリ効率を最適化し、並列処理を実現。ローカル環境でも高精度な推論を低コストで実行可能。特に、長文生成や複数ク
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionをノードベースで操作できるオープンソースのインターフェース。ローカルユーザー向けに、ワークフローの柔軟な構成やパラメータ調整が可能で、GPU利用効率が高く、カスタムモデルの導入も容易。UIのカスタマイズや拡張性が高く、高精度な画像生成を実現します。
ControlNet (コントロールネット)
Flux (フラックス)
Fluxは、Black Forest Labsが開発した高解像度画像生成モデルで、ディフュージョン
LoRA (ローラ)
LoRA(Low-Rank Adaptation)
SDXL (エスディーエックスエル)
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成するオープンソースの拡散モデルです。ローカル環境で実行可能で、GPUを活用すれば高品質な画像生成が可能です。アートやデザインなど幅広い用途に応用され、コミュニティで活発に改良・拡張されています。
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供する並列計算用のプラットフォームとAPIで、GPUの計算能力を活用して高速な処理を実現します。ローカルLLMユーザー向けには、NVIDIA GPU上でモデルのトレーニングや推論を効率化するための基盤技術として重要です。CUDAを活用することで、GPUの並列性を最大限に引き出し、パフォーマンスを向上させられます。
NPU (エヌピーユー)
Tensor Core (テンサーコア)
Tensor Coreは、NVIDIA GPUに搭載された専用ハードウェアユニットで、行列演算やテンソル計算を高速化します。LLMのトレーニングや推論において、複数の行列演算を効率的に処理し、性能を飛躍的に向上させます。特にVolta以降のGPUで実装
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUがグラフィック処理や機械学習モデルの計算時に高速にアクセスできる専用メモリ。ローカルLLMでは、モデルパラメータや
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、外部データベースから情報を検索し、LLMに組み込むことで精度を高める技術。ローカルLLMユーザー向けに、モデルの再訓練なしで最新データを活用可能。検索結果を元に生成を補完し、より正確な応答を実現。実装にはベ
エンベディング (えんべでぃんぐ)
エンベディングは、テキストやデータを数値ベクトルに変換する技術で、意味や関係性を数値で表現します。ローカルLLMでは、類似性検索やクラスタリングなどに活用され、Hugging Faceなどのライブラリで実装可能です。適切なモデル選択が精度に直結
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに正確な出力を引き出すためのプロンプト設計技術です。明確な指示や例示、構造化されたフォーマットを用いることで、ローカルLLMでも性能を最大化。ユーザーの意図をモデルに正確に伝えることがカギです。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像などのデータを数値ベクトルに変換し、効率的に保存・検索するデータベースです。ローカルLLMユーザーは、生成された埋め込みベクトルを格納し、類似性検索(コサイン類似度など)で高速なクエ
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワークで、プロンプト、
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMを活用したアプリケーション開発を支援するフレームワーク。データの検索・処理、クエリ処理を簡易化し、ローカルLLMとの連携をスムーズにします。モジュール構成で柔軟性が高く、実装効率を向上させます。
📖 コンセプト
Top-P (トップピー)
Top-P(核サンプリング)は、確率の高いトークンのみを候補に選ぶサンプリング手法です。P値(0〜1)
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能な入力・出力トークン数の上限を指します。ローカル環境では、長すぎるコンテキストはメモリ不足や処理遅延の原因となるため、適切な長さに調整することが重要です。モデルの性能を維持しつつ、タスクに応じた最適な設定を検討しましょう。
トークン (とーくん)
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に創作する現象。誤った事実や架空の内容を生成し、信頼性を損なう。ユーザーは出力内容を常に確認し、信頼できる情報源と照らし合わせる必要がある。モデルの制約を理解し、適切な使用を心がけることが重要。
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一度に処理する方法で、効率性を重視します。ローカルLLMユーザー向けには、大量の入力データを一括で処理し、GPU利用率を向上させる実践的な手法です。並列処理やメモリ最適化に適し、
推論 (すいろん)
推論は、学習済みモデルに新たな入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザーでは、モデルの計算効率(量子化・最適化)や遅延に注意が必要です。実用上は、API呼び出しや
温度 (おんど)
温度はテキスト生成時の確率分布を調整するパラメータ。値が低いほど出


コメント