このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数バージョンが存在。テキスト生成やコード作成、論理的推論など多様なタスクに対応。サイズごとに性能・効率を調整可能で、ロ
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータを学習したAIモデルで、自然言語の理解・生成を可能にします。ローカル環境で利用する際は、モデルサイズ(パラメータ数)や推論速度、メモリ使用量を考慮し、タスクに最適なモデル選定が重要です。実用性を高めるには、微調整(ファインチューニング)
Llama (ラマ)
Llamaはメタが開発したオープンソースのLLMシリーズ(Llama、Llama 2、Llama 3など
Mistral (ミストラル)
Mistralは、フランスのMistral AIが開発した大規模言語モデルシリーズ(例:Mistral 7B
Phi (ファイ)
Phiはマイクロソフトが開発したLLMモデルシリーズで、効率的な推論とコード生成能力が特徴。ローカル環境でも軽量なため、リソース制限のある環境での実装に適し、開
Qwen (チェン)
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数がLLM(大規模言語モデル)より少なく、計算リソースを抑えつつ特定タスクに最適化されたモデル。ローカル環境での実行に適し、推論速度や電力消費が軽減される
Transformer (トランスフォーマー)
Transformerは、2017年に発表されたLLMの基盤となる
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクやドメインのデータで追加学習し、性能を最適化する技術です。ローカルユーザー向けには、一般モデルを自社の業務データに合わせて調整し、精度を高める実践的な手法です。計算リソースと適切なデータが不可欠で
📖 量子化・最適化
AWQ (エーダブリューキュー)
AWQ(Adaptive Weight Quantization)は、モデルの重みを適応的に量子化する技術で、精度を維持しつつ計算量とメモリ使用量を
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
FP16(16ビット浮動小数点数)は、計算精度を半分に抑えることでメモリ使用量を削減し、演算速度を向上させる技術です。ローカルLLMでは、GPUのメモリ制限を緩和し、大規模モデルの実行を可能にします。ただし、精度の低下を補うため、多くのモデルは混合精度(FP16とFP32の組み合わせ)で訓練されています
GGUF (ジージーユーエフ)
GGUFは、LLMの量子化・最適化に用いられる効率的なファイル形式で、モデルサイズを小さくし、
GPTQ (ジーピーティーキュー)
GPTQ(Group-wise Quant
INT4 (イントよん)
INT4は、モデルの重みを4ビット
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
量子化 (りょうしか)
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、大規模LLMを効率的に推論するためのエンジンで、GPUメモリの最適化や量子化技術を採用。Hugging Faceモデルとの互換性があり、ローカル環境でも高精度な推論を実現。ユーザーは少ないリソースで大規模モデルを活用可能。
LM Studio (エルエムスタジオ)
LM Studioは、ローカル環境で大規模言語モデル(LLM)を実行可能な推論エンジン。モデルのロード・推論・最適化を簡易に実施でき、GPU加速やカスタム設定が可能。開発者向けにUIを備え、ローカルでの試験運用や研究に適したツール。
LocalAI (ローカルエーアイ)
LocalAIは、ローカル環境で大規模言語モデルを効率的に推論するためのエンジン。クラウド依存を減らし、プライバシー保護や低遅延を実現。Web
Ollama (オラマ)
Ollamaは、ローカル環境でLLMを効率的に実行するための推論エンジン。モデルのホスティングやAPI経由の推論を簡易に可能にし、GPU利用や複数モデルの管理をサポート。ユーザーは自社のハードウェアで高精度な推論を実現し、クラウド依存
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
**Text Generation Inference**は、LLMが入力に基づいてテキストを生成する推論プロセスです。トークンを逐次生成し、確率分布に基づいて次のトークンを予測します。ローカル環境では、効率化(キャッシュ利用、並列処理)が重要で、ユーザーは生成速度
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAモデルを
vLLM (ブイエルエルエム)
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを視覚的に操作できるノードベースのインターフェース。ワークフローをカスタマイズし、モデルや拡張機能を柔軟に組み合わせて高品質な画像生成が可能。ローカル環境で動作し、コード知識不要で直感的な操作が特徴。AIアート
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable Diffusion)に「制御信号」(エッジ、ポーズ、セグメンテ
Flux (フラックス)
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルの微調整を
SDXL (エスディーエックスエル)
SDXL(Stable Diff
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成する
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供する並列計算プラットフォームで、GPUの計算能力を活用してLLMのトレーニング・推論を高速化します。ローカルLLMユーザーは、CUDA対応GPU(例:RTXシリーズ)を用いることで、PyTorchやTensorFlowなどのフレームワークで効率的な計算が可能になります。
NPU (エヌピーユー)
NPU(Neural Processing Unit)は、AI計算を高速化する専用ハードウェア。機械学習や深層学習の演算を効率的に行うため、並列処理や低消費電力が特徴。ローカルLLMユーザー向けには、
Tensor Core (テンサーコア)
Tensor CoreはNVIDIA GPUに搭載された専用演算ユニットで、行列演算を高速化し、AIトレーニングや推論を効率化します。混合精度(FP16/INT8)をサポートし、計算時間を短縮・電力消費を抑えるのが特徴。ローカル
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載された専用メモリで、モデルの重みや計算中のデータを一時的に保存します。ローカルLLMでは、VRAM容量がモデルサイズやバッチサイズに直接影響し、不足すると動作不能やパフォーマンス低下の原因になります。システムRAMとは異なり、
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、外部データベースから情報を検索し、LLMに組み込むことで精度を向上させる技術。開発ツールとして、リアルタイムデータ連携や知識ベース拡張に活用。ローカルLLMユーザーには、自
エンベディング (えんべでぃんぐ)
エンベディングは、テキストを意味を含む数値ベクトルに変換する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、自然言語を機械が処理可能な形式に変換します。Hugging Faceなどのライブラリで生成可能で、次元削減やデータの可視化にも役立ちます。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力(プロンプト)を設計・最適化する技術です。具体的には、例の提示、構造化されたフォーマット、反復的な調整を通じて、モデルの出力を意図通りに引き出す手法です。ローカルユーザー向けには、テンプレート活用やクエリの明確化が実践的です。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像などのデータを数値ベクトルに変換し、効率的に保存・検索するデータベースです。ローカルLLMユーザーは、生成した埋め込みベクトルをここに格納し、類似性検索やクエリ応答を高速化できます。
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワークで、プロンプト、チェーン
LlamaIndex (ラマインデックス)
LlamaIndexは、ローカルLLMと連携してデータを構造化・
📖 コンセプト
Top-P (トップピー)
Top-P(核サンプリング)は、確率の累積値がPを超えるトークンのみを候補に選ぶ手法。Pが低いほど出力が集中し、高いほど多様性が増す。ローカルLLMでは、温度パラメータ単独では得られない自然な表現を生成するのに有効。調整により、精度と創造性のバランスを取れる。
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能な入力トークン数を指します。ローカルユーザー向けに、長さが大きいほど複雑なタスクに対応可能ですが、メモリや計算リソースを多く消費します。実践では、タスクに応じた最適な長さの選択や、プロンプトの最適化が重要です。
トークン (とーくん)
トークンは、LLMが処理する最小単位で、単語やサブワード(例:「unhappiness」→「un」「happi」「ness」)を含む。トークナイズによってテキストが分割され、モデルの入力・出力に用いられる。効率的な処理と未知語対
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。誤った事実や架空の内容を出力し、信頼性を損なう。ローカルLLMユーザー向けには、出力内容の検証や信頼できるデータソース
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一括で処理する方法で、LLMのトレーニングや推論で効率を向上させます。ローカル環境では、GPUメモリを有効活用し、バッチサイズを調整することで学習速度や精度を最適化できます。並列処理に適し、大規模データ
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルを用いて新しい入力データから出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(推論速度・メモリ使用量)や
温度 (おんど)
「温度(Temperature)」は、LLMの出力のランダム性を調整するハイパーパラメータです。値が低いほど確率の高いトークンを選び、出力が安定します(例


コメント