このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模
Gemma (ジェマ)
GemmaはGoogleが開発した効率的なLLMシリーズで、Gemma-2とGemma-2.5が代表的。コード生成や論理的推論に優れ、軽量設計によりクラウド・エッジデバイスでの展開が可能
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なパラメータ数と多様な訓練データを用いて構築される高度な言語モデルです。自然言語処理タスク(文章生成・翻訳など)に優れ、ローカル環境でも推論可能。ただし、計算リソースの確保や最適化技術(例:量子化)が実用化の鍵となります。
Llama (ラマ)
Mistral (ミストラル)
Mistralは、フランスのMistral AIが開発したLLMシリーズ(例:Mistral-7B)。軽量で高精度な特徴があり、オープンソースとして利用可能。
Phi (ファイ)
PhiはMicrosoftが開発した軽量で高精度なLLMシリーズ。コード生成や論理的推論に強みを持ち、ローカル環境でも効率よく動作。少ないリソースで高性能を実現し、開発者向けの実用性が高く、特にコード補
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、対話理解・コード生成・多言語対応などに優れ、Qwen1、Qwen2など複数バージョンが存在
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを効率的に利用するLLMの一種です。ローカル環境での実行を重視し、低消費電力・高速処理が可能で、スマートフォンやIoTデバイスなどに
Transformer (トランスフォーマー)
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMを特定のタスクやドメインに最適化するための微調整手法です。ローカルユーザー向けには、LoRAやQLoRAなどの効率的な調整技術を活用し、計算リソースを抑えつつ高精度なモデルを構築できます。ただし、適切
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
FP16は16ビット浮動小数点形式で、FP32と比べてメモリ使用量を約半分に抑え、計算速度を向上させます。ローカルLLMでは、GPUメモリの制限に対応
GGUF (ジージーユーエフ)
GPTQ (ジーピーティーキュー)
GPTQは、モデルの重みをグループごとに量子化する技術で、精度を維持しつつメモリ使用量を削減します。ローカルLLMユーザー向けに、GPUメモリの制約下でも大規模モデルを効率的に実行可能にし、PyTorchなどとの互換性も
INT4 (イントよん)
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
量子化 (りょうしか)
量子化は、モデルの精度を保持しつつ、計算量やメモリ使用量を削減する技術です。例として、32ビット浮動小数点を8ビット整数に変換することで、推論速度を向上させ、デバイスへの導入を可能にします。ただし、過剰な量子化は精度低下を引き起こすため、適切なスケーリングやトレーニング手法(例:量子化ア
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、ローカル環境で大規模言語モデルを効率的に推論するためのエンジンです。GPU/CPUsを活用し、量子化やメモリ最適化をサポート。軽量な実行と高い柔軟性が特徴で、ユーザーが限られたリソースでも高精度な推論を
LM Studio (エルエムスタジオ)
LocalAI (ローカルエーアイ)
LocalAIは、ローカル環境でLLMを実行するための推論エンジンフレームワークです。プライバシー
Ollama (オラマ)
Ollamaは、ローカル環境で大規模言語モデル(LLM)を効率的に実行するためのオープンソースの推論エンジン。モデルのホスティングやカスタマイズを容易にし、低リソースでも高速な推論を実現。ユーザーはクラウドに依存せず、プライバシー保護とコスト削減が可能。簡単なAPIと軽量設計が
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAモデルをCPUで効率的に推論するためのC++実装エンジン。量子
vLLM (ブイエルエルエム)
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionなどの画像生成モデルを視覚的に操作できるノードベースのインターフェース。ローカル環境でカスタマイズ可能で、複雑なワークフローをコード不要で構築できる。ユーザーが直感的にモデルを組み合わせ、高精度な画像生成を実現するため、AIアーティストや研究者に人気。
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable Diffusion)に「制御信号」(エッジ、ポーズ、セグメンテーションなど)を追加して生成を制御する技術。ローカルLLMユーザー向けに、画像の詳細な制御を可能にし、スケッチからリアルな画像生成やポーズ指定などに活用。モデルの拡
Flux (フラックス)
LoRA (ローラ)
SDXL (エスディーエックスエル)
SDXL(Stable Diffusion XL)は、高解像度の画像生成を可能にする拡張型の拡散モデルです。ローカ
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成する拡散モデル。潜在空間を用いた生成プロセスにより、高品質な画像を出力。オープンソースで、アート制作やデザインなど幅広い用途に応用可能。ローカル環境でも実行可能で、カスタマイズ性が高く、生成結果の制御性が特徴。
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供するGPU向け並列計算プラットフォームで、LLMのトレーニングや推論でGPUの計算能力を活用するための基盤技術です。ローカルLLMユーザーは、CUDAを介してGPUのコア(CUDAコア)を効率的に利用し、高速な演算
NPU (エヌピーユー)
NPU(Neural Processing Unit)は、AI計算を高速化する専用ハードウェア。機械学習や深層学習の推論・訓練を効率的に行うため、ローカルLLMユーザーには低遅延なモデル実行や省電力な処理が可能。スマートフォンやエッジデバイスに搭載され、GPUに比べてAI特化型の性能
Tensor Core (テンサーコア)
Tensor CoreはNVIDIA GPUの専用ハードウェアで、行列演
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載された専用メモリで、LLMの推論時にモデルパラメータや中間データを一時的に保存します。容量が大きいほど大規模モデルを扱えますが、不足するとエラー発生や性能低下の原因になります。ローカルLLMユーザーは、GPUのVRAM容量を確認し、必要に応じてモデルの量子化やバッチサイズ調整を行う必要があります。
eGPU (イージーピーユー)
eGPU(外部GPU)は、ThunderboltやUSB-C経由で接続し、ノートPCや低スペックPCに高性能GPUを追加するハードウェア。ローカルLLMユーザーには、大規模モデルの推論やトレーニングに必要なVRAMを補う
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、外部データベースから情報を検索し、LLMに統合して回答を生成する技術。開発ツールとして、リアルタイムデータ対応や知識ベースの拡張に活用。ローカルLLMユーザーには、ベクトルデータベースとの連携や、検索精度の最適化が実践的
エンベディング (えんべでぃんぐ)
エンベディングは、テキストやデータを意味を含む数値ベクトルに変換する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、Hugging Faceなどのライブラリで生成可能です。モデルの入力特徴として用いられ、自然言語処理の精度向上に貢献します。(198字)
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な出力を引き出すためのプロンプトの設計・最適化技術です。明確な指示や例の提示、反復的なテストを通じて、タスクに応じた効果的なクエリを構築します。ローカルユーザー向けには、モデル特性に合わせたプロンプト調整や、結果のフィードバックによる改善が実践的です。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するデータベースです。ローカルLLMユーザー向けには、生成した埋め込み(embedding)を一括保存し、類似性検索やクエリ応答の高速化に活用できます。FAISSやPineconeなどのツールが代表的で、
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワークです。プロンプト管理やベクトルデータベース連携、マルチモデル対応を実現し、ローカル環境での柔軟なカスタマイズが可能です。実装効率化とモジュール性を重視した設計が特徴です。
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMとデータソースを統合するためのオープンソースフレームワークです。ドキュメントのインデックス作成・クエリ処理を簡易化し、ローカルLLMユーザー向けにデータ検索や知識ベース構築を効率化。Pythonで構築され、柔軟な拡張性と実用性を兼ね備えています。
📖 コンセプト
Top-P (トップピー)
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能な入力トークン数の最大値です。長すぎると情報が切り捨てられ、短すぎると文脈が断ち切れるため、適切な設定が重要です。ローカル環境では、メモリ制限を考慮し、効率的なプロンプト設計が求められます。
トークン (とーくん)
トークンは、LLMが処理する最小単位で、文字・語・サブワードなどに該当します。トークナイズ(分割)によってテキストが分解され、モデルの入力として扱われます。ローカルLLMでは、トークン数制限(例:最大3000トークン)を意識し、入力長を調整する必要があります。
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。誤った事実や架空の内容を出力し、信頼性を損なう。ローカルLLMユーザーは、出力内容を常に検証し、信頼できる情報
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一度に処理する方法で、効率性を重視します。ローカルLLMでは、バッチサイズを調整することでメモリ使用量や計算速度を最適化でき、大規模データ処理やモデルトレー
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルが入力データを受け取り、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、GPU/TPUの効率的な利用や、量子化(quantization)による精度と速度のバランスが重要です。実際には、トークン単位で逐次処理され、応答生成や
温度 (おんど)


コメント