このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模言語モデルのシリーズ。Transformerアーキテクチャを基盤と
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2など複数のバージョンが存在。テキスト生成やコード作成、論理的推論など多様なタスクに対応。ローカル環境でも効率的に動作し、軽量な設計が特徴。研究者や開発者向けにアクセス可能
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータを学習したAIモデルで、自然言語の理解・生成が可能。質問応答や文章作成、プログラミングなどに応用。ローカル環境での導入では、モデルサイズと性能のバランスを考慮し、プライバシー保護や処理速度の最適化が重要です。
Llama (ラマ)
LlamaはMetaが開発したオープンソースのLLMシリーズ(Llama、Llama 2、Llama 3など)。大規模なパラメータ数と多様なタスク対
Mistral (ミストラル)
Mistralは、フランスのMistral AIが開発した大規模言語モデルシリーズ。7Bパラメータの「Mistral-7B」が代表的で、効率的な推論性能とコード生成能力が特徴。ローカルLLMユーザー向けにオープンソース化されており、軽量な環境でも高品質な応答を実現可能。
Phi (ファイ)
Phiはマイクロソフトが開発した
Qwen (チェン)
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを効率的に利用するLLMの小型版。ローカル実行や端末向けに最適化され、低遅延・低消費電力が特徴。複雑なタスクには劣るが、軽量なアプリケーション
Transformer (トランスフォーマー)
Transformerは、2017年に提唱されたLLMの基盤となるアーキテクチャで、自己注意機構と並列処理を採
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクやドメインのデータで追加で学習させ、性能を最適化する手法です。ローカルユーザー向けには、自社のデータでモデルを調整し、専門性を高めることが可能。GPUリソースと適切なデータセットが必要で、実用性向上に直結します。
📖 量子化・最適化
AWQ (エーダブリューキュー)
AWQ(Asymmetric Weight Quantization)は、重み行列の非対称量子化手法で、精度を維持しつつモデルサイズを削減します。ローカルLLMユーザー向けに、計算リソースを節約しつつ
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
FP16は16ビット浮動小数点形式で、FP32と比べ
GGUF (ジージーユーエフ)
GGUFは、Qwenが開発した量子化モデルのファイル形式で、LLMの効率的な保存・推論を可能にします。Q2_KやQ3_Kなどの量子化手法をサポートし、モデルサイズを削減し、ローカル環境での高速推論を実現します。llama.cppなどと互換性があり、ユーザーは軽量なモデルを簡単に利用できます。
GPTQ (ジーピーティーキュー)
GPTQは、モデルの重みをグループごとに量子化する技術で、精度を維持しつつメモリ使用量を削減します。ローカルLLMユーザーには、GPUメモリ制限下でも大規模モデルを
INT4 (イントよん)
INT4は、モデルの重みを4ビット整数で表現する量子化技術で、モデルサイズを大幅に削減し、推論速度を向上させます。ただし、精度の低下が生じる可能性があります。ローカルLLMユーザー向けに、GPUメモリの制約下で軽量なモデル運用を実現するための有効な手段です。
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
量子化 (りょうしか)
量子化は、モデルの重みやアクティベーションの精度を下げて計算量やメモリ使用量を削減する技術です。例として、32ビット浮動小数点を8ビット整数に変換します。ローカルLLMユーザーには、ハードウェア制限に対応し、推論速度
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
LM Studio (エルエムスタジオ)
LM Studioは、ローカルで大規模言語モデルを実行するためのオープンソース推論エンジンです。GPU加速やモデル量子化をサポートし、軽量な実
LocalAI (ローカルエーアイ)
Ollama (オラマ)
Ollamaは、ローカル環境で大規模言語モデル(LLM)を効率的に実行するための推論エンジン。軽量で高速な処理を実現し、GPU/TPUを活用したパフォーマンス最適化が可能。モデルのローカルホスティングや、複数モデルの並列実行をサポートし、研究・開発向けに柔軟な運用を提供する。
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
**Text
llama.cpp (ラマシーピーピー)
vLLM (ブイエルエルエム)
vLLMは、大規模言語モデル(LLM)の推論を高速化するオープン
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを視覚的に操作できるノードベースのインターフェース。ローカルLLMユーザー向けに、柔軟なワークフロー構築や拡張性が高く、カスタムノードやプラグインによる高度な画像生成が可能。UIの直感性とパフォーマンスの最適化が特徴。
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable
Flux (フラックス)
LoRA (ローラ)
SDXL (エスディーエックスエル)
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成するオープンソースのラテント拡散モデルです。ローカル環境でHugging FaceやDiffusersを用いて実行可能で、高品質な画像生成や編集が可能です。ただし、計算リソースに応じて性能が変化するため、GPUの選定や最適化が重要です。
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供するGPU向け並列計算プラットフォームで、LLMのトレーニング・推論を高速化します。GPUのCUDAコアを活用し、複数の計算タスクを並列処理。ローカルLLMユーザーは、CUDAドライバやツールキットのインストールを確認し、フレームワーク(PyTorchなど)との互換性を確認する必要があります。CUDAバージョンの
NPU (エヌピーユー)
NPU(Neural Processing Unit)は、AI計算を効率化する
Tensor Core (テンサーコア)
Tensor CoreはNVIDIA GPUに搭載された専用ハードウェアで、行列演算を高速化し、LLMのトレーニングや推論を効率化します。特にFP16/FP32の混合精度計算を加速し、ローカルユーザーは高速なモデル処理やリソース節約が可能です。
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載される専用メモリで、LLMの推論時にモデルパラメータや中間データを一時的に保存します。VRAM容量が大きいほど、大規模モデルの実行やバッチサイズの拡大が可能となり、性能向上につながります。ローカルLLMユーザーは、VRAMの制限を考慮
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、外部データベースから情報を検索し、LLMに組み込むことで精度を向上させる
エンベディング (えんべでぃんぐ)
エンベディングは、テキストを意味を含む数値ベクトルに変換する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、効率的な処理を可能にします。Hugging FaceのTransformerやFAISSなどのツールで生成・管理し、次元削減やモデル精度向上に貢献します。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力(プロンプト)を設計・調整する技術です。ローカルユーザー向けには、タスクに応じたプロンプト構造(例:指示文+例示)、反復テスト、テンプレート活用が効果的です。明確な目的設定と、モデルの出力形式を事前に定義することで、精度向上が可能です。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するデータベースです。ローカルLLMユーザーは、生成した埋め込み(embedding)をここに格納し、類似性検索や情報検索を高速化できます。FAISSやPine
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワークで、エージェント、メモリ、プロンプトなどのモジュールを提供。ローカルLLMユーザー向けに、モデルの統合やカスタマイズを簡易化し、柔軟なワークフロー構築
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMとデータソースを統合するためのフレームワークで、RAG(検索拡張生成)を実現するためのデータのロード・インデックス作成・クエリ処理を提供します。ローカル環境でのカスタマイズやデプロイを容易にし、オープンソースのため柔軟な利用が可能です。
📖 コンセプト
Top-P (トップピー)
Top-P(核サンプリング)は、確率上位P%のトークンのみを候補に選ぶサンプリング手法。出力の多様性と一貫性を調整し、温度パラメータ単独では得られない自然な文章生成が可能。ローカルLLMユーザーは、P値を調整して応答の質や創造性を最適化できる。
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能な入力トークン数を指します。ローカル環境では、長すぎるコンテキストはメモリ制限により処理不能になるため、適切な長さに調整が必要です。トークン化やモデルの性能にも影響し、実用上は入力の要約や分割を検討する必要があります。
トークン (とーくん)
トークンは、LLMが処理する最小単位で、単語やサブワード(例:「unhappiness」→「un」「happi」「ness」)を含む。モデルの入出力に影響し、トークン数はコンテキスト長やパフォーマンスに直
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。事実誤認や虚偽情報を含む場合があり、信頼性に影響。ユーザーは出力内容を外部資料で確認し、モデルの出力制限やファクトチェックツールの併用が有効です。
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一度に処理する方法で、効率性を高めるが、処理遅延が生じる可能性があります。ローカルLLMでは、大量の入力データを一括で処理し、リソースを最適化する際に有効です。ただし、バッチサイズの
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルに新たな入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの軽量化(例:量子化)や、GPU/TPUの最適利用
温度 (おんど)
温度はLLMの出力多様性を調整するパラメータ。値が低いほど確率が高いトークンを選び、論理的で一貫


コメント