このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模言語モデルのシリーズ。Transformerアーキテクチャを基盤とし、大量のテキストデータで事前学習された後、特定のタスクに微調整される。ローカル環境での利用には、モデルの転送や計算リソースの確保が必須で、軽量化技術
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。軽量で効率的な設計により、ローカル環境での実行が可能。コード生成やテキスト作成に強みを持ち、コストとプライバシーを重視するユーザーに適した
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータを学習し、自然な文章生成や質問応答を可能にするAIモデルです。ローカル環境で利用する際は、モデルサイズ(パラメータ数)、推論速度、メモリ使用量を考慮し、適切なハードウェアと最適化技術(例:量化、カスタムトークナイザー)を組み合わせることが重要です。
Llama (ラマ)
Mistral (ミストラル)
Mistralは、フランスのMistral AIが開発したオープンソースのLLMシリーズ。Mistral-7Bなど、軽量で高精度なモデルが特徴。ローカル環境でも効率的に動作し、コード生成や論理推論に適する。コミュニティサポートが充実し
Phi (ファイ)
Phiはマイクロソフトが開発した軽量LLMシリーズ(Phi-1/Phi-2/Phi-3)。パラメータ数が少ないながらも効率的で、チャットボットや特定タスクに適したモデル。ローカル環境でも軽く動作し、リソース制限下での実用性が高く、実験やデプロイに最適。最新版Phi-3は性能
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、多言語対応・幅広いタスク処理(質問応答・文章生成・プログラミングなど)が可能。ローカル環境での導入もサポートされており、企業向けのカスタマイズやプライバシー保護に適した利用が可能。
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを効率的に利用するLLMの一種。ローカル環境やエッジデバイス向けに最適化され、低遅延・低消費電力が特
Transformer (トランスフォーマー)
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、事前にトレーニングされたLLMを特定のタスクやドメインに合わせ
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
EXL2は、モデルの精度を維持しつつ、計算リ
FP16 (エフピーじゅうろく)
GGUF (ジージーユーエフ)
GPTQ (ジーピーティーキュー)
GPTQ(Group-wise Quant
INT4 (イントよん)
INT4は、モデルの重みを4ビット整数で表現する量子化技術です。モデルサイズを大幅に削減し、メモリ効率を向上させますが、精度に若干の影響が出る可能性があります。ローカルLLMユーザー向けに、GPU/
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
KVキャッシュは、LLMの推論時にAttentionメカニズムで生成されるKeyとValueを一時
量子化 (りょうしか)
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
LM Studio (エルエムスタジオ)
LM Studioは、ローカルでLLMを実行するための推論エンジン。複数モデル対応、GPU加速、直感的なUIを備え、開発者向けにパフォーマンス最適化とカスタマイズを可能にします。軽量で高精度な推論を実現し、オンプレミス環境での利用に最適です。
LocalAI (ローカルエーアイ)
LocalAIは、ローカル環境でLLMを実行するためのオープンソース推論エンジン。クラウド依存を避けてプライバシー保護やコスト削減を実現し、GPU/TPUを活用した高速推
Ollama (オラマ)
Ollamaは、ローカルで大規模言語モデル(LLM)を効率的に実行する推論エンジン。モデルのロードやリソース管理を自動化し、GPU/CPUを活用して高速推論を実現。シンプルなAPIと軽量設計で、開発者向けにモデルのデプロイやカスタマイズを容易にします。
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
**Text Generation Inference**は、学習済みLLMが入力に基づいてテキストを生成する推論プロセスです。ローカルユーザー向けには、高速化技術(例:量子化、カーネル最適化)でGPU/CPU上の効率的な実行を実現し、
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAモデルをC/C++で実装した推論エンジンで、CPU最適化により軽量な実行が可能。GPUサポートも含め、ローカル環境での効率的なモデル実行を実現。GGUF形式の軽量化モデルにも対応し、リソース制約のあるデバイスでも利用可能。
vLLM (ブイエルエルエム)
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionなどの画像生成モデルを視覚的に操作できるノードベースのインターフェース。ワークフローを柔軟に構成可能で、コード知識不要でカスタマイズが可能。ローカルLLMユーザー向けに、モデルの組み合わせやプロンプトの調整を直感的に実行
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable Diffusion)に「制御信号」(エッジ、ポーズ、セグメンテーションなど)を入力し、生成結果を意図的に制御する技術。ローカルLLMユーザー向けに、画像の構造やスタイルを正確に再現したい場合に有効。実践では、外部ツールで作成した制御信号をモデルに接続して利用する。
Flux (フラックス)
Fluxは、Black Forest Labsが開発した高品質な画像生成用の拡散モデルです
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルを微調整する際、重み行列に低ランクの行列を追加してパラメータ数を抑える技術。画像生成では、特定のスタイルやタスクに適応させながら計算コストを削減し、ローカル環境でも効率的なファインチューニングが可能。モデルの
SDXL (エスディーエックスエル)
SDXL(Stable Diffusion XL)は、Stability AIが開発した高解像度・高品質な画像生成モデル。従来のStable Diffusionを拡張し、詳細なテキストプロンプトからリアルな画像を生成可能。ローカルLL
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成するオープンソースモデル。拡散過程を用いて高品質な画像を
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供するGPU向け並列計算プラットフォームで、GPUの演算能力を活用してLLMのトレーニングや推論を高速化します。ローカルLLMユーザー向けに、PyTorchやTensorFlowなどのフレームワークでGPU加速を実現するための基盤として重要です。CUDAドライバとライブラリのインストールが前提となります
NPU (エヌピーユー)
NPU(Neural Processing Unit)は、AI計算を最適化した専用ハードウェアで、特に深
Tensor Core (テンサーコア)
Tensor CoreはNVIDIA GPUに搭載された専用演算ユニットで、行列計算を高速化。機械学習のトレーニング・推論を加速し、FP16/INT8などの混合精度計算を効率的に行える。ローカ
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載された専用メモリで、モデルの重みや計算中のデータを一時的に保存します。ローカルLLMでは、VRAM容量がモデルサイズやバッチサイズに直接影響し、不足すると性能低下やエラーにつながります。効率的な運用には、混合精度計算や量子化によるメモリ最適
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索結果をLLMに組み合わせて回答を生成する技術。ローカルLLMユーザーには
エンベディング (えんべでぃんぐ)
エンベディングは、テキストを意味を含む数値ベクトルに変換する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、効率的な処理を実現します。Hugging Faceのsentence-transformersなど、実装ツールを活用し、ベクトル空間での検索性能を高めることが重要です。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力(プロンプト)を設計・調整する技術です。ローカルユーザー向けには、タスクに応じたテンプレート作成や、反復的なテストを通じた最適化が重要です。明確な指示や例示を含めることで、モデルの出力品質を向上させます。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するデータベースです。LLMの出力や埋め込みベクトルを格納し、類似性検索やクエリ応答に活用。ローカル環境ではFAISSやMilvusなどのオープンソースツールで構
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワークです。プロンプト、モデル、メモリのモジュール化や、データ処理・チェーン構成ツールを提供し、ローカル環境での柔軟なパイプライン構築を可能にします。ユーザーは自前のモデルを簡単に統合・カスタマイズでき、実装効率が向上します。
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMとデータソースを統合するフレームワークで、検索・インデックス作成・データ処理を簡易化。RAG(検索拡張生成)を実現し、ローカルLLMユーザー向けにデータ連携やアプリケーション構築を
📖 コンセプト
Top-P (トップピー)
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能なトークン数を示す指標です。ローカルユーザー向けには、長文処理や複雑なタスクに適応するための要件となるため、モデルの性能とメモリ使用量のバランスを考慮した選択が重要です。
トークン (とーくん)
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。誤った事実や架空の内容を出力し、信頼性を損なう。ローカルLLMユーザーは、出力内容を外部
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一度に処理する方法で、効率性を重視します。ローカルLLMでは、複数のクエリを一括で処理することで、リソースの無駄を減らし、応答速度を向上させられます。特に大規模なデータ処理やモデルトレーニングに有効です。
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルが入力データを受け取り、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(推論速度・メモリ使用量)を最適化するため、量子化やモデル圧縮技術が重要です。実際の応用では、API呼び出しやオンデマンド処理に活
温度 (おんど)
LLMにおける「温度」は


コメント