このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2など複数のバージョンが存在。パラメータ数が豊富で、推論速度とメモリ効率に優れ、ローカル環境での実装に適している。軽量なモデルも提供されており、さまざまなタスクで実用性が高く、競合モデル(LLaMA、Mistralなど)と同等の性能を発揮。
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータを学習し、自然な言語を理解・生成する大規模言語モデルです。ローカル環境で実行可能で、データプライバシーの確保やインターネット依存の軽減が利点ですが、高計算リソースを要するため、GPUや専用ハードウェアの導入が実践的です。
Llama (ラマ)
LlamaはMetaが開発したオープンソースのLL
Mistral (ミストラル)
Mistralは、フランスのMistral AIが開発したオープンソースのLLMシリーズで、Mistral 7Bなど高性能なモデルを含む。効率的で多言語対応し、ローカル環境での導入が容易。軽量な設計と高い推論精度が特徴で、研究やカスタムアプリケーションに
Phi (ファイ)
Phiはマイクロソフトが開発した効率的なLLMシリーズ(Phi-1/2/3)。パラメータ数が少ないながらも性能が高く、ローカル環境での実行や軽量なアプリケーションに適する。特にPhi-3は多言語対応で、小規模なハードウェアでも実用可能。
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを効率的に利用できるLLMの一種です。大規模モデル(LLM)と
Transformer (トランスフォーマー)
Transformerは、2017年にGoogleが提案した注意機構を用いたニューラルネットワークアーキテクチャ。並列処理を可能にし、長距離依存関係を効果的に処理。ローカルLLMでは、高速なトレーニングとスケーラビリティを実現し、BERTやGPTなどのモデルの基盤となる。
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、事前にトレーニングされたLLMに特定のタスクやドメインのデータで追加学習し、精度を向上させる手法です。ローカル環境では、計算リソースを節約しながらも、少量のデータでモデルを最適化可能。過学
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
FP16は16ビット浮動小数点形式で、FP32より精度は劣るが、メモリ使用量と計算速度が向上します。ローカルLLMでは、GPUのVRAM制限を緩和し、推論効率を高めるために採用されることが多く、精度の損失が許容可能な場合に有
GGUF (ジージーユーエフ)
GGUFは、量子化されたLLMモデルを効率的に保存・実行するためのファイル形式です。モデルサイズを削減し、ローカルでの推論を高速化・低メモリ化します。特に、llama.cppなどのフレームワークで採用され、GPUやCPUでの軽量実行を可能にします。ユーザーは、モデルの転送や実行時のリソース
GPTQ (ジーピーティーキュー)
INT4 (イントよん)
INT4は、モデルの重みを4ビット整数で表現する量子化技術。モデルサイズを大幅に削減し、推論速度を向上させますが、精度に若干の影響が出る可能性があります。ローカルLLMでは、GPUメモリの節約や高速な推論を実現するため、LLaMAなどのモデルで採用されることが多いです。
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
KVキャッシュは、Transformerモデル
量子化 (りょうしか)
量子化は、モデルの重みやアクティベーションの精度を低下させる技術で、計算効率とメモリ使用量を改善します。例えば、32ビット浮動小数点を8ビット整数に変換します。ローカルLLMでは、推論速度の向上やハードウェア制約への対応に有効ですが、
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、消費者向けGPUでも大規模LLMを効率的に推論可能なエンジン。4bit/8bit量子化やメモリ最適化により、高精度な推論を低コストハードウェアで
LM Studio (エルエムスタジオ)
LM Studioは、ローカルでLLMを実行するための推論エンジン。複数モデル対応、GPU加速、直感的なUIを備え、カスタマイズ性が高く、プライバシー保護とコスト削減を目的としたオンプレミス利用に最適です。
LocalAI (ローカルエーアイ)
Ollama (オラマ)
Ollamaは、ローカルでLLMを効率的に実行する推論エンジン。GPUを活用し、軽量なAPIでモデルのホスティングや推論を可能にし、プライバシー保護とコスト削減を実現。複数モデルの並列実行やオープンソースのサポートが特徴
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
**Text Generation Inference**は、LLMが入力に基づいてテキストを生成する推論プロセスです。ローカル環境では、GPUメモリ最適化やバッチ処理、量子化技術を活用し、効率的な推論を実現。Hugging Faceの実装では、低
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAモデルをC++で実装した推論エンジンで、CPUやGPUでの高速推論を可能にします。軽量化技術(量子化)を採用し、ローカル環境でも効率的な実
vLLM (ブイエルエルエム)
vLLMは、大規模言語モデルの推論を高速化するオープンソースのエンジンで、メモリ効率化と並列処理技術を採用。ローカル環境でも高精度な推論を実現し、GPU/CPUを問わず柔軟に利用可能。ユーザーはリソース
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを視覚的に操作できるノードベースのインターフェース。ワークフローを柔軟にカスタマイズでき、拡張性が高く、ローカ
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable Diffusion)に追加される制御モジュールで、エッジ、ポーズ、セグメンテーションなどから生成を制御します。ユーザーは条件付き入力(例:線画)を指定し、生成画像の構造を正確に制御可能です。ローカルLLMユーザー向けには、Py
Flux (フラックス)
Fluxは、Black Forest Labsが開発した拡散モデルベースの画像生成AIで、高品質な画像を生成する能力を持つ。日本語や英語など複数言語に対応し、ローカル環境での実行が可能。モデルの柔軟性と精度が特徴で、アーティストや開発者向けにオープンソースとして提供されている。
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルを効率的に微調整する技術で、画像生成モデルに適用される。モデルの重み行列に低ランク行列を追
SDXL (エスディーエックスエル)
SDXLはStable Diffusionの拡張版で、高解像度・高品質な画像生成を可能にする大規模モデル。より多くのパラ
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成する拡散モデル。ノイズを徐々に除去するプロセスで画像を生成し、UNetアーキテクチャを採用。オープンソースで、ローカル環境でも実行可能。高品質な画像生成が可能で、アートやデザイン分野で広く利用されている。
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供するGPU向け並列計算プラットフォームで、GPUの計算能力を活用して機械学習や深層学習を高速化します。ローカルLLMユーザーは、CUDAを介してGPUアクセラレーションを実現し、
NPU (エヌピーユー)
NPU(Neural Processing Unit)は、AI計算を高速化する専用ハードウェア。機械学習や深層学習の推論・トレーニングを効率的に行うため、ローカルLLMユーザーには低消費電
Tensor Core (テンサーコア)
Tensor Coreは、NVIDIA GPUに搭載された専用ハードウェアで、行列演算(マトリクス演算)を高速化する。LLMのトレーニングや推論における行列計算を効率化し、性能を向上させる。ローカルLLMユーザーは、Tensor Core対応GPU(例:A100、H
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載された専用メモリで、画像処理や機械学習計算時にデータを一時的に保存します。ローカルLLMユーザーにとって、モデルのパラメータ量やバッチサイズに応じてVRAM容量が
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索(Retrieval)と生成(Generation)を組み合わせた技術で、外部データをモデルに統合して精度を向上させます。ローカルLLMユーザーは、自社データをベクトルデータベースに登録し、検索結果を生成に活用することで、最新情報や専門知識
エンベディング (えんべでぃんぐ)
エンベディングは、テキストやデータを数値ベクトルに変換する技術で、意味の類似性を数値で表現します。ローカルLLMでは、検索やクラスタリングに活用され、Hugging Faceなどのライブラリで簡単に生成可能です。高次元データを低次元に圧縮し、モデルの処理効率を向上させます。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な出力を引き出すためのプロンプトの設計技術です。明確な指示や例を組み込み、反復的なテストを通じて最適化します。ローカルLLMユーザー向けには、タスクに応じたテンプレート作成や、出力形式の制約を明記することが有効です。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像などのデータを数値ベクトルに変換し、効率的に検索・保存するためのデータベースです。LLMでは、類似性検索や知識ベース構築に活用され、FAISSやPineconeなどのツールで実装されます。ローカル環境では、高速なクエリ処理と大規模データの管理
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワーク。プロンプト、モデル、メモリのモジュール化や、データ処理・評価ツールを提供。ローカル環境でのモデルデプロイを可能にし、プライバシー対策やカスタマイズ性を重視するユーザーに適したエコシステムを構築。
LlamaIndex (ラマインデックス)
📖 コンセプト
Top-P (トップピー)
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能な入力トークン数を指します。ローカル環境では、長すぎるコンテキストはメモリ制限により処理不能になるため、要約や分割が必要です。モデルの性能に直結し、トークン化方式やハードウェアの制約を考慮した最適な設定が重要です。
トークン (とーくん)
トークンは、テキストを処理する際の最小単位で、単語やその一部(例:「unhappiness」→「un」「happi」「ness」)を表します。LLMではトークン化(テキストをトークン列に変換)が行われ
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。誤った事実や架空の内容を出力するリスクがある。実践では出力内容を常に検証し、信頼性の高いデータで訓練し、推論時にファクトチェックを組
バッチ処理 (ばっちしょり)
バッチ処理は、データを一括で処理する方法で、ローカルLLMでは大量のデータを効率的に処理するために用いられます。逐次処理に比べて並列性が高く、メモリ使用量を抑えることで学習や推論のパフォーマ
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルを用いて入力データから出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの計算効率(例:量子化)、メモリ使用量、推論速度の最適化が実践的です。訓練とは異なり、既存の知識を応用してリアルタイムな結果
温度 (おんど)
温度はLLMの出力のランダム性を調整するパラメータ。値が低いほど確率が高いトークンを選び、論理的で一貫性のある


コメント