このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。ローカル環境での実行を想定し、軽量かつ高精度な処理を実現。研究や開発に適し、コスト効率の良い導
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータを学習したAIモデルで、自然言語の理解・生成を可能にします。ローカル環境で利用可能なモデル(例:LLaMA、Mistral)は、チャットボットや翻訳、コンテンツ生成などに活用され、計算リソースを節約しながら高精度な処理が可能です。
Llama (ラマ)
Mistral (ミストラル)
Mistralは、フランスのMistral AIが開発した大規模言語モデル(LLM)シリーズ。7Bパラメータの「Mistral-7B」が代表的で、オープンソース化されている。ローカル環境での実行を想定し、効率的な推論性能と軽量設計が特徴。ユーザーは自社のハードウェアで
Phi (ファイ)
Phiはマイクロソフトが開発した効率
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、多言語対応・長文処理能力に優れ、ローカル環境での導入が可能
SLM (エスエルエム)
Transformer (トランスフォーマー)
Transformerは、2017年に発表されたLLMの基盤となるアーキテクチャで、自己注意機構(Self-Attention)と位置エンコーディングを採用。並列処理を可能にし、文脈理解を高める。ローカルLLMでは、GPUメモリ効率を考慮したスケ
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクやドメインのデータで追加学習し、性能を最適化する手法です。ローカルユーザー向けには、自社データに合わせたカスタマイズが可能で、再訓練より効率的です。過学習を防ぐため、適切なデータ選択と学習率調整が重要です。
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
EXL
FP16 (エフピーじゅうろく)
FP16
GGUF (ジージーユーエフ)
GPTQ (ジーピーティーキュー)
GPTQ(Group-wise Quantization)は、モデルの重みをグループごとに量子化し、精度を維持しながらメモリ使用量を削減する技術。ローカルLLMユーザー向けに、GPUメモリの制限を緩和し、大規模モデルの実行を可能にします。Hugging Faceなどと互換性があり、
INT4 (イントよん)
INT8 (イントはち)
INT8は、モデルの重
KVキャッシュ (けーぶいきゃっしゅ)
量子化 (りょうしか)
量子化は、モデルの重みやアクティベーションの精度を低下させる最適化技術で、通常は32ビット浮動小数点から8ビット整数などに変換します。これによりモデルサイズが縮小し、推論速度が向上しますが、精度に多少の影響が出る可能性があります。ローカルLLMユーザーは、ハードウェア制約に対応するためこの技術を活用します。
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、ローカルで大規模言語モデル(LLM)を効率的に
LM Studio (エルエムスタジオ)
LM Studioは、ローカル環境でLLMを実行するための推論エンジン。モデルのローカル実行を可能にし、コストやプライバシーを重視するユーザー向け。複数モデルのサポートと直感的なインターフェースを提供し、クラウド依存を避ける実践的な選択肢となる。
LocalAI (ローカルエーアイ)
LocalAIは、大規模言語モデル(LLM)をローカル環境で実行可能なオープンソースの推論エンジンです。クラウドに依存せず、プライバシー保護
Ollama (オラマ)
Ollamaは、ローカルで大規模言語モデル(LLM)を効率的に実行できる推論エンジン。軽量な設計とメモリ最適化により、GPUやCPUでの高速推論を実現。モデルのロー
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
llama.cpp (ラマシーピーピー)
llama.cppは、LL
vLLM (ブイエルエルエム)
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを操作するためのノードベースのインターフェースで、柔軟なワークフロー構築が可能。ローカル環境でカスタマイズしやすく、非プログラマでも直感的に使用可能。オープンソースで拡張性に優れ、画像生成プロセスの細かい調整が実践的。
ControlNet (コントロールネット)
ControlNetは、Stable Diffusionなどの拡散モデルに接続され、画像生成を制御するための技術です。エッジ、ポーズ、セグメンテーションなどの外部信号を入力として受け取り、生成画像の構
Flux (フラックス)
Fluxは、Black Forest Labsが開発した拡散モデルのシリーズで、高解像度かつ詳細な画像生成を特徴
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルを微調整する際、重み行列の一部を低ランク近似で調整する技術。画像生成では、既存モデルにスタイルや特
SDXL (エスディーエックスエル)
SDXL(Stable Diffusion XL)は、高解像度かつ高品質な画像生成を可能にする拡張型のディフュージョンモデルです。従来のバージョンに比べて詳細表現や芸術的質感が向上し、複雑な
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成するオープンソースモデル。拡散過程を用いて高品質な画像を生成し、ローカル環境でも実行可能。ユーザーが独自のプロ
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供するGPU向け並列計算プラットフォームで、LLMのトレーニングや推論時にGPUの計算能力を活用するための基盤技術です。ローカルユーザー向けには、CUDAドライバやツールキットのインストールが必須で、PyTorchやTensorFlowなどのフレームワークがGPU加速を実現するためのインターフェースを提供します。
NPU (エヌピーユー)
Tensor Core (テンサーコア)
Tensor Coreは、NVIDIA GPUに搭載された専用ハードウェアで、行列演算を高速化する。LLMのトレーニングや推論時に、FP16/INT8の混合精度計算を効率的に行い、性能を飛躍的に向上させる。ローカルユーザー向けに、GPUの計算リソースを
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUがグラフィック処理や機械学習計算時に一時的にデータを保存する専用メモリ。ローカルLLMでは、モデルパラメータやバッチデータがVRAMに格納されるため、容量が大きいほど大規模モデルの処理や高速推論が可能
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、外部データベースから情報を検索し、LLMに統合して回答を生成する技術。ローカルLLMユーザーには、知識の最新化や精度向上に役立ち、実装にはベクトルDBとLLMの連携が不可欠。効率的な情報検索と生成の融合が特徴。
エンベディング (えんべでぃんぐ)
エンベディングは、テキストを意味を含む数値ベクトルに変換する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、自然言語をモデルが処理可能な形式に変換します。Hugging Faceのライブラリなどで生成され、効率的なデータ処理やモデルの精度向上に貢献します。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力(プロンプト)を設計する技術です。明確な指示や例を組み込み、反復的なテストを通じて精度を向上させます。ローカルLLMユーザーは、この手法でモデルの出力を最適化し、クラウド依存を減らすことができます。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するデータベースです。LLMユーザー向けには、文書の埋め込み(embedding)を格納し、類似性検索やRAG(検索拡張生成)で活用します。ロ
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMアプリケーション開発を支援するフレームワークで、プロンプト、チェーン、メモリ、エージェントなどのモジュールを提供します。ローカルLLMユーザー向けに、複数モデルの統合やワークフロー自動化を簡易化し、実用的なアプリケーション構築を可能にします。
LlamaIndex (ラマインデックス)
LlamaIndexは、ローカルLLMとデータソースを統合するフレームワークで、ドキュメントの検索・処理を
📖 コンセプト
Top-P (トップピー)
Top-P(核サンプリング)は、確率の累積値がPを超えるトークンを候補に選ぶ手法。Top-Kより柔軟で、出力の多様性とコヒーレンスを調整可能。ローカルLLMユーザー向けに、Pを0.9に設定すると自然な文章生成が期待でき、0.5にすると精度重視の出
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能な入力トークン数の上限を指します。ローカルユーザー向けに、長さが大きいほど複雑なタスクに対応可能ですが、メモリ使用量や推論速度に影響を与えます。適切な設定で、モデルの精度と効率を最適化しましょう。
トークン (とーくん)
トークンは、テキストをモデルが処理可能な最小単位に分割した要素(例:単語、サブワード)。LLMでは、入力・出力をトークンに変換して処理し、モデルの性能やリソース使用量に
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。誤った事実や架空の内容を出力するリスクがある。ユーザーは出力内容を信頼できる情報源で確認し、論理的整合性をチェックするなど、慎重な検証が重要。
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一括で処理する方法で、LLMでは大量の入力データを効率的に処理するために用いられます。並列処理により
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルに新たな入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(推論速度・メモ
温度 (おんど)


コメント