このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
Gemma (ジェマ)
GemmaはGoogleが開発したLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。コード生成や多言語対応に優れ、2B~
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータで訓練された大規模言語モデルで、自然言語処理タスクに優れ、質問応答や文章生成などに応用されます。ローカル環境での利用では、モデルのパラメータ規模や訓練データの質が性能に直結し、計算リソースの最適化が重要です。
Llama (ラマ)
Llamaはメタが開発したオープンソースのLLMシリーズ
Mistral (ミストラル)
Mistralは、フランスのMistral AIが開発したLLMシリーズ。Mistral-7Bなど、パラメータ数が少ないながらも性能が高く、オープンソースで利用可能。ローカル環境での導入が容易で、軽量なタスクにも適している。日本語対応モデルも存在し、実用性が高く注目されている。
Phi (ファイ)
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、対話理解やコード生成、多言語対応を強化したシリーズ(Qwen、Qwen2、Qwen3など)を含む。ローカル環境での展開が可能で、データセキュリティと柔軟性を重視するユーザー向けに、オンプレミスでの導入が実現可能。自然言語処理やプログラミング支援など幅広いタスクに対応。
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを抑えて動作するLLMの一種です。LLMと比べてトレーニングデータ量が少ないため、複雑なタスクには劣いますが、ローカル環境での実行や軽量なアプリケーションに適しています
Transformer (トランスフォーマー)
Transformerは、注意機構(Self-Attention)と位置エンコーディングを用いるニューラルネットワークアーキテクチャ。並列処
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、事前にトレーニングされたLLMに特定のタスクやドメインのデータを追加で学習させ、性能を最適化するプロセスです。ローカルユーザー向けには、カスタムモデルの作成や精度向上に有効で、計算リソースと質の高いデータが不可欠です。
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
EXL2は、EXAQMチームが開発した量子化技術で、モデルの精度を維持しつつ計算量とメモリ
FP16 (エフピーじゅうろく)
FP1
GGUF (ジージーユーエフ)
GPTQ (ジーピーティーキュー)
GPTQ(Group-wise Quantization)は、モデルの重みをグループごとに量子化し、精度を維持しながらモデルサイズを削減する技術。ローカルLLMユーザーには、GPUメモリ制限下でも大規模モデルを
INT4 (イントよん)
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
KVキャッシュは、Transformerモデルの注意機構で生成されるキー(Key)と値(Value)を一時的に保存するメモリ領域。推論時、
量子化 (りょうしか)
量子化は、モデルの重みやアクティベーションの精度を下げて計算効率を向上させる技術です。例:32bit浮動小数点を8bit整数に変換。モデルサイズの削減や推論速度の向上が可能ですが、精度の低下がトレードオフです。ローカルLLMでは、デバイスリソースの制限に対応する実
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、ローカル環境で大規模LLMを効率的に推論するためのエンジン。量子化技術を活用し、GPU/CPUでの低メモリ推論を実現。複数モデルの柔軟なロードと高速な応答を可能にし、開発者向けに最適化されたAPIを提供。実践的には、ハードウェ
LM Studio (エルエムスタジオ)
LM Studioは、ローカルで大規模言語モデル(LLM)を実行するための推論エンジン。GPU加速や複数モデル対応、直感的なUIを備え、開発者や研究者がクラウドに依存せずにモデルをテスト・カスタマイズできる。軽量で高パフォーマンスな推論を実現し、オンプレミス環境での実装に最適。
LocalAI (ローカルエーアイ)
LocalAIは、大規模言語モデルをローカル環境で実行可能なオープンソースの推論エンジンです。クラウド依存を避けてプライバシー保護やカスタマイズを実現し、開発者向けに自社サーバーでの導入を可能にします。ただし、GPUなどのリソースを要するため、コストと性能のバランスが重要です。
Ollama (オラマ)
Ollamaは、ローカル環境で大規模言語モデルを効率的に推論するためのエンジン。モデルのホスティングやAPI経由の推論をサポート
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
Text Generation Inference(TGI)は、Hugging Faceが提供する推論エンジンで、大規模言語モデルのテキスト生成
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAモデルをC++で実装した推論エンジンで、GGMLというGPU非依存のライ
vLLM (ブイエルエルエム)
vLLMは、大規模言語モデル(LLM)の推論を高速化するためのエンジンで、並列デコードやメモリ最適化技術を採用。ローカル環境でも高
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを視覚的に操作できるノードベースのインターフェース。コード知識不要で、柔軟なワークフロー構築が可能。ローカル環境で高速実行し、モデルや拡張機能のカスタマイズが容易。AIアート制作のプロトタイピングに最適。
ControlNet (コントロールネット)
Flux (フラックス)
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルを効率的に微調整する技術で、画像生成では拡散モデルに適用される。低ランク行列を追加し、
SDXL (エスディーエックスエル)
SDXL(Stable Diffusion XL)は、Stability AIが開発した高解像度画像生成モデル。従来のStable Diffusionより高品質な画像生成が可能で、詳細なテキストプロンプトに対応。ローカル実行時、GPUメモリ効率を重視
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したオープンソースのテキストから画像を生成する拡散モデル。ノイズを
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供するGPU向け並列計算プラットフォームで、GPUの演算リソースを効率的に活用するためのAPIとライブラリを含みます。ローカルLLMユーザーは、CUDAを
NPU (エヌピーユー)
Tensor Core (テンサーコア)
Tensor CoreはNVIDIA GPUに搭載された専用ハードウェアで、行列演算を高速化し、LLMのトレーニング・推論を効率化します。ローカルLLMユーザーは、CUDA対応GPUを活用し、Tensor Coreを有効にすることで計算時間を短
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載される専用メモリで、画像処理や機械学習モデルの計算に使用されます。ローカルLLMユーザーにとって、モデルのサイズやバッチ処理能力に直結し、VRAM容量が
eGPU (イージーピーユー)
eGPU(外部グラフィックボード)は、ThunderboltやUSB-C経由で接続し、ノートPCや低スペックPCに高性能GPUを追加するハードウェア。ローカルLL
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索結果をもとに生成を行う技術で、LLMに外部知識を組み合わせる手法。ローカルLLMユーザーには、独自データベースを活用して知識を拡張し、最新情報への対応を可能にします。ただし、検索精度や遅延の最適化が実装の鍵です。
エンベディング (えんべでぃんぐ)
エンベディングは、テキストを意味を含む数値ベクトルに変換する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、自然言語をモデルが処理可能な形式に変換します。Hugging Faceなどのライブラリで提供される事前学習済みモデルを用いることで、効率的に実装可能です。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力(プロンプト)を設計する技術です。明確な指示や役割定義、例示を組み込み、反復的な調整を通じて出力品質を向上させます。ローカルユーザー向けには、シンプルな構造と実験的なアプローチが効果的です。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するツールです。ローカルLLMユーザー向けには、RAG(検索拡張生成)でクエ
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワークです。プロンプト、モデル、メモリなどのモジュールを柔軟に組み合わせ、ローカル環境でのモデル実行やデータベース連携を簡易化します。実践的には、カスタマイズ性が高く、評価ツールも備えており、開発効率を向上させます。
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMとデータを統合するためのフレームワークで、ドキュメントのインデックス作成やクエリ処理を簡易化します。ローカルLLMユーザー向けに、データベースとの連携や効率的な検索を実現し
📖 コンセプト
Top-P (トップピー)
Top-P(核サンプリング)は、確率分布の
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能な入力トークン数を指します。ローカルユーザー向けに、長さが大きいほど長文の理解や連続的な会話が可能ですが、メモリ使用量や推論速度に影響を与えます。実践では、モデルの制限内に提示を最適化し、不要な情報を削除することで効率を高めましょう。
トークン (とーくん)
トークンは、LLMが処理する最小単位で、文字・語彙・サブワードのいずれかを表します。トークナイズ(分割)によってテキストが分解され、モデルはこれらを入力・出力の基盤として扱います。トークン数はモデルの性能やリソース使用量に直結するため、ローカルユーザーはプロンプトの最適化や制限対策に注意が必要です。
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。誤った事実や架空の内容を出力し、信頼性を損なう。ローカルユーザー向けには、出力内容を常に検
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一度に処理する方法で、効率性を重視します。ローカルLLMユーザー向けには、大量の入力データを一括で処理し、GPU利用率を向上させる実践的な手法です。並列処理やメモリ効率化に役立ち、トレーニ
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルが新しい入力データから予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの計算効率(例:量子化)やメモリ使用量の最適化が重要です。トレーニングとは異なり、推論は実運用時に必要で、低遅延・
温度 (おんど)
LLMの出力生成において「温度」は確率分布の調整パラメータ。値が低いほど確率の高いトークンを選び、


コメント