このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模言語モデル(LLM)のシリーズ。Transformerアーキテクチャを基盤
Gemma (ジェマ)
GemmaはGoogleが開発した軽量で高性能なLLMシリーズ(Gemma-2、Gemma-2.5など)。コード生成や論理的推論に強みを持ち、多言語対応。ローカル環境やエッジデバイスでの実装に適し、オープンソースとして利用可能。計算リソースを抑えて高精度な処理を実現する設計が特徴。
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なパラメータ数と訓練データを用いて、自然言語の生成・理解を高精度で行うAIモデルです。ローカル環境での利用では、GPU/TPUの性能やメモリ容量に注意し、モデルの軽量化(例:Quantization)や最適化技術を活用する必要があります。
Llama (ラマ)
Mistral (ミストラル)
Phi (ファイ)
Phiは、Microsoftが開発した効率的なLLMシリーズで、小規模ながら高精度な推論やコード生成を実現。ローカル環境での実行に適し、軽量なモデル構成が特
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルシリーズで、対話理解・コード
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを効率的に利用するLLMの一種です。ローカル環境で
Transformer (トランスフォーマー)
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクやドメインに合わせてパラメータを調整する手法です。ローカル環境では、少量のデータ
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
FP16は16ビット浮動小数点形式で、FP32より半分の精度を持つ。モデルのメモリ使用量を削減し、推論速度を向上させるが、精度低下のリスクがある。ローカルLLMでは、GPUの性能と精度のバランスを考慮し、混合精度トレーニ
GGUF (ジージーユーエフ)
GGUFは、LLMの量子化・最適化
GPTQ (ジーピーティーキュー)
GPTQ(Group-wise Quantization)は、モデルの重みをグループごとに量子化し、精度を維持しながらモデルサイズを削減する技術。ローカルLLMユーザー向けに、GPUメ
INT4 (イントよん)
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
量子化 (りょうしか)
量子化は、モデルの精度を下げずに計算量やメモリ使用量を削減する最適化技術です。例として、32ビット浮動小数点を8ビット整数に変換し、推論速度を向上させます。ローカルLLMでは、モデルサイズの削減やデバイス性能の向上に有効ですが、精度の低下を抑えるための適切な量子化手法(例:混合精度)の選択が重要です。
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV
LM Studio (エルエムスタジオ)
LM Studioは、ローカルで大規模言語モデル(LLM)を実行できる推論エンジン。GPU加速やモデル量子化をサポートし、軽量なUIでモデルのロード・推論を簡易化。ユーザーは自前のハードウェアでプライバシーを保ちつつ、高精度な推論を実現可能。特に、カスタムモデルのデプロイやテストに適
LocalAI (ローカルエーアイ)
LocalAIは、ローカル環境でLLMを効率的に実行する推論エンジン。GPU/CPUリソースを最適化し、低遅延・プライバシー保護を実現。ユーザーが自前のハードウェアでモデルをカ
Ollama (オラマ)
Ollamaは、ローカルでLLMを効率的に実行する推論エンジン。モデルのロード・推論を簡易APIで実現し、GPU利用率を最適化。軽量な設計で、開発環境や個人PCでも高速な推論が可能。モデルのカスタマイ
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
**Text Generation Inference**は、トレーニング済
llama.cpp (ラマシーピーピー)
vLLM (ブイエルエルエム)
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを視覚的に操作できるノードベースのインターフェース。ユーザーはノードを接続してワークフローを構築し、画像生成をカスタマイズ可能。ローカルLLMユーザー向けに、オープンソースで拡張性が高く、スクリプト不要で直感的な操作が可能。プラグイン対応で柔軟性が魅力。
ControlNet (コントロールネット)
ControlNetは、拡散モデルに追加の制御信号(エッジ、ポーズなど)を入力するためのモジュールで、画像生成の精度を高めます。ローカルLLMユーザー向けに、Stable
Flux (フラックス)
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルを効率的に微調整する技術。画像生成では、事前学習モデルに低ランク行列を追加し、パラメータ数を抑えつつ特定のタスクやスタイルに適
SDXL (エスディーエックスエル)
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成する拡散モデル。ノイズを徐々に除去するプロセスで画像を生成し、オープンソース化されているためローカル環境でも利用可能。GPU性能が高く、高品質な画像生成が特徴。コミュニティで広く活用されている。
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供するGPU向け並列計算プラットフォームで、GPUの演算資源を効率的に活用するためのAPIとツールキットを含みます。ローカルLLMユーザー向けには、大規模モデルのトレーニ
NPU (エヌピーユー)
NPU(Neural Processing Unit)は、AI計算を最適化した専用ハードウェアで、行列演算やテンソル処理を高速化。
Tensor Core (テンサーコア)
Tensor CoreはNVIDIA GPUに搭載された専用ハードウェアで、行列演算を高速化し、LLMのトレーニングや推論を効率化します。特にRTX 30系以降のGPUで有効で、混合精度計算をサポートし、性能と電力効率を向上させます。CUDAバージョンの確認が重要です。
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載された専用メモリで、画像処理や機械学習モデルの計算に使用されます。ローカルLLMユーザーにとって、モデルのサイズやバッチサイズに応じてVRAM容量が限界値を超えると、動作不安定やエラーが発生します。モデルのスムーズな実行には、VRAMの十分な確保が不可欠です。
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索結果をLLMに組み合わせて回答を生成する技術。外部データベースから情報を検索し、その結果をモデルにフィードバックすることで、知識の
エンベディング (えんべでぃんぐ)
エンベディングは、テキストやデータを数値ベクトルに変換する技術で、LLMが意味を理解するための基盤となる。ローカル環境では、事前学習済みモデル(例:Sentence Transformers)を用いて、類似性検索やクラスタリングなどに活用可能。計算効率と精度のバランスを意識した選択が重要。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力(プロンプト)を設計する技術です。明確な構造や具体的な指示を組み込むことで、出力の質を向上させます。ローカルLLMユーザーは、タスクに合わせたプロンプトの反復的な調整を通じて、モデルの性能を最大限に引き出すことができます。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するデータベースです。ローカルLLMユーザー向けには、生成した埋め込み(Embedding)を格納し、類似性検索やクエリ応
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワークで、プロンプト・モデル・メモリの連携やデータベース統合を簡易化。ローカルLLMユーザー向けに、モジュール構成やエージェント機能を提供し、柔軟な拡張性と実装効率を向上させます。
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMとデータソースを統合するためのフレームワークで、RAG(検索拡張生成)を実現します。データのインデックス作成・検索機能を提供し、ローカル環境でのカスタマイズや多様なLLMとの連携を可能にします。実践的には、アプリケーション開発時の効率化と柔軟性を向上させます。
📖 コンセプト
Top-P (トップピー)
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能なトークン数を指します。長さが大きいほど、長文や複雑なタスクに対応可能ですが、メモリや計算リソースの消費も増加します。ローカルユーザーは、入力の長さに注意し、必要に応じて要約や分割を行う必要があります。
トークン (とーくん)
トークンは、LLMが処理する最小単位で、単語やサブワード(例:un/happi/ness)を含む。トークナイズ(分割)によりテキストが変換され、モデルの入力・出力に影響。ローカルLLMでは、トークン数を意識してプロンプトを最適化し、リソース効率を向上させることが重要。
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。事実誤認や虚偽情報を含むため、ユーザーは出力内容を信頼できるソースと照合し、モデルの出力に制限を設けるなどの対策が必要。特にローカルLLMでは、データの正確性を保証するためのフィルタ
バッチ処理 (ばっちしょり)
バッチ処理は、データを一括で処理する方法で、効率性を重視
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルに新しい入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの軽量化(量子化)や最適化技術(例:KVキャッシュ)を活用し、GPU/TPUの効率的な利用
温度 (おんど)
温度はテキスト生成時の確率分布を調整するパラメータ。低値(例:0.1)では確率が高いトークンを選び、論理的


コメント