このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。テキスト生成やコード作成、論理的推論に優れ、多言語対応。ローカル環境での高速推論と低メモリ消費が特
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータで訓練されたAIモデルで、自然言語の理解・生成を可能にします。ローカル環境での利用では、モデルサイズや精度のバランスを考慮し、推論速度やメモリ使用量に配慮した選定が重要です。実用性を高めるには、タスクに最適なモデルの選択と、適切なプロンプ
Llama (ラマ)
Llamaはメタが開発したオープン
Mistral (ミストラル)
Mistralは、フランスのスタートアップMistral AIが開発した大規模言語モデルシリーズ(例:Mistral-7B)。オープンソースで、ローカル環境での実行を想定した軽量かつ高性能な設計が特徴。推論効率に優れ、オンプレミスやエッジデバイスでの実装に適している。
Phi (ファイ)
Phiはマイクロソフトが開発した軽量LLMシリーズ(Phi-1, Phi-2, Phi-3)。少ないパラメータ数ながら高い推論性能を実現し、コード生成や多言語処理に強み。ローカル環境でも低
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、会話理解やコード生成、多言語対応を強化したシリーズ(Qwen、Qwen2、Qwen3など)を含む。ローカル環境での展開が可能で、チャットボットやコンテンツ生成、企業向けソリューションなど幅広い用途に適応。最新バージョンは性能と効率性が向上している。
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを効率的に利用できるLLMの小型版。ローカル環境やエッジデバイスでの実装に適し、軽量な処理が求め
Transformer (トランスフォーマー)
ファインチューニング (ふぁいんちゅーにんぐ)
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
FP16(16ビット浮動小数点)は、計算精度を半分に抑えることでメモリ使用量を削減し、高速な演算を
GGUF (ジージーユーエフ)
GGUF(General GPU Universal Format)は、LLMの量子化・最適化に用いられるバイナリファイル形式。モデルサイズを圧縮し、推論速度を向上させることを目的とし、ローカル環境での軽量実行を可能にします。 llama.cppなどと連携し、GPU/CPUに最適化されたパフォーマンスを実現します。
GPTQ (ジーピーティーキュー)
INT4 (イントよん)
INT4は、モデルの重みを4ビット整数で表現する量子化手法で、モデルサイズとメモリ使用量を大幅に削減します。ローカルLLMでは、GPU/TPUの制約を緩和し、軽量なデバイスでも実行可能にしますが、精度に若干の影響が出る場合があります
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
KVキャッシュは、LLMの推論時にAttentionメカニズムで生成されるKeyとValueを一時的に保存するメモリ領域。過去の計算結果を再利用し、繰り返し処理時の計算量とメモリ使用量を削減。ローカル環境では、長文処理
量子化 (りょうしか)
量子化は、モデルの重みやアクティベーションの精度を低くすることで、メモリ使用量と計算効率を向上させる技術です。例として、3
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
LM Studio (エルエムスタジオ)
LM Studioは、ローカル環境でLLMを実行可能な推論エンジンで、GPU加速やモデルカスタマイズをサポート。ユーザーインターフェースが直感的で、開発者向けに推論パフォーマンス最適化やモデル比較機能を提供。クラウド依存を避けるための実用的なツール。
LocalAI (ローカルエーアイ)
LocalAIは、ローカル環境でLLMを実行するための軽量な推論エンジン。API依存を避け、プライバシー保護とコスト削減を実現。モデルの柔軟なデプロイと高速な推論を可能にし、開発者向けにカスタマイズ性を重視した設計が特徴。
Ollama (オラマ)
Ollamaは、ローカル環境で大規模言語モデル(LLM)を効率的に実行するための推論エンジン。軽量で高速な処理を実現し、GPU/TPUを活用したパフォーマンス最適化が特徴。モデルのローカルホスティングや、複数フレームワークへの対応により、開発者向けに実用性を重視した設計となっている。
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAなどの大規模言語モデルをCPUで効率的に実行するためのC/C++製推論エンジン。軽量でオープンソースであり、GPU不要な環境でも高速な推論が可能。ローカル環境での導入・実行が容易で、複数モデルへの対応性も高く、実用性に優れる。
vLLM (ブイエルエルエム)
vLLMは、大規模言語モデルの推論を高速化するエンジンで、メモリ効率化と並列処理技術を採用。ローカルユーザー向けに、GPUリソースを最大限活用し、大規模モデルの実行を可能にします。開源で、カスタマイズ性が高く、実用性に優れています。
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを操作するノードベースの視覚的インターフェース。ローカル環境で高柔軟性のあるワークフロー構築を可能にし、拡張性に優れたプラグイン対応が特徴。画像生成プロセスを直感的にカスタマイズできるため、プロフェッショナルなユーザーに人気。
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable Diffusion)に「制御信号」(エッジ、ポーズ、セグメンテーションなど)を追
Flux (フラックス)
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルを微調整する際、重み行列の一部を低ランク近似で調整する技術。画像生成では、計算リソースを抑えつつ特定タスクに適応させ、ローカル環境でも効率的なファインチューニングが可能。モデルの
SDXL (エスディーエックスエル)
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成する拡散モデル。ノイズを徐々に除去するプロセスで画像を生成し、オープンソース化によりローカル環境での実行が可能。UNetアーキテクチャと大量のトレーニングデータを基盤に、高品質な画像生成が特徴。ユーザーはカスタムモデルの作成や推論環境の構築に活用可能。
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供する並列計算プラットフォームで、GPUを活用した高速な数値計算を可能にします。ローカルLLMユーザー向けに、GPUアクセラレーションを実現し、大規模モデルの推論・学習を効率化するためのAPIとライブラリを提供します。NVIDIA GPUを持つ環境での利用が前提です。
NPU (エヌピーユー)
Tensor Core (テンサーコア)
Tensor Coreは、NVIDIA GPUに搭載された専用演算ユニットで、行列演算を高速化し、LLMのトレーニング・推論を効率化します。特に、混合精度計算(FP16/INT8)をサポートし、ローカルユーザーは高速なモデル処理や低消費電力を実現できます。
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載される専用メモリで、AIモデルのトレーニングや推論時に重みやアクティベーションを一時的に保存します。ローカルLLMユーザーにとって、VRAM容量はモデルサイズやバッチサイズの制限に
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索エンジンとLLMを組み合わせて、外部データをリアルタイムに参照しながら回答を生成する技術。ローカルLLMユーザーには、モデルのパラメータを増やすことなく最新情報を取り込む手段として有効。検索結果を元に生成を補完し、精度と柔軟性を向上させます
エンベディング (えんべでぃんぐ)
エンベディングは、テキストやデータを数値ベクトルに変換し、意味的な関係を保持する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、モデル入力の前処理にも用いられます。Hugging FaceのTransformerモデルなどから取得可能で、計算効率を重視した選択が重要です。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに適切な出力を引き出すためのプロンプト(入力文)を設計・最適化する技術です。明確な指示や構造化されたフォーマット、例示を用いることで、ローカル環境でもモデルの性能を最大限に引き出せます。実践では、タスクごとに最適なプロンプトを試行錯誤しながら調整することが重要です。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するデータベースです。LLMでは、類似性検索や文脈理解に用いられ、高次元ベクトルを高速に処理するための構造
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワーク。プロンプトテンプレート、メモリ管理、チェーン構成などの機能を提供し、ローカルLLMとの連携を簡易化。ユーザーはモデルのデプロイや複雑なワークフロー構築を効率的に実現
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMとデータを統合するためのフレームワークで、データのインポート・検索・クエリ処理を簡易化します。ローカルLLMユーザー向けに、データベース接続やRAG構築を効率化し、柔軟なアプリケーション開発を可能にします。
📖 コンセプト
Top-P (トップピー)
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能なトークン数を指します。ローカル環境では、長すぎるコンテキストはメモリ制限により処理不能になるため、入力データの最適化(要約・分割)が重要です。また、モデルの性能に直結するため、タスクに応じた適切な長さの設定が実践的です。
トークン (とーくん)
トークンは、LLMが処理する最小単位で、単語やサブワード(例:un/happiness)を含む。モデルの入出力に影響し、トークン数は性能やリソース使用に直結。ローカルユーザーは、プロンプトの最適化やモデル制限対策に注意が必要。
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。誤った事実や架空の内容を出力するリスクがあるため、ユーザーは出力内容を信頼できる情報源と照らし合わせて検証する必要があります。特にローカルLLMでは、出力の信頼性を確保するための後処理や、モデルに事実に基づく回答を求めるプロンプト設計が重要です。
バッチ処理 (ばっちしょり)
バッチ処理は、データを一括で処理する方法で、個別処理より効率が良い。ローカルLLMでは、大量のデータを一度に処理し、メモリ使用を最適化する。例:
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルに新たな入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(推論速度・メモリ使用量)や、量子化・最適化技術による軽量化が重要です。訓練(学習)とは異なり、実運用時のパフォーマンスに焦点
温度 (おんど)
LLMにおける「温度」は、出力のランダム性を調整するパラメータ。値が低いほど確率が高いトークンを選択し、


コメント