このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模言語モデル(LLM)シリーズ。Transformerアーキテクチャを基盤とし、大量のテキストデータで事前学習し、自然言語生成や理解に優れる。ローカルLLMユーザー向けには、GPT-3やGPT-3.5などのバージョンが利用可能で、カスタム
Gemma (ジェマ)
GemmaはGoogleが開発した効率的なLLMシリーズ(Gemma-2、Gemma-2.5など)。コード生成や論理的推論に優れ、軽量設計でクラウド・エッジデバイス両方のデプロイに適する。多言語対応で、ローカルユーザーはカスタマイズやファイン
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータを学習し、自然な文章生成や質問応答を可能にするAIモデルです。ローカル環境で実行可能で、プライバシー保護やオフライン利用が可能です。代表例はLLaMAやMistralで、ユーザーはカスタマイズや推論速度の最適化が可能です。
Llama (ラマ)
L
Mistral (ミストラル)
Mistralは、フランスのMistral AIが開発した大規模言語モデルシリーズ(例:Mist
Phi (ファイ)
Phiは、Microsoftが開発した効率的なLLMシリーズで、小規模ながら高精度な推論・コード生成を実現。ローカル環境でも軽量に動作し、企業
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデル
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを効率的に利用できるLLMの小型版です。ローカル環境やエッジ
Transformer (トランスフォーマー)
Transformerは、2017年にGoogleが提案した注意機構を用いたニューラルネットワークアーキテクチャ。並列処理を可能にし、文脈全体を効率的に処理する。LLMでは、自己注意(Self-Attention)と位置エンコーディングが核で、長文処理や並列性向上に貢献。ローカルユーザー向けには、
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクやドメインのデータで追加学習し、性能を最適化する手法です。ローカルユーザー向けには、自社データへの適応や精度向上が可能で、再訓練コストを抑える効果があります。ただし、計算リソースとデータ品質に依存する点に注意が必要です。
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
FP16(16ビット浮動小数点数)は、計算精度を半分に抑えることでメモリ使用量と演算速度を向上させる技術。LLMの推論やトレーニングで採用され、特にGPUメモリが限られたローカル環境ではモデルサイズの拡大や高速化に有効。ただし精度の低下が生じるため、混合
GGUF (ジージーユーエフ)
GPTQ (ジーピーティーキュー)
INT4 (イントよん)
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
量子化 (りょうしか)
量子化は、モデルの重みや活性値の精度を低くして計算量とメモリ使用量を削減する最適化技術です。例:32ビット浮動小数点を8ビット整数に変換。実装では精度低下を抑えるため、トレーニング時や
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
LM Studio (エルエムスタジオ)
LM Studioは、ローカルでLLMを実行するための推論エンジン。GPU加速やモデル最適化をサポートし、ユーザーが自前のハードウェアで大規模言語モデルを効率的に運用できるように設計。UIが整っており、モデル選択やパラメータ調整が容易で、プライバシー保護やコスト削減に適している。
LocalAI (ローカルエーアイ)
LocalAIは、ローカル環境でLLMを実行するための推論エンジン。クラウド依存を避け、低遅延・データプライバシーを実現。Hugging Face Transformersなどと連携し、GPU利用で高速推論を可能に。開発者向けにモデルテストやカスタマイズを簡易化し、オンプレミスでの導入が求められる。
Ollama (オラマ)
Ollamaは、ローカルで大規模言語モデル(LLM)を効率的に実行する推論エンジン。モデルのホスティングやAPI経由の推論を簡易化し、GPU利用やリソース管理を最適化。ユーザーは自社環境でLLMを柔軟に活用でき、プライバシー保護とコスト削減が可能。
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
**Text Generation Inference**は、学習済みLLMが入力プロンプトに基づいてテキストを生成する推論プロセスです。ローカル環境では、高速化やメモリ効率を重視した実装(例:量化、バッチ処理)が重要で、リアルタイム応答や低リソースでの運用を可能
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAモデルをC/C++で実装した推論エンジンで、CPUでの高速推論を可能にします。GPUを必要とせず、軽量な実行環境を提供し、ロ
vLLM (ブイエルエルエム)
vLLMは、大規模言語モデル(LLM)の推論を高速化するオープンソースのエンジンです
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionなどの画像生成モデルをノードベースで操作できるインターフェース。ローカル環境で柔軟なワークフロー構築が可能で、LLMとの連携やカスタマイズが容易。効率的なプロンプト処理と出力調整が特徴で、実践的な画像生成に最適。
ControlNet (コントロールネット)
ControlNetは、画像生成
Flux (フラックス)
LoRA (ローラ)
SDXL (エスディーエックスエル)
SDXLは、Stable Diffusionの拡張版で、高解像度かつ詳細な画像生成を可能にする大規模モデルです。より多くのパラメ
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成する拡散モデルで、オープンソースなためローカル環境でも利用可能。拡散過程を逆転させ、ノイズから高品質な画像を生成する仕組みを採用
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供する並列計算プラットフォームで、GPUを活用した高速な数値計算を可能にします。ローカルLLMユーザー向けに、GPUアクセラレーションを実現し、大規模モデルのトレーニング・推論を効率化します。NVIDIA GPUの性能を最大限に引き出すための基盤技術です。
NPU (エヌピーユー)
NPU(Neural Processing Unit)は、AI計算を最適化した専用ハードウェアで、特に機械学習や深層学習の行列演算を高速に処理します。ローカルLLMユーザー向けには、GPUやCPUに比べて電力効率が高く、推
Tensor Core (テンサーコア)
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載された専用メモリで、グラフィック処理や機械学習モデルの計算に使用されます。ローカルLLMユーザーにとって、モデルのサイズや性能に直結し、VRAM容量が不足するとモデルの読み込みや動作に制限が生じます。GPUのVRAMは、モデルパラメータのキャッシュや中間計算結果の保持に不可欠です。
eGPU (イージーピーユー)
eGPU(外部グラフィックボード)は、ThunderboltやUSB-C経由で接続する外部GPUで、ノートPCなどに高性能GPUを追加する手段。ローカルLLMユーザーには、GPUメモリ不足を解消し、大規模モデルの推論・学習を可能にする実用的なハードウェア。ただし、接続ポートの互換
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索結果を基に生成を行う技術。ローカルLLMユーザーは、外部データベースから情報を検索し、モデルに統合することで、最新情報や専門知識を活用できます。実装にはベクトルデータベースや埋め込みモデルが用いられ、アプリケーションの精度向上に有効です。
エンベディング (えんべでぃんぐ)
エンベディングは、テキストを意味を含む数値ベクトルに変換する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、モデルの入力特徴として用いられます。Hugging Faceなどのライブラリで生成可能で、事前学習済みモデルを活用することで、効率的な開発が可能です。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力(プロンプト)を設計する技術です。構造化されたクエリや例示、反復テストを通じて、モデルの出力を正確かつ効率的に引き出す手法。ローカルLLMユーザーは、この技術でモデルの性能を最大限に引き出し、カスタムタスクに最適化できます。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するデータベースです。LLMの埋め込み(embedding)を格納し、類似性検索やクエリ応答に活用。ローカル環境ではFAISSやChromaなどを使い、高速な検索と大規模データの管理を実現します。
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワーク。プロンプト、モデル、メモリなどのモジュールを組み合わせてチェーン構築可能。ローカルLLMユーザー向けに、複数モデルの統合やカスタマイズを簡易化し、実用的なアプリケーション構築を促進します。
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMと外部データを統合するためのフレームワークで、データのインデックス作成・検索・RAG(Retrieval-Augmented Generation)をサポート。ローカルLLMユーザー向けに、データベース連携やクエリ処理を簡易化し、アプリケーション開発の効率化を図る。
📖 コンセプト
Top-P (トップピー)
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能なトークン数を指します。ローカルユーザー向けには、長文処理や複雑なタスクに適応するための指標で、モデルの性能やメモリ使用量に直結します。長さが大きいほど精度が向上するが、ハードウェア制限や推論速度に影響を与えるため、用途に応じて最適な設定を検討する必要があります。
トークン (とーくん)
トークンは、LLMが処理する最小単位で、単語やその一部(例:「unhappiness」→「un」「happi」「ness」)を表します。トークナイズ方式(BPEなど)により分割され、モデルの入出力に影響を与えます。ローカルユーザーは、トークン数を意識することで
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を誤って生成する現象です。実践では、出力内容を信頼できる情報源で検証し、論理的矛盾や不確実性を確認する必要があります。ユーザーは、モデルの限界を認識し、出
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一度に処理する方法で、効率性を重視します。ローカルLLMユーザー向けには、モデル訓練時やデータ前処理でバッチサイズを調整し、メモリ使用量と
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルに新しい入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(推論速度・メモリ使用量)や、量子化・最適化技術による軽量化が重要です。訓練
温度 (おんど)
LLMの出力生成において「温度」


コメント