このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模言語モデル(LLM)のシリーズ。Transformerアーキテクチャを基盤とし、大量のテキストデータで事前学習されており、会話
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。2B~7Bパラメータの選択肢があり、効率的な推論性能と軽量設計が特徴。
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータで訓練された大規模言語モデルで、自然言語理解・生成を可能にします。パラメータ数が数十億規模で、質問応答や文章生成など多様なタスクに応用されます。ローカル環境での利用では、計算リソースの確保や最適なプロンプト設計が実践的です。
Llama (ラマ)
LlamaはMetaが開発したオープンソースのLLMシリーズ(Llama、Llama 2、Llama 3など)。大規模なパラメータ数と多様なトレーニングデータを特徴とし
Mistral (ミストラル)
Mistralは、フランスのスタートアップMistral AIが開発した大規模言語モデルシリーズ。7Bパラメータの「Mistral 7B」が代表的で、軽量かつ高精度な処理が可能。オープンソースで提供されており、ローカル環境での導入が
Phi (ファイ)
Phiはマイクロソフトが開発した軽量なLLMシリーズ(Phi-1, Phi-2, Phi-3など)。パラメータ数が少ないにもかかわらず、効率的で高
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、テキスト生成や質問応答、コード作成など多様なタスクを処理可能です。ローカル環境での導入が容易で、カスタマイズ性が高く、チャットボットやデータ分析などに活用できます。多言語対応で、高精度な推論を実現します。
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算コストが低いLLMの一種。ローカル環境やエッジデバイスでの実装に適し、特定タスク(例:チャットボット、IoT)向けに最適化される。LLMと比較して軽量だが、効率的な推論と低リソースでの運用が実践的な利点。
Transformer (トランスフォーマー)
Transformerは、2017年にGoogleが提案したLLMの基盤となるアーキテクチャで、自己注意機構(Self-Attention)を採用しています。並列処理を可能にし、文脈を効果的に捉えるため、BERTやGPTなどのモデルに広く応用されています。ローカル
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクやドメインに特化した知識を追加するプロセスです。ローカル環境では、計算リソースとターゲットデータを用いてモデルを微調整し、精度を向上させますが、過学習を防ぐため適切なデータ選択と早すぎる学習が重要です。
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
EXL2は、大規模言語モデルの量子化技術で、モデルの精度を維持しつつ計算リソースを削減します。ローカルユーザー向けに、GPUメモリの節約と推論速度の向上を実現し、低スペ
FP16 (エフピーじゅうろく)
FP16(16ビット浮動小数点数)は、計算精度を半分に抑えることでメモリ使用量と演算速度を向上させる技術。GPUのテンソルコアで効果的で、LLMの推論やトレーニング時にメモリ制約を緩和。ただし精度低下のリスクがあり、適切なモデル構成や混合精度トレーニングでバランスを取
GGUF (ジージーユーエフ)
GGUFは、LLMの量子化・最適化に用いられるバイナリ形式のファイル形式で、モデルのサイズを削減し、ローカルでの高速推論を実現します。TheBlokeが開発し、llama.cppなどと連携して、GPUやCPUでの効率的な実行を可能にします。ユーザーは軽量化と実行速度の向上が主な利点です。
GPTQ (ジーピーティーキュー)
GPTQ(Grouped Quantization)は、LLMの重みをグループごとに精度を調整しながら量子化する技術。
INT4 (イントよん)
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
量子化 (りょうしか)
量子化は、モデルの精度を保持しつつ、計算量やメモリ使用量を削減する技術です。例として、32ビット浮動小数点を8ビット整数に変換し、推論速度を向上させます。ロー
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
LM Studio (エルエムスタジオ)
LM Studioは、ローカルでLLMを実行するための推論エンジン。GPU加速を活用し、高精度な推論を効率的に行える。モデルのロードや最適化を簡易化し、ユーザーインターフェースを通じて直感的な操作が可能。複数のモデルフォーマットをサポートし、自社のハードウェア環境で柔軟に利用できる。
LocalAI (ローカルエーアイ)
LocalAIは、ローカル環境で大規模言語モデルを実行するためのオープンソース推論エンジンです。GPUやCPUを活用し、プライバシー保護やコスト削減を目的に
Ollama (オラマ)
Ollamaは、ローカル環境でLLMを効率的に実行するための推論エンジン。軽量で高速な処理を実現し、GPU/TPUを活用したスケーラブルな推論を可能にします。モデルのデプロイやカスタマイズが容易で、研究者や開発者向けに最適化されています。
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
llama.cpp (ラマシーピーピー)
vLLM (ブイエルエルエム)
vLLMは、UCバークレーらが開発した高性能推論エンジン。speculative samplingや並列処理により、LLMの推論速度を大幅に向上。GPU/CPUを
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを視覚的に操作できるノードベースのインターフェース。コード不要でワークフローをカスタマイズ可能。ローカル環境での高柔軟性と拡張性を実現し、ユーザーがモデルやプロンプトを自由に組み合わせて画像生成を効率化できるツール。オープンソースで幅広いモデルと互換性がある。
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable Diffusion)に「条件入力」(エッジ、ポーズ、セグメンテーションなど)を追加して、生成画像を制御する技術です。ローカルLLMユーザー向けに、Hugging Face Diffusersなどで実装可能で、詳細な画像生成やスタイル指定に有
Flux (フラックス)
Fluxは、画像生成における機械学習フレームワーク。Runwayが開発し、モデルのトレーニングや推論を効率化。ローカルLLM
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルを効率的に微調整する技術で、重み行列に
SDXL (エスディーエックスエル)
SDXLは、Stable Diffusionの拡張版で、高
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成する拡散モデル。拡散過程を逆転させ、ノイズから高品質な画像を生成する。ローカル環境で実行可能で、GPUを活用した
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供する並列計算プラットフォームで、GPUを活用した高速な数値計算を可能にします。ローカルLLMユーザー向けには、PyTorchやTensorFlowなどのフレームワークでGPU加速を実現し、モデルトレーニングや推論の効率化に不可欠です。NVIDIA GPU所有者はCUDAドライバのインストールが必須です。
NPU (エヌピーユー)
Tensor Core (テンサーコア)
Tensor CoreはNVIDIA GPUに搭載された専用ハードウェアで、行列演算を高速化し、特に深層学習
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUが画像処理や機械学習を高速に実行するために使用する専用メモリ。LLMのローカル実行では、モデルパラメータやバッチ処理データを一時的に保存し、アクセス速度を向上させます。VRAM容量が大きいほど、大規模モデルの実行や高精度な推論が可能になります。
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、外部データベースから情報を検索し、LLMに統合して回答を生成する技術。ローカルLLMユーザーには、最新データを活用した応答精度向上や、知識ベースの拡
エンベディング (えんべでぃんぐ)
エンベディングは、テキストを数値ベクトルに変換し、意味の近さを距離で表現する技術です。ローカルLLMでは、類似文書検索やクラスタリングに活用され、Hugging Faceのsentence-transformersなどを使って生成可能です。ベクトル空間での計算効率化が実務の鍵です。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な出力を引き出すためのプロンプトの設計技術です。具体的には、明確な指示や例を組み込み、反復的なテストを通じて最適な構造を調整します。ローカルLLMユーザーには、タスクに応じたプロンプトの最適化がモデル性能を大きく左右するため、実践的に活用が推奨されます。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するツールです。ローカルLLMユーザーは、生成した埋め込みベクトルをここに格納し、類似性検索やクエリ応答を高速化できます
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワーク。プロンプト、モデル、メモリなどのモジュールを組み合わせて柔軟なワークフローを構築可能。ローカルLLMユーザー向けに、データ処理やチェーン実行のツールを提供し、開発効率を向上させます。
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMとデータソースを統合するためのフレームワークで、データの検索・処理・クエリ処理を簡易化します。RAG(Retrieval-Augmented Generation)を実現し、ローカルLLMユーザーはカスタムデータの組み込みやアプリケーション構築を効率的に行えます。オープンソースで拡張性が高く、デプロイ性も考慮されています。
📖 コンセプト
Top-P (トップピー)
Top-P(核サンプリング)は、確率の累積値がPを超えるトークンを候補に選ぶ手法。Top-Kより柔軟で、出力の多様性と一貫性のバランスを調整可能。P値を小さくすると出力が集中し、大きく
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能な入力トークン数を指します。ローカルユーザー向けには、長文処理や複雑なタスクに適応するための指標で、モデルの性能やメモリ使用量に直結します。長すぎると計算負荷が増加するため、用途に応じた最適な設定が重要です。
トークン (とーくん)
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。誤った事実や架空の内容を出力する原因となる。ユーザーは出力内容を常に検証し、信頼性のあるソースと照らし合わせる必要がある。訓練データの限界や推論時の不確実性が主な要因
バッチ処理 (ばっちしょり)
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルに新たな入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの計算効率(例:量子化)、メモ
温度 (おんど)
温度は、LLMの出力のランダム性を調整するパラメータ。値が低いほど


コメント