このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模言語モデルシリーズ。Transformerアーキテクチャを基盤とし、大量のテキストデータで事前学習し、微調整により特定タスクに適応します
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。軽量で高精度な処理を実現し、ローカル環境での実行を可能にします。自然言語処理やコード生成などに適し、計算リソースの効率的な利用が特徴です。
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータで訓練された大規模言語モデルで、自然言語処理タスクに優れています。ローカル環境では、パラメータ規模や訓練データの質が性能に直結し、推論速度やメモリ制限を考慮した最適化が重要です。
Llama (ラマ)
Llama
Mistral (ミストラル)
Phi (ファイ)
Phiはマイクロソフトが開発した効率的なLLMシリーズ(Phi-1/2/3)。パラメータ数が少ないにもかかわらず、性能が高く、ローカル環境でも軽量で実用可能。特に小規模なモデルながら
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、質問応答、文章生成、プログラミングなど多様なタスクに対応。複数バージョン(Qwen、Qwen2、Qwen3など)が存在し、ローカル環境では自社サーバーでのデプロイやAPI利用が可能。高精度な言語理解と生成能力を備え、研究・商用用途に最適。
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを
Transformer (トランスフォーマー)
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクやドメインのデータで追加学習し、精度を向上させる手法です。ローカルユーザー向けには、計算リソースを節約しつつ、少量のデータでモデルを最適化するため、LoRAやQLoRAなどの軽量技術が活用されます。実践では、タスクに合ったデータ準備と学習パラ
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
FP16(16ビ
GGUF (ジージーユーエフ)
GGUF(General GPU Universal Format)は、LLMの量子化・最適化に用いられるフォーマット。モデルサイズを削減し、GPUでの高速推論を実現。Q2_K/Q4_Kなどの量子化レベルをサポート
GPTQ (ジーピーティーキュー)
GPTQ(Group-wise Quantization)は、モデルの重みをグループ単位
INT4 (イントよん)
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
KVキャッシュは、Transformerモデルの注意機構で生成されたキー・値ベクトルを一時的に
量子化 (りょうしか)
量子化は、モデルの重みやアクティベーションの精度を下げて計算
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、ローカル環境で大規模言語モデルを効
LM Studio (エルエムスタジオ)
LM Studioは、ローカルでLLMを実行するための推論エンジン。複数モデル対応、GPU加速、直感的なUIを備え、開発・デプロイに最適。オープンソースでカスタマイズ性が高く、軽量な実
LocalAI (ローカルエーアイ)
Ollama (オラマ)
Ollamaは、ローカルで大規模言語モデルを効率的に実行
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAモデルをC++で実装した推論エンジンで、ローカル環境での高速なモデル実行を可能にします。CPU
vLLM (ブイエルエルエム)
vLLMは、大規模言語モデルの推論を高速化するエンジンで、メモリ効率化と並列処理を実現。スパースアテンションやバッチ処理により、ローカル環境でも大規模モデルを効率的に実行可能。ユーザーは、リソース制限下でも高速な推論を期待できる。
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを操作するためのノードベースのインターフェースで、視覚的なワークフロー構築が可能。ローカルユーザー向けにカスタマイズ性が高く、拡張性のあるツールとして注目。複雑な処理を直感的に構成できるため、プロセスの透明性と柔軟性を向上させる。
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable Diffusion)に接続して、エッジやポーズなどの「コントロールマップ」を入力することで、生成画像の形状や構造を制御する技術です。ローカルLLMユーザー向けに、外部APIに依存せず、高精度な画像生成を実現するための拡張モジュールとして活用可能です。
Flux (フラックス)
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルを微調整する際、重み行列に低ランクの行列を追加してパラメータ数を抑える技術。画像生成では、Stable Diffusionなどのモデルを効率的にカスタマイズし
SDXL (エスディーエックスエル)
SDXL(Stable Diffusion XL)は、St
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成する拡散モデル。オープンソースで、ローカル環境でもGPUを用いて実行可能。高品質な画像生成が可能で、ア
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供するGPU向け並列計算プラットフォームで、GPUの演算能力を活用してLLMのトレーニングや推論を高速化します。ローカルLLMユーザー向けに、PyTorchやTensorFlowなどのフレームワークがCUDAを介してGPUアクセラレーションを実現し、計算効率を飛躍的に向上させます。CUDA対応GPU(
NPU (エヌピーユー)
NPU(Neural Processing Unit)は、AI計算を最適化した専用ハードウェア。行列演算や並列処理を高速化し、LLMの推論・学習を効率化。GPUに比べて低消費電力で、ローカル環境ではモデルの高速起動やリアルタイム処理に適する。
Tensor Core (テンサーコア)
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載された専用メモリで、LLMのモデルパラメータや計算データを一時的に保存します。ローカルLLMユーザー向けに、VRAM容量が大きいほど大規模モデルのロードや高速な推論が可能になります。GPUの性能を確認する際、VRAMのスペック
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索結果を用いて生成モデルの出力を補完する技術。外部データベースから関連情報を検索し、LLMに組み込むことで、正確性や最新情報を向上させます。ローカルLLMユーザーには、知識ベースの拡張や質問応答の精度向上に実用的です。
エンベディング (えんべでぃんぐ)
エンベディングは、テキストを意味を含む数値ベクトルに変換する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、自然言語を機械が処理可能な形式に変換します。Hugging Faceなどのライブラリで実装され、モデルの入力特徴として用いられます。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力文(プロンプト)を設計・最適化する技術です。構造化された質問や例示、反復的テストを通じて、モデルの出力精度を向上させます。ローカルLLMユーザーは、タスクに応じたプロンプト設計で性能を最大限に引き出せます。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するデータベースです。LLMの出力や埋め込みベクトルを格納し、類似性検索やクエリ応答に活用。ローカル環境ではFAISSやPineconeなどのツールで構築可能で、検索性能とスケーラビリティをバランスよく実現します。
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMアプリケーション開発を支援するフレームワーク。モジュール構成で、エージェントやメモリ、プロンプトエンジニアリングを統合。ローカルLLMとの連携を容易にし、カスタマイズ性と柔軟なデータ処理を実現します。
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMを活用したアプリケーション開発を支援するフレームワークです。データのインデックス作成・クエリ処理を簡易化し、ローカルLLMとの連携を強化。データソースの統合やモジュール構成により、効率的なアプリ構築が可能で、ユーザーは柔軟なカスタマイズが可能です。
📖 コンセプト
Top-P (トップピー)
Top-P(核サンプリング)は、確率分布の上位P%のトークンのみ
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能な入力トークン数を指します。長さが長いほど、複雑なタスクや長文の処理が可能ですが、メモリや計算リソースの消費も増加します。ローカル環境では、モデルの制限に応じて入力を分割(チャンキング)したり、要約して処理効率を向上させる工夫が必要です。
トークン (とーくん)
トークンは、テキストを処理する際の基本単位で、単語やサブワード(例:「人工」→「人」「工」)を含む
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に創作する現象。事実誤認や架空の内容を生成し、信頼性が損なわれる。ユーザーは出力内容を外部資料で検証し、信頼できる情報源と照らし合わせる習慣を。モデルの出力に疑問があれば、再質問やツール活
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一括で処理する方法で、効率性を重視します。ローカルLLMでは、大量のトークンを一度に処理することで、メモリ使用量を抑えるとともに、計算リソースを最適化できます。リアルタイム性が不要
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルに新たな入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(推論速度・メモリ使用量)を最適化する技術(例:量子化、モデル圧縮)が重要
温度 (おんど)
温度は、LLMの出力のランダム性を調整するパラメータです。値が低いほど確率の高いトークンを選び、予測可能な出力になります。高いほど多様性が増し、創造的な応答が得られますが、一


コメント