このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模言語モデル(LLM)のシリーズで、Transformerアーキテク
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。軽量で効率的な設計により、ローカル環境でも高精度な自然言語処理やコード生成が可能。開源性からカスタマイズ性が高く、研究や実用シーンで幅広く
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータで訓練された大規模言語モデルで、自然言語処理タスクに優れています。ローカル環境での利用では、パラメータ規模や訓練データの質が性能に直結し、推論速度やメモリ制限を考慮した最適化が重要です。
Llama (ラマ)
Mistral (ミストラル)
Mistralは、フランスのMistral AIが開発した大規模言語モデルシリーズ(例:Mistral-7B)。軽量かつ高精度な特徴を持つオープンソースモデルで、ローカル環境での導入が容易。特に、Mixtral(混合専門家アーキテク
Phi (ファイ)
Phiはマイクロソフトが開発した軽量なLLMシリーズ(Phi-1/2/3)。パラメータ数が少なくても高精度なタスク処理を実現し、ローカル環境での導入が容易。特に小規模なモデルでも自然言語理解や生成が可能で、リソース制限のあるデバイス向けに最適化されている
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、質問応答や文章生成、プログラミングなど多様なタスクに対応。複数言語をサポートし、ローカル環境での導入やAPI利用が可能。性能と効率を重視した設計で、研究・商用用途に適している。
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを効率的に利用できるLLMの一種です。大規模モデル(LLM)と比べて、軽量で低コストですが、複雑なタスクには劣ります。
Transformer (トランスフォーマー)
Transformerは、2017年に発表されたLLMの基盤となるアーキテクチャで、自己注意機構(Self-Attention)を採用し、並列処理を可能にしています。従来のRNNと異なり、文脈全体を同時に処理できるため、長文の理解や生成に適し、大規模モデルのスケーリングに貢
ファインチューニング (ふぁいんちゅーにんぐ)
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
EXL2は、モデルの精度を維持しつつ計算
FP16 (エフピーじゅうろく)
FP16(16ビット浮動小数点数)は、計算精度を半分に抑えることでメモリ使用量と演算速度を向上させる技術です。ローカルLLMでは、GPUメモリの制限に対応し、高速な推論を実現します。ただし、精度の低下が生じるため、モデルのトレーニングや推論に応じた適切な設定が重要です。
GGUF (ジージーユーエフ)
GGUF(General GPU Universal Format)は、LLMの量子化・最適化に用いられるファイル形式で、モデルサイズを削減し、GPUでの高速推論を実現します。
GPTQ (ジーピーティーキュー)
GPTQは、モデルの重みをグループごとに量子化し、精度を維持しながらモデルサイズを削減する技術。ローカルLLMユーザーには、GPUメモリ制限下でも大規模モデルを効率的に実行可能にし
INT4 (イントよん)
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
KVキャッシュは、Transformerモデルの注意機構で生成されるキー・値ベクトルを一時的に保存するメカニズム。過去の計算結果を再利用することで、長文処理時の計算効率を向上させ、ローカ
量子化 (りょうしか)
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、消費者向けGPUで大規模LLMを効率的に推論するためのエンジン。8bit/4bit量子化をサポートし、メモリ最適化により中規模GPUでも高精度推論が可能。ローカルユーザー向けに簡単なセットアップと高速な応答
LM Studio (エルエムスタジオ)
LM Studioは、ローカルで大規模言語モデル(LLM)を実行するための推論エンジンです。GPU加速や複数モデルのサポート、直感的なUIを備え、開発者や研究者がクラウドに依存せずにモデルをテスト・カスタマイズできるように設計されています。軽量で高パフォーマンスな推論を実現し、ローカル環境での実験を簡易化します。
LocalAI (ローカルエーアイ)
LocalAIは
Ollama (オラマ)
Ollamaは、ローカル環境でLLMを効率的に実行する推論エンジン。モデルのローカルデプロイを簡易化し、GPU加速や軽量化を実現。ユーザーはクラウドに依存せず、プライバシー保護とコスト削減が可能。オープンソースで、多様なモデルに対応し、API経由での柔軟な統合が特徴。
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
Text Generation Inference(TGI)は、Hugging Faceが提供するテキスト生成モデルの推論を効率化するエンジンです。バッチ処理やGPU最適化により、ローカル環境でも高速かつ低リソースで推論を実行可能。モデルのスケーリングや精度向上に特化し、ユーザーはコード変更なしで高性能な生成を実現できます。
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAモデルをC++で実装した推論エンジンで、CPU/GPUを
vLLM (ブイエルエルエム)
vLLMは、UCバークレーらが開発した高性能な推論エンジンで、LLMの推論効率を大幅に向上させます。メモリ最適化や並列処理技術により、ローカル環境でも大規模モデルを高速かつ効率的に実
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusion向けのノードベースの視覚的インターフェースで、コード不要で複雑なワークフローを構築可能。ローカル環境で自炊しやすく、拡張性が高く、プロセスのカスタマイズに最適。ノード接続による柔軟な制御が特徴で、画像生成の精度向上に貢献。
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable Diffusion)に「制御信号」(エッジ、ポーズ
Flux (フラックス)
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルを効率的に微調整する技術で、重み行列に低ランクの行列を追加することで、計算コストを抑えつつ特定タスク(例:
SDXL (エスディーエックスエル)
SDXLはStable Diffusionの高解像度モデルで、より詳細な画像生成を可能にします。ただし、VRAM容量や計算リソース
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成する拡散モデル。ローカル環境で動作可能で、GPUを用いることで高品質な画像生成が可能。オープンソースのためカスタマイズ性が高く、アート制作やデータ拡張などに実
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供する並列計算プラットフォームで、GPUを活用した高速な数値計算を可能にします。ローカルLLMユーザー向けには、NVIDIA GPU上でモデルトレーニングや推論を高速化するための必須技術です。CUDA APIを通じてGPUメモリ管理やスレッド制御が可能で、高性能な計算リソースを効率的に利用できます。
NPU (エヌピーユー)
NPU(Neural Processing Unit)は、AI計算を高速化する専用ハードウェアです。機械学習や深層学習の推論・訓練を効率的に行うため、ロ
Tensor Core (テンサーコア)
Tensor Coreは、NVIDIA GPUに搭載された専用ハードウェアで、行列演算を高速化し、特にLLMのトレーニングや推論を効率化します。混合精度計算をサポートし、計算負荷を
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載される専用メモリで、LLMのモデルパラメータや計算中のデータを一時的に保存します。ローカルLLMユーザーにとって、VRAM容量はモデルサイズやバッチサイズに直接影響し、不足すると性能低下やエラーにつながります。効率的な利用には、精度の低い計算(混合精度
eGPU (イージーピーユー)
eGPU(外部グラフィックボード)は、Thunderbolt/USB-C経由で接続し、ノートPCなどに高性能GPUを追加するハードウェア。LLMユーザーには、モデル訓練や推論の加速に有用だが、
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索結果をLLMに組み合わせて回答を生成する技術。ロー
エンベディング (えんべでぃんぐ)
エンベディングは、テキストを意味を含む数値ベクトルに変換する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、自然言語をモデルが処理可能な形式に変換します。事前学習済みモデル(例:sentence-transformers)を活用し、効率的なベクトル生成が可能です。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力文(プロンプト)を設計する技術です。具体的には、例示や明確な指示を含め、反復テストを通じて効果的なプロンプトを構築します。ローカルLLMユーザーには、モデルの出力を意図通りに制御し、特定タスクに最適化するための実践的な手法として重要です。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換し、類似性検索や検索最適化に用いるデータベースです。ローカルLLMユーザー向けには、FAISSやPineconeなどのツールで構築し、エンベディングを効率的に保存・検索可能にします。検索精度向上や知識ベース構築に活用され、実用性が高いです。
📖 フレームワーク
LangChain (ラングチェーン)
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMと外部データを統合するためのフレームワークで、データのインデックス作成、検索、RAG(Retrieval-Augmented Generation)をサポートします。ローカルLLMユーザー向けに、自社データとモデルを活用したアプリケーション構築
📖 コンセプト
Top-P (トップピー)
Top-P(核サンプリング)は、確率分布の上位P%のトークンのみを考慮し、出力の
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能なトークン数を示す指標です。長さが大きいほど、長文の理解や複雑なタスクに対応可能ですが、メモリ使用量や推論速度に影響を与えます。ローカルユーザーは、処理対象の文書長や応用シーンに応じて、最適なモデルを選定し、必要に応じてコンテキストを分割・要約
トークン (とーくん)
トークンは、テキストを処理する際の最小単位(単語・サブワードなど)。LLMでは入力・出力をトークン単位で処理し、モデルの性能やコストに直結。ローカルLLMユーザーは、トークン数制限(例:最大3000トークン)を意識し、入力長さや生成結果の精度を調整する必要があります。
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。誤った事実や架空の内容を出力するリスクがある。実践では、出力内容を外部資料で検証し、信頼性の高いデータで訓練・
バッチ処理 (ばっちしょり)
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルに新しい入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(推論速度・メモリ使用量)や、ONNX/TensorRTなどの最適化技術の活用が実践的です。訓練(学習)とは異なり、
温度 (おんど)
温度


コメント