このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模言語モデルシリーズ。Transformerアーキテクチャを基盤とし、
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2B/7Bなどサイズごとに最適化。ローカル環境でも軽量かつ高精度な推論を実現し、コード生成や論理的推論に強み。量化サポートや効率的なメ
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータで訓練された高パラメータ数を持つ言語モデル。自然言語理解・生成を可能にし、質問応答や文章作成などに応用。ローカル環境では、GPUメモリ制限や推論速度を考慮した最適化が重要。
Llama (ラマ)
Mistral (ミストラル)
Mistralは、フランスのMistral AIが開発した大規模言語モデル(LLM)シリーズ。7Bパラメータの「Mistral-7B」が代表的で、オープンソースかつ高効率な設計が特徴。ローカル環境での実行を想定し、GPUを活用した軽量な推論が可能。日本
Phi (ファイ)
Phiはマイクロソフトが開発した効率的なLLMシリーズ(Phi-1/2/3)。パラメータ数が少ないにもかかわらず、高い性能を発揮し、エッジ
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、テキスト生成や質問応答、コード作成など多様なタスクを処理可能です。ローカル環境でも導入可能で、Qwen、Qwen2、Qwen3など複数バージョンが存在。専用モデル(例:Qwen-VL)も用意され、チャットボ
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを効率的に利用するLLMの一種です。ローカル環境や端末向けに最適化され、低遅延・低消費電力が特徴。大規模モデルに比べて精度は
Transformer (トランスフォーマー)
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクやドメインのデータで追加学習し、性能を最適化する手法です。ローカルユーザー向けには、計算リソースを節約しながらも、モデルを自社のニーズに合わせて調整可能で、過学習を防ぐためのデータ選定が重要です。
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
GGUF (ジージーユーエフ)
GGUF(General GPU Format)は、LLMの量子化・最適化に用いられる効率的なファイル形式。モデルサイズを圧縮し、推論速度を向上させ、ローカル環境での実行を可能にします。Q2_Kなどの量子化手法をサポートし、GPUやCPUでの柔軟
GPTQ (ジーピーティーキュー)
GPTQ(Group-wise Quantization)は、モデルの重みをグループ単位で量子化し、精度を維持しつつモデルサイズを削減する技術。ローカルLLMユーザー向けに、推論速度の向上とメモリ効率化を実現。LLaMAなどの大規模モデルを軽量化し、デスクトップや端末での実行
INT4 (イントよん)
INT4は、モデルの重みを4ビット整数で表現する量子化手法で、モデルサイズを大幅に削減し、推論速度を向上させます。ただし、精度の低下が生じる可能性
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
量子化 (りょうしか)
量子化は、モデルの精度を下げずに計算量やメモリ使用量を削減する技術です。例として、32ビット浮動小数点を8ビット整数に変換し、推論速度を向上させます。ただし、過剰な量子化は精度低下のリスクがあります。LLMの軽量化やデバイスへの導入に活用されます。
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、GPU
LM Studio (エルエムスタジオ)
LM Studioは、ローカルでLLMを実行するための推論エンジン。GPU加速や複数モデル対応、直感的なUIを備え、ユーザーが自前のハードウェアで高精度な推論を効率的に行える。プライバシー保護とコスト削減に適し、カスタマイズ性も高い。
LocalAI (ローカルエーアイ)
LocalAIは、ローカル環境で機械学習モデルを推論するためのオープンソースエンジンです。クラウド依存を避けてプライバシー保護や低遅延を実現し、TensorFlow/PyTorchなど複数フレームワークを
Ollama (オラマ)
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
**Text Generation Inference**は、LLMが入力に基づいてテキストを生成する際の推論処理を最適化する技術です。ローカル環境では、GPUメモリ効率やバッチ処理を活用し、低遅延かつ高スループットを実現します。TensorRTやONNX Runtimeなどのフレームワークで実装され、リアルタイム応答や大規模な同時処理が可能です。
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAモデルをC++で実装した推論エンジンで、軽量かつ高速な推論を実現。CPU/GPU対応で、量子化技術によりメモリ効率を向上。ローカル環境でも高精度な推論が可能で、リソ
vLLM (ブイエルエルエム)
vLLMは、大規模言語モデルの推論を高速化する高性能なエンジンで、UCバークレーなどが開発。スパースアテンションや並列処理技術を採用し、メモリ効率を高めながら高速
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを視覚的に操作できるノードベースの
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable Diffusion)に「制御信号」(エッジ、ポーズ、セグメンテーションなど)を入力し、生成画像の構造を制御する拡張技術です。ローカルLLMユーザー向けには、OpenPoseやCannyフィルターなどの外部
Flux (フラックス)
Fluxは、Black Forest Labsが開発した高品質な画像生成モデル。ディフュージョンモデルに基づき、詳細なテキストからリアルな画像を生成。ローカル環境でも利用可能で、高速な推論と柔軟なカスタマイズが特
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルを効率的に微調整する技術で、画像生成モデル(例:Stable Diffusion)に適用される。モデルの重みに低ランク行列を追加し、計算リソースを抑えつつ
SDXL (エスディーエックスエル)
SDXL(Stable Diffusion XL)は、Stability AIが開発した高解像度画像生成モデル。従来のStable Diffusion
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成する拡散モデル。オープンソースで、ローカル環境でも実行可能。高品質な画像生成を可能にし、ユーザーがプロンプトをカスタマイズして詳細
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供するGPU向け並列計算プラットフォームで、AIモデルの高速化に不可欠。ローカルLLMユーザーは、CUDA対応GPU(例:RTXシリーズ)を活用し、PyTorchやTensorFlowなどのフレームワークで高速な推論・学習が可能。CUDAドライバのインストールとライブラリの
NPU (エヌピーユー)
NPU(Neural Processing Unit)は、AI計算を高速化する専用ハードウェア。ニューラルネットワークの推論・学習を効率的に行うため、LLMのローカル実行時に処理速度と電力効率を向上させます。スマートフォンやAI専用チップに搭載され、GPUに比べて低消費電力で高パフォーマンスを実
Tensor Core (テンサーコア)
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載された専用メモリで、モデルの重みや計算中のデータを一時的に保存します。ローカルLLMでは、VRAM容量がモデルサイズやバッチサイズに直接影響し、不足すると性能低下やエラーを引き起こします。効率的なメモリ管理が重要です。
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索結果を生成モデルに組み合わせて回答を生成する技術。ローカルLLMユーザーは、自社データベースを活用し、外部依存を減らしながら高精度な応答を実現できます。検索と生成の連携がポイントで、知識の最新性や専用データの活用が可能です。
エンベディング (えんべでぃんぐ)
エンベディングは、テキストを意味を含む数値ベクトルに変換する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、自然言語をモデルが処理可能な形式に変換します。Hugging Faceなどのライブラリで生成され、効率的なモデル運用を支えます。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力(プロンプト)を設計する技術です。クエリの構造化、例示の活用、反復的な最適化を通じて、モデルの出力品質やタスク遂行力を向上させます。ローカルLLMユーザーは、明確な指示やコンテキストを含むプロンプトを構
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するツールです。ローカル
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワークで、プロンプト・モデル・メモリの連携や、データベース・APIとの統合を簡易化します。ローカルLLMユーザー向けに、チェーン構成やエージェント機能を提供し、柔軟なワークフロー構築を実現します。
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMを活用したアプリケーション開発を支援するフレームワークで、データの取得・処理・クエリ処理を簡素化します。ローカルLLMとの連携を容易にし、モジュール構成で柔軟な拡張性を実現。実践的には、データパイプライン構築やアプリケーション統合に最適です。
📖 コンセプト
Top-P (トップピー)
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能なトークン数を指します。ローカル環境では、長すぎるコンテキストはメモリ制限により処理不能になるため、入力の要約や分割が必要です。モデルの性能に直結し、トークン化方式やハードウェアの制約を考慮した最適な設定が重要です。
トークン (とーくん)
トークン
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。事実誤認や架空の内容を出力する可能性があり、特に信頼性が求められる場面では注意が必要。ユーザーは出力内容を外部資料で検証し、信
バッチ処理 (ばっちしょり)
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルが入力データから出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(推論速度・メモリ使用量)が重要で、量子化や最適化技術を活用してローカル環境での実行を最適化します。学習とは異なり、既存の知識
温度 (おんど)
温度はテキスト生成時の確率分布を調整するパラメータ。値が低いほど出力が予測可能で保守的になり、高いほどランダム性が増し創造性が高まる。ロー


コメント