このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。多言語対応で効率的かつ高精度なテキスト生成やコード作成を可能にし、ローカル環境での利用に適している。軽量なモデル構成
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータを学習し、自然言語を理解・生成するAIモデル。ローカル環境で実行可能な場合、推論速度やメモリ使用量を考慮した最適なモデル選定が重要。例:LLaMA、Mistral。応用例は翻訳・要約・チャットボットなど多岐にわたる。
Llama (ラマ)
Mistral (ミストラル)
Mistralは、フランスのMistral AIが開発したLLMシリーズ。Mistral-7Bなど、パラメータ数が少ないながらも性能が高く、オープンソースとして利用可能。ローカル環境での導入やカスタマイズに適し、効率的な推論が特徴。研究や実用アプリケーションで活用される。
Phi (ファイ)
Phiはマイクロソフトが開発した効率的なLLMシリーズ(Phi-1/2/3)。パラメータ数が少ないにもかかわらず、性能が高く、ローカル環境やエッジデバイスでの実装に適している。特にPhi-3は精度と効率のバランスが優れており、軽量なモデルとして注目されている。
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、テキスト生成や質問応答、コード作成など多様なタスクに対応。ローカル環境での導入が可能で、高精度な自然言語処理を実現。最新バージョンでは推
SLM (エスエルエム)
SLM(Small Language Model)は、パ
Transformer (トランスフォーマー)
Transformerは、2017年に提唱されたLLMの基盤となるアーキテクチャで、自己注意機構(Self-Attention)を採用し、並列処理を可能にしています。従来のRNNと異なり、文脈全体を同時に処理できるため、長文の理解や並列計算効率が向上します
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクやドメインのデータで追加で学習させ、性能を最適化する手法です。ローカルユーザー向けには、自社のデータでモデルを微調整し、精度を向上させることが可能ですが、過学習を防ぐため適切なデータ選定と学習設定が重要です。
📖 量子化・最適化
AWQ (エーダブリューキュー)
AWQ(Asymmetric Weight Quantization)は、モデルの重みを非対称に精度を下げて効率化する量子化技術。計算コストとメモリ
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
GGUF (ジージーユーエフ)
GGUFは、モデルのサイズを削減し、推論速度を向上させるための量子化・最適化フォーマットです。ロ
GPTQ (ジーピーティーキュー)
GPTQ(Group-wise Quantization)は、モデルの重みをグループごとに量子化し、精度を維持しながらメモリ使用量と推論速度を向上させる技術です。ローカルLLMユーザー向け
INT4 (イントよん)
INT4は、
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
量子化 (りょうしか)
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、消費者向けGPUで大規模LLMを効率的に推論するためのエンジン。量子化対応でメモリ効率が高く、ローカル環境でも高精度な推論が可能。CUDAベースの最適化により、NVIDIA GPUでの高速実行を実現し、ユーザー
LM Studio (エルエムスタジオ)
LM Studioは、ローカルで大規模言語モデル(LLM)を実行するための推論エンジン。GPU加速や複数モデル対応、直感的なUIを備え、開発者向けにカスタマイズ可能。軽量で高パフォーマンスな推論を実現し、非技術者も簡単に利用可能。オープンソースで、ローカル環境での高速なモデル実行を支援。
LocalAI (ローカルエーアイ)
LocalAIは、ローカル環境でLLMを
Ollama (オラマ)
Ollamaは、ローカル環境でLLMを効率的に実行するための推論エンジン。軽量で高速なモデル実行を可能にし、GPU/TPUの最適化やモデルカスタマイズをサポート。ユーザーは自前のハードウェアで大規模モデルをホストでき、API経由での柔軟な統合が可能。オープンソ
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
Text Generation Inferenceは、LLMが入力に基づいてテキストを生成する推論プロセスです。ローカルユーザー向けには、モデルの効率化(量子化・カスタム最適化)や、リアルタイム応答性を重視した実装が重要です。推論エンジンとしての役割を果たし、チャットボットやコンテンツ生成などに活用されます。
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAモデルをC/C++で実装した軽量な推論エンジンで、CPUでの高速推論を実現。オープンソースで、ARMやx86環境に対応し、量子化技術によりメモリ効率を向上。ローカル環境での実行や自社
vLLM (ブイエルエルエム)
vLLMは、大規模言語モデル(LLM)の推論を高速化するオープンソースのエンジンで、効率的なメモリ管理と並列処理技術により、ローカル環境での高速推論を実現。Hugging Faceなどと連携し、大規模モデルのローカル実行を最
📖 画像生成
ComfyUI (コンフィユーアイ)
Comfy
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable Diffusion)に「制御信号」(エッジ、ポーズ、セグメンテーションなど)を加えることで、生成画像の構造やスタイルを正確に制御する技術です。ローカルLLMユーザー向けには、Open Sourceツールで実装可能で、カスタム制御パラメータを設定できるため、高精度な画像生成が可能です。
Flux (フラックス)
LoRA (ローラ)
SDXL (エスディーエックスエル)
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成する拡散モデル。オープンソースでローカル環境でも実行可能で、高品質な画像生成が可能。ユーザー
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供するGPU向け並列計算プラットフォームで、LLMのトレーニングや推論を高速化します。GPUの計算リソースを効率的に活用し、大規模な行列演算を加速。ロー
NPU (エヌピーユー)
Tensor Core (テンサーコア)
Tensor CoreはNVIDIA GPUに搭載された専用ハードウェアで、行列演算を高速化する。LLMのトレーニング・推論で頻繁に発生する行列積を効率的に処理し、性能とメモリ効率を向上させる。特に混合精度計算をサポートし、ローカルユーザーは高速なモデル処理が可能になる。
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載される専用メモリで、画像処理や機械学習モデルの計算に使用されます。ローカルLLMユーザーにとって、モデルのサイズやバッチ処理能力に直結し、VRAM容量が不足すると性能低下やエラーが発生します。モデルを効率
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索システムと生成モデルを組み合わせた技術で、外部データをリアルタイムに参照して回答を生成します。ローカルLLMユーザー向けには、モデルの知識に限界がある場合に外部データを活用し、精度を向上させる実践的な手法です。検索結果を元に文脈に応
エンベディング (えんべでぃんぐ)
エンベディングは、テキストやデータを意味を含む数値ベクトルに変換する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、モデル入力の前処理にも用いられます。Hugging Faceなどのライブラリで生成可能で、タスクに応じてカスタマイズ可能です。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力文(プロンプト)を設計する技術です。ローカルLLMユーザー向けには、モデルの出力精度を高めるための指示文の最適化や、誤解を防ぐ明確なフレームワーク構築が重要です。実践では、タスクに応じたテンプレート作成や、反復的なテストを通じた調整が効果的です。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するデータベースです。LLMの出力や埋め込みベクトルを格納し、類似性検索や検索拡張に活用。ローカル環境ではFAISSやMilvusなどのオープンソースツールで構
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワークで、プロンプト・モデル・メモリの連携を簡潔に実装可能。ローカルLLMユーザー向けに、複数モデルの統合やエージェント処理をスムーズにし、実用的なワークフロー構築を支援します。
LlamaIndex (ラマインデックス)
📖 コンセプト
Top-P (トップピー)
Top-P(核サンプリング)は、確率の累積値がPを超えるトークンを候補に選ぶ手法。Top-Kと異なり、柔軟に確率分布を制御でき、出力の多様性と一貫性のバランスを取る。ローカルLLMでは、Pを調整することで創造性と安定性を調整可能。例:P=0.9で、上位90
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能なトークン数を指します。ローカルユーザー向けには、長文処理や複雑なタスクに適応するための指標ですが、メモリや計算リソースに制限があるため、モデル選定や最適化時に重要なパラメータです。
トークン (とーくん)
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。事実誤認や虚偽情報を含む場合があり、特に信頼性が求められる場面では注意が必要。ユーザーは出力内容を常に確認し、信
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一度に処理する方法で、効率性を高めます。ローカルLLMでは、
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルが新しい入力データから予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの計算効率(例:量子化)、メモリ使用量、推論速度が実用性に直結します。トレーニングとは異なり、既存の知識を応用して即時結果を導き出すことが
温度 (おんど)


コメント