このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。多言語対応で、テキスト生成やコード作成、論理的推論など幅広いタスクに適応。効率的な設計により、リソ
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータで訓練された大規模言語モデルで、自然言語の理解・生成を可能にします。ローカル環境での導入では、プライバシー保護やコスト削減が目的で、推論速度
Llama (ラマ)
Mistral (ミストラル)
Mistralは、フランスのMistral AIが開発したLLMシリーズ。Mistral 7BやMixtral 8x7Bなど、効率性と推論性能に優れたモデルが特徴。コード生成や複雑なタスク処理に適し、オープンソースで利用可能。ローカル環境での導入やカスタ
Phi (ファイ)
Phiはマイクロソフトが開発したLLMシリーズで、Phi-1、Phi-2など複数のモデルからなる。小型ながら高精度な性能を実現し、ローカル環境での導入に適している。軽量性と
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、質問応答・文章生成・プログラミングなど多様なタスクに対応。多言語サポートと論理的推論能力を備え、ローカル環境での導入も可能。実用性と柔軟性を重視した設計が特徴です。
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを効率的に利用するLLMの一種。ローカル実行や端末向けアプリケーションに適し、低遅延・低消費電力が特徴。性能はLLMに劣るが、特定タ
Transformer (トランスフォーマー)
Transformerは、注意機構(Self-Attention)と位置エン
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクやドメインのデータで追加で学習させ、性能を最適化するプロセスです。ローカルユーザー向けには、計算リソースを節約しつつ、自社データに合わせたモデル調整が可能で、Hugging Faceなどのフレームワークで実施可能です。少量のデータでも有効で、実用性が高まります。
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
GGUF (ジージーユーエフ)
GGUF(General GPU Universal Format)は、LLMの量子化・最適化に用いられるフォーマットで、モデルサイズを削減し、推論速度を向上させます。Q2_K/Q4_Kなどの量子化
GPTQ (ジーピーティーキュー)
GPTQ(Group-wise Quantization)は、モデルの重みをグループごとに量子化し、精度を維持しながらモデルサイズを削減する技術。ローカルLLMユーザーには、GPUメモリ制限下でも高精度な推論を実現し、大規模モデルのロ
INT4 (イントよん)
INT8 (イントはち)
INT8は、モデルの重みやアクティベーションを8ビット整数に変換する量子化技術です。モデルサイズを削減し、推論速度を向上させ、ローカル環境
KVキャッシュ (けーぶいきゃっしゅ)
KVキャッシュは、Transformerモデルの生成時に過去のトークンのKeyとValueを一時的に保存するメモリ領域です。再計算を防ぎ
量子化 (りょうしか)
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、ローカル環境で大規模LL
LM Studio (エルエムスタジオ)
LM Studioは、ローカルでLLMを実行可能な推論エンジンで、クラウド依存を排除しコストとプライバシーを確保します。GPU加速やモデル量子化をサポートし、複数モデルのローカル実行と直感的なUIを提供。軽量な推論環境構築に最適です。(198字)
LocalAI (ローカルエーアイ)
Ollama (オラマ)
Ollamaは、ローカルで大規模言語モデル(LLM)を効率的に実行する推論エンジン。軽量で高速な処理を実現し、複数モデルのサポートや簡単なAPIを提供。開源でクロスプラットフォームに対応し、ユーザーは自前のハードウェアでLLMをテスト・カスタマイズ可能。雲依存なし
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
**Text Generation Inference**は、トレーニング済みLLMを用いてテキストを生成する推論プロセスを最適化したエンジン。高速化やメモリ効率を重視し、リアルタイム応答や大規模モデルのローカル実行に適す。ユーザーは、モデルの
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAモデルをC++で実装した推論エンジンで、CPUでの高速推論を可能にします。量子化技術を採用し、モデルサイズを削減し、GPUが不要なローカ
vLLM (ブイエルエルエム)
vLLMは、LLMの推論を高速化するオープンソースのエンジンで、GPUメモリの効率的利用と並列処理を実現。ローカ
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを操作するためのノードベースの視覚的インターフェースで、柔軟なワークフロー構築が可能。ローカル環境で高精度な画像生成を実現し、カスタムノードや拡張機能の豊富さが特徴。AIアーティスト向けの実践的なツールとして注目されている。
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable Diffusion)に接続して、
Flux (フラックス)
LoRA (ローラ)
SDXL (エスディーエックスエル)
SDXL(Stable Diffusion XL)は、Stability AIが開発した高
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したオープンソースのテキストから画像を生成するモデルで、拡散過程(ノイズを加え逆転)を用いています。ローカル環境で実行可能で、ライセンスが柔軟なためカスタマイズや商用利用が容易です。コミュニティサポートも充
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供するGPU向け並列計算プラットフォームで、GPUの計算能力を活用してLLMのトレーニング・推論を高速化します。ローカルLLMユーザー向けには、CUDAを介してGPUのCUDAコアを効率的に利用でき、PyTorchやTensorFlowなどのフレームワークと連携して性能を引き出せます。
NPU (エヌピーユー)
NPU(Neural Processing Unit)は、AIの機械学習や深層学習を効率的に処理するための専用ハードウェアです。CPUやGPUに比べて、並列処理能力が高く、低
Tensor Core (テンサーコア)
Tensor CoreはNVIDIA GPUに搭載された専用演算ユニットで、行列演算を高速化。AIトレーニングや推論で頻繁に使用されるマトリクス乗算を効率的に処理し
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載された専用メモリで、LLMのモデルパラメータや計算データを一時的に保存します。ローカルLLMでは、VRAM容量がモデルサイズやバッチサイズに直接影響し、不足すると性能低下やエラーが発生します。システムRAMとは異なり、GPU
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索結果をLLMに組み合わせて回答を生成する技術。外部データをリアルタイムに参照できるため、最新情報や専門知識を正確に反映し、応答の信頼性を高めます。ローカルLLMユーザーには、知識ベース
エンベディング (えんべでぃんぐ)
エンベディングは、テキストやデータを数値ベクトルに変換する技術で、LLMの
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力文(プロンプト)を設計する技術です。具体的には、指示の明確化や例示、テンプレートの活用などにより、モデルの出力品質を向上させます。ローカルLLMユーザーには、
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するデータベースです。LLMユーザーは、生成された埋め込みベクトルをストアし、類似性検索やクエリ応答に活用します。FAISSやPineconeなどのツールが代表的で、ローカル
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワークです。プロンプト、チェーン、メモリ、エージェントなどのコンポーネントを統合し、ローカル環境での柔軟
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMを活用したアプリケーション開発を簡易化するフレームワークです。データのインデックス作成、クエリ処理、モジュールの統合をサポートし、ローカルLLMとの連携をスムーズにします。実装の柔軟性と効率性を重視し、開発者の負担を軽減します。
📖 コンセプト
Top-P (トップピー)
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能なトークン数を指します。ローカル環境では、長すぎるコンテキストはメモリ制限により処理不能になるため、入力テキストの長さに制約があります。モデルの性能に影響するため、適切な長さを設定し、必要に応じて要約や分割を行うことが実践的です。
トークン (とーくん)
トークンは、LLMが処理する最小単位で、文字・語彙・サブワードのいずれかを表します。モデルごとにトークナイズ方法(例:BPE)が異なり、入力・出力の分解・再構成に使われます。ローカルユーザー向けに、トークン数を意識することで、プロンプトの最適化やメモリ効率が向上します。
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。誤った事実や架空の内容を出力し、信頼性を損なう。ローカルLLMユーザーは、出力内容を常に検
バッチ処理 (ばっちしょり)
バッチ処理は、データを一括で処理する方法で、効率性を重視します。ローカルLLMユーザー向けには、大量のデータを一度に処理し、リソースを節約できる点が実用的です。
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルが入力データを受け取り、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(量子化・最適化)、ハードウェアリソースの制限、応答遅延の最適化が重要です。
温度 (おんど)
温度はLLMの出力ランダム性を調整するパラメータ。値が低いほど確率の高いトークンを選び、安定した出力を生む。高いほど多様性が増し、創造的だが予測困難な結果も。実践では、精度重視なら0.5前後、クリエイティブな生成なら1.0以上を設定


コメント