このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
Gemma (ジェマ)
GemmaはGoogleが開発した効率的なLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。コード生成や論理的推論に優れ、軽量な設計によりローカル環境でも高速に動作。多言語対応で、研究や実用シーンで幅広く利用可能。
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータで訓練された高精度な言語モデルで、質問応答や文章生成など多様なタスクを処理します。ローカル環境で実行可能で、プライバシー保護やオフライン利用が可能。代表例はLLaMAやMistralなど。推論速度やメモリ効率を考慮した最適なモデル選定が重要です。
Llama (ラマ)
Mistral (ミストラル)
Mistralは、フランスのスタートアップMistral AIが開発したLLMシリーズ。7Bや8x7Bなどのモデルが存在し、コード生成や論理的推論に優れる。オープンソースで多言語
Phi (ファイ)
Phiはマイクロソフトが開発した効率的なLLMシリーズ(Phi-1/2/3)。パラメータ数が少ないにもかかわらず、性能が高く、ローカル環境での導入が容易。特にPhi-3は、小規模な
Qwen (チェン)
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを効率的に利用するLLMの一種。ローカル環境での実行や、端末制約のあるデバイス向けに最適化
Transformer (トランスフォーマー)
Transformerは、2017年に提唱されたLLMの基盤となるアーキテクチャで、自己注意機構(Self-Attention)と位置エンコーディングを採用。並列処理を可能に
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクやドメインに特化した知識を追加する技術です。ローカルユーザー向けには、少量のデータでモデルを微調整し、精度を向上させる方法として活用されます。計算リソースを節約しつつ、実用性を高める実践的なアプローチです。
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
EXL2は、Exaoneシリーズ開発
FP16 (エフピーじゅうろく)
FP16(16ビット浮動小数点数)は、計算精度を半分に抑えることでメモリ使用量と演算速度を向上させる技術です。LLMのローカル実行では、GPUメモリの節約や推論速度の向上に有効ですが、精度低下のリスクがあります。多くのモデルは混合精度(FP16とFP32の組み合わせ)で訓練されており、実用上問題が少ないのが特徴です。
GGUF (ジージーユーエフ)
GGUF(General GPU Universal Format)は、LLMの量子化・最適化に用いられるバイナリ形式で、モデルサイズを削減し、GPUやCPUでの高速
GPTQ (ジーピーティーキュー)
GPTQは、モデルの重みをグループごとに量子化し、精度を維持しながらモデルサイズを削減する技術。ローカルLLMユーザーには、GPUメモリ制限下でも大
INT4 (イントよん)
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
KVキャッシュは、Transformerモデルの注意機構で生成中のキーバルーンを一時的に保存するメモリ領域。量子化や最適化では、キャッシュサイズを制御してメモリ効率を向上させ、ローカ
量子化 (りょうしか)
量子化は、モデルの重みやアクティベーションの精度を低くして計算量やメモリ使用量を削減する技術です。例として、32ビット浮動小数点を8ビット整数に変換します。ローカルLLMユーザーには、ハードウェア制約下での効率的な実行を可能にし、推論速度の向上
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、GPU上で大規模言語モデルを効率的に推論するためのエンジンで、量子化技術を採用し、メモリ使用量を抑えつつ高速な推論を実現。ローカル環境での実行を最適化し、複数モデルの柔軟な対応が可能。ユーザーは軽量な設定で高パフォーマンスを享受できる。
LM Studio (エルエムスタジオ)
LM Studioは、ローカル環境で大規模言語モデル(LLM)を実行できる推論エンジン。GPU利用を前提に高速な推論を実現し、カスタムモデルのデプロイやテストに最適。ユーザーインターフェースが整っており、開発者向けにモデルの調整やパフォーマンスチューニングを簡易化する。
LocalAI (ローカルエーアイ)
Ollama (オラマ)
Ollamaは、ローカルで大規模言語モデル(LLM)を効率的に実行するための推論エンジン。モデルのホスティング、REST APIによる統合、軽量なリソース管理を提供。PyTorchやTransformersをサポートし、オープンソースで利用可能。ローカルユーザー向けに、モデルの高速起動と低消費電力を実現。
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
**Text Generation Inference**は、LLMが入力に基づいてテキストを生成する推論プロセスです。ローカル環境では、TensorRTやHugging Face Transformersなどのフレームワークで実装され、量子化やモデル圧縮により効率化されます。ユーザーは、推論速度や
llama.cpp (ラマシーピーピー)
llama
vLLM (ブイエルエルエム)
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを扱うノードベースのインターフェースで、ローカル環境で柔軟な画像生成ワークフローを構築できます。ノードごとに処理をカスタマイズ可能
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable Diffusion)に接続され、エッジやポーズなどの「コントロールマップ」を入力することで、生成画像の構造やスタイルを制御する技術です。ローカル
Flux (フラックス)
Fluxは、画像生成における機械学習フレームワークで、特に動画生成や高品質な画像合成に用いられる。実装の柔軟性と計算
LoRA (ローラ)
SDXL (エスディーエックスエル)
SDXL(Stable Diffusion XL)は、高解像度で詳細な画像生成を
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成する拡散モデル。ノイズを加え・減らすプロセスで画像を生成し、高品質な出力が特徴。ローカル環境で動作可能で、GPU
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供するGPU向け並列計算プラットフォーム。LLMのトレーニング・推論で、CUDAコアを活用し高速な計算を実現。メモリ管理やカーネル実行を
NPU (エヌピーユー)
NPU(Neural Processing Unit)は、AI処理を最適化した専用ハードウェアで、行列演算や並列処理を高速に実行します。ローカルLLMユーザー向けには、モデル推論時の効率化や電力消費の低減が期待でき、特にエッジデ
Tensor Core (テンサーコア)
Tensor CoreはNVIDIA GPUに搭載された専用演算ユニットで、行列演算を高速化し、LLMのトレーニング・推論を効率化します。混合精度計算をサポートし、性能と電力効率を向上させ、ローカルLLMユーザーには高速な処理
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載された専用メモリで、画像処理や機械学習計算時にデータを一時的に保存します。ローカルLLMユーザーにとって、モデルのサイズやバッチサイズに応じてVRAM容量が限界値に達するとエラーが発生するため、GPUのVRAM容量を確認し、モデルの最適化やメモリ管理が重要です。
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、外部データベースから情報を検索し、LLMに組み合わせて回答を生成する技術。ローカルLLMユーザーには、最新情報や専門知識を効率的に活用する手段として有用。検索精度と生成品質のバランスがカギで、適切なリトリーバルモデルと組み合わせることで、より正確な応答が可能になる。
エンベディング (えんべでぃんぐ)
エンベディングは、テキストを意味を含む数値ベクトルに変換する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、自然言語をモデルが処理可能な形式に変換します。Sentence TransformersやHugging Faceのモデルが代表的で、事前学習済みモデルの利用や微調整が実践的です。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに正確な出力を引き出すため、明確な指示や例を含めたプロンプトの設計・最適化技術です。ローカルLLMユーザー向けには、反復的なテストとフィードバックを活用し、タスクに応じた構造化されたクエリ構成が実践的です。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するツールです。ローカルLLMユーザー向けには、類似性検索やセマン
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワーク。プロンプト設計、モデル統合、メモリ管理など、モジュール化された構成要素を提供し、ローカル環境での柔軟なカスタマイズと効率的なワークフロー構築を可能にします。
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMを活用したアプリケーション構築を支援するオープンソースフレームワークです。データのインデックス作成、検索、クエリ処理を簡易化し、ロー
📖 コンセプト
Top-P (トップピー)
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能な入力トークン数を示す指標です。長さが大きいほど、長文や複雑な会話の理解が可能になりますが、計算リソースとメモリ使用量も増加します。ローカル環境では、ハードウェア制約に注意しつつ、タスクに応じた最適な長さを選択することが重要です。
トークン (とーくん)
トークンは、LLMが処理する最小単位で、単語やサブワード(例:「unhappiness」→「un」「happiness」)を含む。トークナイズ(分割)により、モデルは効率的に文脈を理解し、生成を可能にする。実践では、トークン数制限や最適な分割方法が性能に直結するため、注意が必要。
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。事実誤認や架空の内容を出力するリスクがあるため、出力内容の検証や信頼性の高いデータでの微調整が重要。ユーザーは、生成結果を外部ソースで確認し、不確実な情報には注意を払うべきです。
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一度に処理する方法で、効率性を重視します。ローカルLLMでは、バッチサイズを調整することでメモリ使用量と処理速度のバランスを取れます。トレーニングや推論時に大量データを一括処理し、リソースを節約する実践的な手法です。
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルが新しい入力データから予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(推論速度・メモリ使用量)や、量子化・カーネル最適化などの技術が重要です。実際の応用では、ユーザーのクエリに即した結果生成が目的です。
温度 (おんど)
LLMの出力生成において「温度」は確率分布の調整パラメータ。値が低いほど確率が高いトークンを選び

コメント