このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
Gemma (ジェマ)
GemmaはGoogleが開発した効率的なLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。テキスト生成やコード作成、論理的推論を得意とし、軽量なモデルも提供されており、ローカル
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータで訓練された大規模言語モデルで、自然言語処理タスク(文章生成・翻訳・質問応答など)に優れ、ローカル環境でも高精度な推論が可能。パラメータ数が数十億規模で、ユーザーはプライバシー保護とコスト削減の観点から、オンプレミスで導入・運用するケースが増加しています。
Llama (ラマ)
Mistral (ミストラル)
Mistralは、フランスのスタートアップMistral AIが開発したオープンソースのLLMシリーズ。7Bパラメータのモデルが特徴で、軽量かつ高精度な推論性能を実現。ローカル環境での導入が容易
Phi (ファイ)
Phiはマイクロソフトが開発した効率的なLLMシリーズ(Phi-1/2/3)。小規模パラメータながら高精度なタスク処理を実現し、ローカル環境でも軽量に動作。研究目的や限定的なリソース環境での活用に適し、オープンソースコミュニティでも注目されている。
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、多言語対応・幅広いタスク処理(質問応答・文章作成・プログラミングなど)が可能。ローカル環境での導入・カスタマイズを想定し、高精度な推論と効率的なリソース利用が特徴です。
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを抑えて動作するLLMの一種。ローカル環境での実行に適し、軽量なタスクやエッジデバイス向けに最適化されている。大規模LLMと比べて精度は劣るが、推論速度やコスト効率に優れるため、実用性が高く、特定の用途に特
Transformer (トランスフォーマー)
Transformerは、2017年に発表されたLLMの基盤となるアーキテクチャ。自己注意機構により文脈を効果的に捉え、並列処理で高速学習を実現。ローカルLLMユーザー向けには、長文処理やマルチタスク対応が可能で、モデルスケーリングに最適な構造
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMを特定の
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
EXL2
FP16 (エフピーじゅうろく)
GGUF (ジージーユーエフ)
GGUF(General GPU Universal Format)は、LLMの量子化・最適化に用いられるファイル形式。モデルサイズを圧縮し、ローカル環境での高速推論を実現。4bit/8bit量子化をサポートし、メモリ
GPTQ (ジーピーティーキュー)
GPTQ(Group-wise Quantization)は、モデルの重みをグループごとに量子化し、精度を維持しながらモデルサイズを削減する技術。ローカルLLMユーザー向けに、GPUメモリの節約と推論速度向上を実現。PyTorchなどと互換性があり、軽量なデプロイが可能。
INT4 (イントよん)
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
KVキャッシュは、Transformerモデルの注意機構で使用されるキー・値ペアを効率的に保存・再利用するメカニズム。量子化や最適化では、メモリ削減や推論速度向上を目的に、キャッシュのスライディングウィンドウやブロック単位の管理を採用。ローカル
量子化 (りょうしか)
量子化は、モデルの重みやアクティベーションの精度を低くする技術
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、ローカル環境で大規模言語モデルを効率的に推論するため
LM Studio (エルエムスタジオ)
LM Studioは、ローカルでLLMを実行可能な推論エンジン。GPU加速やモデル量子化をサポートし、ユーザーが自前のハードウェアで高精度な推論を効率的に行えるように設計。複数モデルのロードやカスタム設定が可能で、研究・開発向けの実用性が高く、プライバシーやコスト削減にも貢献します。
LocalAI (ローカルエーアイ)
LocalAIは、ユーザー端末で動作する推論エンジンで、インターネット接続不要なローカル実行を可能にします。プライバシー保護と低遅延を実現し、カスタマイズ性が高く、オフライン環境での利用に最適です。モデルの制御性とコスト効率が特徴です。
Ollama (オラマ)
Ollamaは、ローカル環境で大規模言語モデル(LLM)を効率的に推論するためのエンジン。モデルのローカルデプロイを簡易化し、API経由での利用を可能にし、プライバシー保護とコスト削減を実現。
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
「Text Generation Inference(テキスト生成推論)」は、LLMが入力に基づいてテキストを生成するための推論プロセスです。ローカルユーザー向けには、モデルの高速化(例:TensorRTによる最適化)、メモリ効率(例:KVキャッシュの管理)、およびバッチ処理の実装が実践的です。推論エンジンとしての
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAモデルをC++で実装した推論エンジンで、GPU不要でCPUでも高速に実行可能。量子化技術によりメモリ効率を向上させ、ローカル環境での大規模LLM実行を実現。オープンソースで、軽量な実装が特徴。
vLLM (ブイエルエルエム)
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを視覚的に操作できるノードベースのインターフェース。ローカル環境で複雑な画像生成ワークフローを構築可能。コード不要で直感的なUIにより、モデル調整や拡張が容易。カスタマイズ性が高く、GPU利用で高速な処理が可能。
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable
Flux (フラックス)
LoRA (ローラ)
SDXL (エスディーエックスエル)
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成するオープンソースモデル。拡散過程を用いて高品質な画像を生成し、ローカルでGPU上に実行可能。バージョンごとに精度や安全性が向上し、アート・デザイン分野で広く
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供するGPU向け並列計算プラットフォームで、LLMのトレーニングや推論時にGPUの計算能力を効率的に活用します。CUDAコアを駆使し、大規模な行列演算やテンソル処理を高速化し、ローカル環境でのモデル実行を可能にします。CUDA Toolkitの導入は、GPUアクセラレーションを実現するための基本です。
NPU (エヌピーユー)
NPU(Neural Processing Unit)は、AI計算を高速化する専用ハードウェア。機械学習や深層学習の演算を効率的に行うため、ローカルLLMユーザーには、推論やトレーニング時の処理速度向上や電力効率の改善に役立つ。スマートフォンや
Tensor Core (テンサーコア)
Tensor
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載された専用メモリで、モデルの重みや計算データを一時的に保存します。ローカルLLMでは、VRAM容量がモデルサイズやバッチサイズに直接影響し、不足すると性能低下やエラーを引き起こします。システムRAMとは異なり、GPU専用の高速メ
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索結果をもとに
エンベディング (えんべでぃんぐ)
エンベディングは、テキストやデータを意味を含む数値ベクトルに変換する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、モデル入力の前処理にも用いられます。Hugging FaceのTransformerライブラリなどで生成され、FAISSなどのベクトルデータベースと組み合わせて効率的な検索が可能です。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに正確な出力を得るために入力プロンプトを設計・最適化する技術です。構造化された指示、具体例の提示、反復的な調整が有効で、ローカル環境ではモデルの性能を最大限に引き出すために不可欠です。誤解を防ぎ、タスクに応じた最適な出力を生成します。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するツールです。LLMの出力や埋め込みベクトルを格納し、類似性検索やクエリ応答に活用。ローカル環境ではFAISSやPineconeなどを使って、高次元データの高速処理が可能です
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワーク。プロンプト、モデル、メモリのモジュール化や、ローカルモデルとの連携を可能にし、データ処理や評価ツールを提供。ローカルユーザー向けに、プライバシー保護と柔軟なカスタマイズを実現します。
LlamaIndex (ラマインデックス)
LlamaIndexは、ローカルLLMとデータを統合するためのフレームワークで、ドキュメントのインデックス作成やクエリ処理を簡易化します。データベース連携やRAG(Retrieval-Augmented
📖 コンセプト
Top-P (トップピー)
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能な入力トークン数を指します。ローカルユーザー向けには、長さが大きいほど複雑なタスクに対応可能ですが、メモリ使用量や推論速度に影響を与えます。適切な設定で、モデルの精度と効率を最適化することが重要です。
トークン (とーくん)
トークンは、LLMがテキストを処理する際の基本単位で
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象です。誤った事実や架空の内容を出力するため、信頼性が低下します。実践では、出力内容を外部資料で検証し、モデルの信頼性を高めるためのファクトチェック
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一括で処理する方法で、効率性を重視します。LLMでは、トレーニングや推論時にデータをまとめて処理し、リソースを有効活用します。並列処理やメモリ最適化が可能で、大規模なタ
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルに新たな入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(量子化・最適化)、ハードウェアリソースの
温度 (おんど)
温度はLLMの出力のランダム性を調整するパラメータ。値が低いほど確率が高いトークンを選び、論理的で一貫性


コメント