このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模言語モデル(LLM)のシリーズで、Transformerアーキテクチャを基盤とし、大量のテキストデータで事前学習されています。ローカル環境でも利用可能で、文章生成や翻訳、質問応答など多様なタスクに対応します。モデルの進化に伴い、パラメータ数や性能が向上しています。
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。軽量で効率的な設計により、ローカル環境でもスムーズに動作し、マルチリンガル対応。研究・実用両方に適し、ユーザーは
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータで訓練された高精度な言語モデルで、文章生成や質問応答などに用いられる。ローカル環境で実行可能で、プライバシー保護やインターネット依存の回避が可能。LLaMAやMistralなどの代表モデルがあり、性能向上には計算リソースの確保が不可欠。
Llama (ラマ)
Mistral (ミストラル)
Mistralは、フランスのMistral AIが開発した大規模言語モデル(LLM)シリーズ。7Bパラメータの「Mistral-7B」が有名で、オープンソース化されている。計算効率が高く、ローカル環境でも実行可能。日本語対応モデルも存在し、軽量な推論環境構
Phi (ファイ)
Phiはマイクロソフトが開発した軽量なLLMシリーズで、Phi-1、Phi-2、Phi-3が代表的。計算リ
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、多言語対応・コード生成・会話理解を得意とします。ローカル環境での導入が可能で、プライバシー保護やカスタマイズに適しています。最新バージョンは性能
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを効率的に利用できるLL
Transformer (トランスフォーマー)
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクやドメインのデータで追加学習し、性能を最適化する手法です。ローカルユーザー向けには、計算リソースを節約しながらも、モデルを自社のニーズに合わせてカスタマイズできる点が実用的です。過学習を防ぐため、適切なデータ量と学習率の調整が重要です。
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
GGUF (ジージーユーエフ)
GGUFは、LLMの量子化・最適化に用いられるバイナリ形式で、モデルサイズを削減し、推論速度を向上させます。ローカルユーザー向けに、低精度化やパラメータ圧縮を実現し、GPUメモリ効率を高め、消費者向けハードウェアでもスムーズに動作させます。 llama.cppなどと連携し、軽量な実行環境を構築可能です。
GPTQ (ジーピーティーキュー)
GPTQ(
INT4 (イントよん)
INT4は、モデルの重みを4ビット整数で表現する量子化技術。モデルサイズを大幅に削減し、推論速度を向上させることができるが
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
量子化 (りょうしか)
量子化は、モデルの精度を下げて計算量やメモリ使用量を削減する最適化技術です。例:
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、大規模言語モデルを効率的に推論するためのエンジンで、ローカルGPUでの実行を最適化。メモリ使用量の削減や高速な推論を実現し、大規模モデルのローカル実行を可能にします。ユーザーは、高精度なモデルを手軽に導入・運用できる利点
LM Studio (エルエムスタジオ)
LM Studioは、ローカルでLLMを実行するための推論エンジン。複数モデルのサポート、GPU加速、直感的なUIが特徴。開発者向けにローカルテストやカスタマイズを容易にし、クラウド依存を減らす実用的なツール。モデルのデバッグや性能評価に最適。
LocalAI (ローカルエーアイ)
Ollama (オラマ)
Ollamaは、ローカル環境で大規模言語モデル(LLM)を効率的に実行するための推論エンジン。GPUやCPUを活用し、複数モデルのローカル実行・ファインチューニングを可能にし、クラウド依存を避ける
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
**Text Generation Inference**は、LLMが入力に基づいてテキストを生成する推論プロセスです。ローカル環境では、効率的なトークン生成(逐次生成・並列生成)、ビームサーチや確率的サンプリングを用いて、精度と速度を最適化します。モデルの量子化やカスタムライブラリ(例:Hugging Face Transformers)の活用が実践的です。
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAモデルをC/C++で実装した軽量な推論エンジンで、CPUでの高速推論を可能にします。ローカル環境向けに最適化され、GPU不要な環境でも実行可能。オープンソースで、量子化対応によりメモリ効率が高く、自社開発やカスタ
vLLM (ブイエルエルエム)
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを視覚的に操作できるノードベースのインターフェース。ローカルLLMユーザー向けに、ワークフローを柔軟にカスタマイズし、複雑な画像生成プロセスを直感的に構築可能。オープンソースで拡張性が高く、モデルや拡張機能の自由な組み合わせが特徴。
ControlNet (コントロールネット)
ControlNetは、拡散モデルに
Flux (フラックス)
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルを効率的に微調整する技術で、重み行列に低ランクの行列を追加することで、計算リソースを抑えつつ精度を向上させます。画像生成
SDXL (エスディーエックスエル)
SDXL(Stable Diffusion XL)は、Stability AIが開発した高解像度画像生成モデル。従来のStable
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成するオープンソースモデル。拡散過程を用いて高品質な画像を生成し、ローカル環境でも実行
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供するGPU向け並列計算プラットフォームで、LLMのトレーニングや推論を高速化します。GPUの計算リソースを効率的に活用し、PyTorchやTensorFlowなどのフレームワークと連携して、ローカル環境での高性能なAI処理を実現します。CUDAドライバ
NPU (エヌピーユー)
NPU(Neural Processing Unit)は、AI処理を最適化した専用ハードウェアで、特にニューラルネットワークの推論やトレー
Tensor Core (テンサーコア)
Tensor CoreはNVIDIA GPUに搭載された専用演算ユニットで、行列計算を高速化。LLMの推論・学習で用いられる行列乗算や畳み込みを効率的に処理し、FP16
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載された専用メモリで、グラフィック処理や機械学習モデルの計算に使用されます。ローカルLLMユーザーにとって、モデルの重みやバッチ処理データを一時的に保存するための容量であり、VRAM容量が不足すると「メモリエラー」が発生します。モデルサイズやバッチサイズに応じて適切なVRAM確保が重要です。
eGPU (イージーピーユー)
eGPU(外部グラフィックユニット)は、ThunderboltやUSB経由で接続し、
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索結果をLLMに組み合わせて回答を生成する技術。ローカルLLMユーザー向けには、自社データベースから情報を検索(FAISS/Chromaなど)し、モデルに注入することで、精度を高めつつ再訓練不要な拡張が可能。実装では検索遅延やデータスケーリングを考慮する。
エンベディング (えんべでぃんぐ)
エンベディングは、テキストを意味を含む数値ベクトルに変換する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、モデル入力の前処理に用いられます。Hugging Faceなどのライブラリで生成可能で、精度を高めるための微調整も可能です。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに正確な出力を引き出すためのプロンプトの設計技術です。明確な指示・例示・構造を組み合わせ、ユーザーの意図をモデルに正確に伝える手法。ローカル環境では、効率的なクエリ設計でリソースを最適化し、応答品質を向上させます。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するデータベースです。LLMでは、類似性検索や文脈理解に用いられ、高次元ベクトルを高速に処理する構造が特徴。ローカル環境では、FAISSやMilvusなどのオープンソ
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワークです。プロンプトテンプレート、メモリ管理、チェーン構成などの機能を提供し、ローカルLLMとの連携を容易にします。実装では、モデルのローカル実行やカスタム処理の
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMと外部データを統合するためのフレームワークで、データのインデックス作成・検索・アプリケーション構築を簡易化します。ローカルLLMユーザー向けに、データベースやドキュメントを効率的に活用するためのツール
📖 コンセプト
Top-P (トップピー)
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能なトークン数を示す指標です。ローカル環境では、長すぎる入力は切り捨てられたり、メモリ不足でエラーになる可能性があります。適切な長さに調整し、モデル性能を維持しつつ、処理効率を向上させる必要があります。
トークン (とーくん)
トークンは、テキストを処理する際の最小単位で、単語や記号
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。誤った事実や架空の内容を出力し、信頼性を損なう。ローカルLLMユーザーは、出力内容を常に検証し、信頼できる情報源と照らし合わせる習慣をつけるべき。
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一度に処理する方法で、効率性とリソース最適化を目的とします。LLMでは、トレーニングや推論時に大量データをグループ化して処理し、並列計算による高速
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルに新たな入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの計算効率(例:量子化)やメモリ使用量の最適化が重要で、リアルタイム性やデバイス性能に直結します。
温度 (おんど)


コメント