このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模言語モデルシリーズ。Transformerアーキテクチャを基盤に、大量のテキストデータで事前学習し、多様なタスクに応じた生成能力を持つ。ローカルユーザー向けには、GPTのオープンソ
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。2B~7Bパラメータのモデルが提供され、効率的な推論と多様なタスク対応が特徴。ローカル環境でも軽量なリソースで実行可能
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータで訓練された大規模言語モデルで、自然言語処理タスクに優れ、質問応答や文章生成に用いられる。ローカル環境では、パラメータ規模やトレーニングデータの選定が性能に直結し、計算リソースの最適化が重要となる。
Llama (ラマ)
Llamaは
Mistral (ミストラル)
Mistralは、フランスのスタートアップMistral AIが開発した大規模言語モデルシリーズ(例:Mistral-7B)。オープンソースで知られており、効率的なパフォーマンスと多言語対応が特徴。ローカル環境での導入が容易で、コード生成や会話
Phi (ファイ)
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、質問応答・文章生成・コード作成など多様なタスクに対応。多言語サポートと高精度な推論能力が特徴。ローカル環境での導入が可能で、ModelScopeなどでの提供も行われている。
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを効率的に利用するLLMの一種です。大規模モデル(LLM)と比べて
Transformer (トランスフォーマー)
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMを特定のタスクやドメインに最適化するための微調整手法です。事前学習済みモデルに
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
GGUF (ジージーユーエフ)
GGUFは、LLMの量子化・最適化に用いられるフォーマットで、モデルサイズを削減し、GPUメモリ効率を高めます。ロー
GPTQ (ジーピーティーキュー)
GPTQは、大規模言語モデル(GPT系)を効率的に実行するための量子化技術。重みをグループごとに量子化し、精度を維持しながらモデルサイズを削減。ローカルLLMユーザーには、
INT4 (イントよん)
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
量子化 (りょうしか)
量子化は、モデルの重みやアクティベーションの精度を下げて計算効率を向上させる技術です。例として、32ビット浮動小数点を8ビット整数に変換し、モデルサイズを縮小・推論速度を向上させます。ただし、精度
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
LM Studio (エルエムスタジオ)
LM Studioは、ローカル環境でLLMを実行するための推論エンジン。GPU加速を活用し、高精度な推論を効率的に行える。モデルのローカル展開やカスタマイズをサポートし、プライバシー保護とコスト削減に適している。ユーザーインターフェースも直感的で、非技術者でも簡単に操作可能。
LocalAI (ローカルエーアイ)
LocalAIは、ユーザーの端末でLLMを実行するための推論エンジンで、プライバシー保護とデータ制御を重視します
Ollama (オラマ)
Ollamaは、ローカル環境で大規模言語モデル(LLM)を効率的に実行できる推論エンジン。モデルのローカル実行
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
Text Generation Inference(TGI)は、Hugging Faceが提供する効率的なテキスト生成推論フレームワークです。ローカル環境でも高速な生成を実現し、バッチ処理や並列化をサポート。モデルのデプロイやAPI連携に最適で、リソース制約下でも安定した性能を発揮します。
llama.cpp (ラマシーピーピー)
vLLM (ブイエルエルエム)
vLLMは、大規模言語モデルの推論を高速化するオープンソースのエンジンで、メモリ効率化とGPU並列処理を採用。ローカルユーザー
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを操作するノードベースのインターフェースで、ロ
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable Diffusion)に「条件付き生成」を実現する拡張技術です。線画やポーズ、セグメンテーションマップなどの外部条件を入力し、生成画像の構造やスタイルを制御します。ローカルLLMユーザー向けには、モデルのカスタマイズや条件入力の調整が可能で、特定のタスク(例:キャラクターデザイン)に最適化できます。
Flux (フラックス)
LoRA (ローラ)
SDXL (エスディーエックスエル)
SDXL(Stable Diffusion XL)は、Stability AIが開発した高解像度画像生成モデル。従来のStable Diffusionより高品質な画像を生成し、より詳細なテキストプロンプトに対応。ローカル実行時はGPUメモリを多く消費するため、高性能なハードウェアが推奨される。
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したオープンソースのテキストから画像を生成する拡散モデル。ノイズを加えた画像を逆転させながら生成する「拡散過程」を採用し、UNetとVAEのアーキテクチャで構成。ローカル環境でも実行可能で、コミュニティで幅
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供するGPU向け並列計算プラットフォームで、LLMのトレーニングや推論時にGPUの計算リソースを効率的に活用します。CUDAコアを駆使し、大量の行列演算を高速化し、ローカル環境でも高性能なモデル処理が可能です。ライブラリ(cuDNNなど)との連携で、実用的なAI開発を支えます。
NPU (エヌピーユー)
Tensor Core (テンサーコア)
Tensor CoreはNVIDIA GPUに搭載された専用演算ユニットで、行列演算を高速化し、AIトレーニング・推論を効率化します。
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載された専用メモリで、モデルの重みや計算中のデータを一時的に保存します。ローカルLLMでは、VRAM容量がモデルサイズやバッチサイズに直接影響し、不足すると性能低下やエラーを引き起こします。効率的なVR
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、外部知識を検索してLLMに組み込む技術。ローカルLLMユーザー向けに、データベースから関連情報を検索し、生成に活用することで、最新情報や専門知識を効率的に反映可能。LangChainやHaystackなどのツールで実装され、再訓練不要な拡張性が
エンベディング (えんべでぃんぐ)
エンベディングは、テキストやデータを数値ベクトルに変換する技術で、意味の近さを距離で表現します。ローカルLLMでは、類似性検索やクラスタリングに活用され、Hugging Faceなどのライブラリで生成可能です。ベクトル空間の特性を活かし、モデルの精度向上や計算効率化に貢献します。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な出力を引き出すためのプロンプト設計技術です。明確な指示や例を組み込み、反復的なテストを通じて最適化します。ローカルLLMユーザーは、モデルの特性に合わせたプロンプト構造を工夫し、精度向上やタスク適応を実現します。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像などの
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発用フレームワーク。プロンプト、モデル、メモリ、データベースを連携するためのツールを提供し、ローカルLLMとの統合や柔軟な拡張性を実現。エージェントやチェーン構造を活用し、実用的なアプリケーション構築を支援
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMを活用したアプリケーション開発を支援するフレームワークです。データのインデックス作成、クエリ処理、LLMとの統合を簡易化し、ローカル環境での効率的なデータ操作や知識ベース構築を可能にします。実装の柔軟性と拡張性が特徴で、開発者向けに直感的なAPIを
📖 コンセプト
Top-P (トップピー)
Top-P(核サンプリング)は、確率の高いトークンを累積して閾値Pを超える最小集合から出力を生成する手法。温度パラメータと併用し、出力の多様性と一貫性を調整。ローカルLLMユーザーは、Pを小さくすると精度が向上し、大きくすると創造性が高まる特性を活用して、応用シーンに応じた最適な設定が可能となる。
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能なトークン数を示す指標です。長さが大きいほど、長文の理解や複雑なタスクに対応可能ですが、メモリや計算リソースの消費も増加します。ローカル環境では、モデルの制限に注意し、必要に応じて入力を分割または要約する必要があります。
トークン (とーくん)
トークンは、テキストをモデルが処理する最小単位(語・文字・サブワードなど)。ローカルLLMでは、トークナイザーの選択が精度や処理速度に影響を与える。日本語では、単語や品詞ごとに分割される場合があり、適切なトークン化が推論の正確性を左右する。
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。誤った事実や架空の内容を出力する原因となる。ローカルLLMユーザー向けには、出力内容の検証や信頼性の高いデータソースの活用、生成結果のフィルタリングが対策となる
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一度に処理する方法で、リアルタイム処理と対照的です。ローカルLLMでは、大量の入力データ
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルが新しい入力データに対して予測や出力を生成するプロセスです。ローカルLLMユーザーでは、GPUやCPUでの実行が基本で、メモリ使用量や遅延に注意が必要です。効率化のため、量子化やカスタムモデルの導
温度 (おんど)
温度はテキスト生成時のランダム性を調整するパラメータです。値が低いほど出力が確定的・論理的になり、高いほど多様性が増すが、不連続な結果も生じます。実


コメント