このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模言語モデルのシリーズ。Transformerアーキテクチャを基盤とし、多様な
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。軽量で効率的な設計により、ローカル環境でも高精度な自然言語処理やコード生成が可能。開源性から自社
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータを学習し、自然な文章生成や質問応答を可能にするAIモデルです。ローカル環境で実行可能な場合、プライバシー保護やインターネット接続の依存度低下が利点ですが、計算リソースの制限やモデルサイズの影響を考慮する必要があります。
Llama (ラマ)
Mistral (ミストラル)
Phi (ファイ)
Phiはマイクロソフトが開発したコンパクトなLLMシリーズ(Phi-1, Phi-2, Phi-3など)。小規模ながら高い性能を実現し、ローカル環境での実行やエ
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルシリーズで、対話理解・コード生成・多言語対応が特徴。ローカル環境での実
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数がLLM(大規模言語モデル)より少ないモデルで、計算コストが低く、軽量なデバイスや特定タスクに適した実装が可能。ローカル環境では、リソース制限下での実用性や高速な推論が利点。ただし、汎用性や複雑なタ
Transformer (トランスフォーマー)
Transformerは、2017年にGoogleが提案した注意機構を用いたニューラルネットワークアーキテクチャ。並列処理により長距離依存関係を効率的に処理し
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクやドメインのデータで追加学習し、性能を最適化する手法です。ローカルユーザー向け
📖 量子化・最適化
AWQ (エーダブリューキュー)
AWQ(Adaptive Weight Quantization)は、モデルの重みに応じて動的に精度を調整する量子化技術。重要な重みには高精度を、影響の少ない部分には低精度を適用し、性能を維持しながら計算効率を向上。ローカルLLMでは、ハードウェアリソースを活用し、大規模モデルの実行を可能にします。
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
FP16(16ビット浮動小数点数)は、計算精度を半分に抑えることでメモリ使用量を削減し、GPUの高速化を実現する技術です。LLMの推論・学習では、精度の低下を最小限に抑えつつ、ハードウェアリソースを効率的に活用できます。ただし、過度な精度低下はモデル性能に影響を与えるため、
GGUF (ジージーユーエフ)
GGUFは、量子化されたLLMモデルを効率的に保存・実行するためのファイル形式
GPTQ (ジーピーティーキュー)
GPTQ(Group-wise Quantization)は、モデルの重みをグループ単位で量子化し、精度を維持しつつモデルサイズを削減する技術。ローカルLLMユーザー向けに、軽量化と推論速度向上を実現し、Hugging Faceなどでの利用が可能。精度と効率のバランスが特徴。
INT4 (イントよん)
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
KVキャッシュは、Transformerモデルの推論時に計算済みKeyとValueを一時的に保存し、再計算を防ぐ技術です。量子化とは異なり
量子化 (りょうしか)
量子化は、モデルの重みやアクティベーションの精度を下げて計算量やメモリ使用量を削減する技術です。例として、32ビット浮動小数点を8ビット整数に変換します。これにより、ローカルLLMの実行効率が向上しますが、精度の低下が生
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は
LM Studio (エルエムスタジオ)
LM Studioは、ローカルでLLMを実行するための推論エンジン。複数モデル対応、GPU加速、カスタマイズ可能なUIを備え、非技術者でも簡単に導入可能。軽量で高パフォーマンスな推論を実現し、研究や開発の現場で活用される。オープンソースで拡張性に優れる。
LocalAI (ローカルエーアイ)
LocalAIは、大規模言語モデル(LLM)を
Ollama (オラマ)
Ollamaは、ローカル環境で大規模言語モデル(LLM)を効率的に実行するための推論エンジン。軽量で高速なモデル実行を可能にし、GPU/TPUを活用したパフォーマンス最適化が特徴。ユーザーは自社のハードウェアでモデルをホスト・カスタマイズでき、オープンソース
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
Text Generation Inferenceは、LLMによるテキスト生成を効率的に行うための推論エンジンです。バッチ処理やメモリ最適化を採用し、ローカル環境でも高速な生成を実現。会話応答やコンテンツ生成など、リアルタイム性が求められる用途に適しています。
llama.cpp (ラマシーピーピー)
llama.cppは、LLa
vLLM (ブイエルエルエム)
vLLMは、大規模言語モデルの推論を高速化するエンジンで、メモリ効率化技術「PagedAttention」を採用。長文処理や並列推論を効果的に行い、ローカル環境でも高パフォーマンスを実現。軽量
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを視覚的に操作できるノードベースのインターフェース。ワークフローをカスタマイズしやすく、ローカル環境で高精度な画像生成が可能。オープンソースで拡張性が高く、モデルやツールとの連携が簡単。ユーザーはコード知識不要で直感的に操作できる。
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable Diffusion)に「制御信号」(エッジ、ポーズ、セグメンテーションなど)を入力し、生成画像の構造やスタイルを精密に制御する技術。ローカルLLMユーザー向けには、モデルと併用して
Flux (フラックス)
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルを効率的に微調整する技術で、低ランク行列を追加してパラ
SDXL (エスディーエックスエル)
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したオープンソース
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供する並列計算プラットフォームおよびAPIで、GPUの計算能力を活用して高速な処理を実現します。ローカルLLMユーザー向けに、NVIDIA GPU上でモデル訓練や推論を効率化するための基盤技術として重要です。CUDAの有無は、GPUアクセラレーションの有効性に直結します。
NPU (エヌピーユー)
NPU(Neural
Tensor Core (テンサーコア)
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載された専用メモリで、画像処理や機械学習モデルの計算に使用されます。ローカルLLMユーザーにとって、モデルのサイズやバッチサイズに応じてVRAM容量が制限要因となるため、モデルの読み込みや推論性能に直結します。VRAMが不足すると、モデルが動作しない、または性能が低下
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索結果をもとに生成を補完する技術。ローカルLL
エンベディング (えんべでぃんぐ)
エンベディングは、テキストやデータを数値ベクトルに変換する技術で、意味の近さを距離で表現します。ローカルLLMでは、類似性検索やクラスタリングに活用され、Hugging FaceのTransformerモデルやSentence-BERTで生成可能です。実
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力文(プロンプト)を設計・調整する技術です。明確な指示や例を組み込み、反復的な最適化を通じてモデルの出力を制御します。ローカルLLMユーザーは、タスクに応じたプロンプト設計で性能を引き出し、効率的な運用が可能になります。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するデータベースです。LLMの出力や埋め込みベクトルを格納し、類似性検索や検索拡張に活用。ローカル環境ではFAISSやMilvusなどのオープンソースツールが
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワーク。プロンプト、モデル、メモリなどのモジュールを柔軟に組み合わせ、ローカル環境でのモデル実行やカスタマイズを可能にします。データ処理や評価ツールも提供し、実用的なアプリケーション構築に最適です。
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMとデータを連携させるためのフレームワークで、データのインポート・インデックス作成・クエリ処理を簡易化します。ローカルLLMユーザー向けに、自社データを効率的に統合し、RAG(検
📖 コンセプト
Top-P (トップピー)
Top-P(核サンプリング)は、確率
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能なトークン数を示す指標です。ローカルユーザー向けに、長文入力の制限や、モデル選択時のパフォーマンス考慮点(メモリ使用量、精度)を意識する必要があります。長文を扱う場合は、テキスト分割やコンテキスト長対応モデルの選択が実践的です。
トークン (とーくん)
トークンは、テキストを処理する際の最小単位で、単語やサブワード、記号などが含まれます。LLMでは入力・出力をトークン化し、モデルの処理能力(トークン数制限)に影響します。ローカルLLMユーザーは、トークン数を意識して入力長を調整し、モデルの性能を最適化する必要があります。
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に創作する現象。根拠のない事実や矛盾した内容を生成し、信頼性を損なう。ローカルLLMユーザーは、出力の検証(信頼できるソースとの照合)や、生成内容の論
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一度に処理する方法で、効
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルが新しい入力データから予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(推論速度・メモリ使用量)や、量子化・カスタム最適化による性能向上が重要です。トレーニングとは異なり、既存の知識を応用
温度 (おんど)
LLMにおける「温度」


コメント