このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模言語モデル(LLM)のシリーズ。Transformerアーキテクチャを基盤とし、大量のテ
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。軽量かつ高精度で、コード生成や対話など多様なタスクに対応。ローカル環境でも動作可能で、計算リソースに
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータで訓練された大規模言語モデルです。数十億以上のパラメータを持つことで、自然言語理解・生成を高精度に実現。質問応答、文章生成、翻訳など多様なタスクに応用され、ローカル環境でも推論を実行可能。ただし、計算リソースやデータの質が性能に直結するため、
Llama (ラマ)
Mistral (ミストラル)
Phi (ファイ)
Phiはマイクロソフトが開発した軽量なLLMシリーズ(Phi-1/2/3)。パラメータ数が少ないにもかかわらず、性能と効率を両立。ローカル環境でも実行可能で、軽量なタスクやリソース制限のある場面に適している。特にPhi-3は精度と速度
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、多言語対応・コード生成・対話処理を得意とします。ローカル環境での導入はLangChainやHugging Faceのサポートにより可能で、カスタマイズ性が高く、企業向けのアプリケーション開発に適しています。
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを効率的に利用できるLLMの一種。大規模モデル(LLM)に比べてトレーニングデータ量が少なく、特定のタスクや制約
Transformer (トランスフォーマー)
Transformerは、2017年に発表されたLLMの基盤となるアーキテクチャで、自己注意機構(Self-Attention)と位置エンコーディングを採用。並列処理により効率的な学習を実現し、文脈理解や長距離依存関係の処理に優れる。ローカルLL
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、事前にトレーニングされたLLMを特定のタスクやドメインに最適化するプロセスです。ローカルユーザー向けには、計算リソースを節約するLoRAや、少量のデータでも効果的な微調整手法が実践的です。過剰適合を防ぐため、データの品質とトレー
📖 量子化・最適化
AWQ (エーダブリューキュー)
AWQ(Asymmetric Weight Quantization)は、重み行列の非対称な量子化手法で、精度を維持しつつモデルサイズを削減します。正負の重みに異なるスケーリングを適用し、計算効率を向上させます。ローカルLLMユーザー向けに、軽量化と性能のバランスを取る実用的な技術です。
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
FP16は16ビット浮動小数点形式で、FP32と比べてメモリ使用量を半分に抑え、計算速度を向上させます。
GGUF (ジージーユーエフ)
GGUFは、LLMの量子化・最適化に用いられるファイル形式で、モデルを4bit/8bitなどに圧縮し、メモリ
GPTQ (ジーピーティーキュー)
INT4 (イントよん)
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
量子化 (りょうしか)
量子化は、モデルの重みやアクティベーションの精度を下げて計算量やメモリ使用量を削減する最適化技術です。例として、32ビット浮動小数点を8ビット整数に変換します。これにより、ローカルLLMの実行効率が向上します
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、大規模言語モデルを効率的に推論するためのフレームワークで、メモリ最適化とGPU利用を強化。ローカルユーザー向けに、軽量な実行環境と多様なモデルフォーマット対応を実現し、高精度な推論を低コストハードウェアでも可能にします。
LM Studio (エルエムスタジオ)
LM Studioは、ローカルでLLMを実行するためのGUIベースの推論エンジン。LLaMA、Mistralなど多数のモデルをサポートし、GPU加速やメモリ最適化機能を備える。モデルファインチューニングも可能で、開発者向けの実用性が高く、ハードウェア制約下でも安定
LocalAI (ローカルエーアイ)
LocalAIは、オンプレミスで大規模言語モデルを実行可能なオープンソースの推論エンジンです。API依存を避け、プライバシー保護とコスト削減を目的とし、GPU加速や軽量設計でローカル環境での高効率推論を実現します。ユーザーは自社のハードウェアでモデルを制御
Ollama (オラマ)
Ollamaは、ローカルで大規模言語モデル(LLM)を実行するための推論エンジンで、
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
Text Generation Inference(TGI)は、Hugging Faceが提供する効率的なテキスト生成推論エンジンです。バッチ処理や並列計算を活用し、ローカル環境でも高速かつ安定した生成を実現。モデルのスケーリングやメモリ最適化をサポートし、ユーザーが自社で大規模LLMを効果的に運用できるように設計されています。
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAモデルをC++で実装した推論エンジンで、CPU/GPUでの高速推論を可能にします。量子化技術を採用し、メモリ効率を高め、ローカル環境でも大規模LLMを効率的に実行できます。オープンソースで、
vLLM (ブイエルエルエム)
vLLMは、大規模言語モデルの推論を高速化するオープンソースのエンジンで、メモリ効率化と並列処理技術を採用。ローカル環境でも高スループットを実現し、Hugging Face Transformersとの互換性を備える。推論遅延の低減やリソース最適化に特化しており、実用的な
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを操作するためのノード
ControlNet (コントロールネット)
ControlNetは、拡散モデルに外部の制御信号(エッジ、ポーズ、セグメンテーションなど)を統合し
Flux (フラックス)
LoRA (ローラ)
SDXL (エスディーエックスエル)
SDXL(Stable Diffusion XL)は、高解像度・高品質な画像生成を可能にする拡張型のテキストto画像モデル。パラメータ数が大きく、詳細なテキスト
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成するオープンソースモデル。拡散過程(ノイズを加えて画像を破壊し、それを逆
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供するGPU向け並列計算プラットフォームで、GPUの計算リソースを効率的に活用するためのAPIとツールキットを含みます。ローカルLLMユーザーは、CUDAを介してGPUアクセラ
NPU (エヌピーユー)
Tensor Core (テンサーコア)
Tensor CoreはNVIDIA GPUに搭載された専用ハードウェアで、行列演算を高速化し、深層学習のトレーニング・推論を効率化します。FP16やTF32などの混合精度計算をサポートし、計算負荷を軽減しながら高精度な処理を実現。ローカルLLMユーザー
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載された専用メモリで、画像処理や機械学習モデルの計算に使用されます。ローカルLLMユーザーにとって、モデルのサイズやバッチサイズを制限する要因となり、VRAM容量が大きいほど大規模モデルの実行や高精度な推論が可能になります。不足時はモデル圧縮やメモリ最適化が求められます。
eGPU (イージーピーユー)
eGPU(外部グラフィックユニット
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索エンジンで外部データを取得し、LLMに統合して回答を生成する技術。ローカルLLMユーザーには、モデルの知識に限界がある場合に、最新情報や専門データを効率的に活用できる点が実用的。実装では、検索精度と生成品質のバランスが重要。
エンベディング (えんべでぃんぐ)
エンベディングは、テキストやデータを数値ベクトルに変換する技術で、意味の近さを距離で表現します。ローカルLLMでは、類似性検索やクラスタリングに活用され、Hugging Faceなどのライブラリで生成可能です。高次元データを低次元に圧縮し、機械学習モデル
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力文(プロンプト)を設計する技術です。明確な指示や例を組み込み、反復的なテストを通じてモデルの出力を最適化します。ローカルLLMユーザー向けには、効率的な結果を得るためのプロンプト構造を整える実践的な手法として活用されます。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するデータベースです。LLMでは、類似性検索や意味に基づくクエリ処理に活用され、ローカル環境でも高速な検索を実現します。開発ツールとして、ベクトルのインデックス作成や検索APIを提供し、
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワーク。プロンプト、モデル、メモリのモジュール化や、データ処理・チェーン構築を簡易化。ローカル環境でのモデル実行やデータベース連携も可能で、実装効率を向上させます。
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMとデータソースを統合するためのフレームワークで、ドキュメントのインデックス作成やクエリ処理を簡易化します。ローカルLLMユーザー向けに、データベース連携やRAGパイプライン構築を効率化し、柔軟なアプリケーション開発
📖 コンセプト
Top-P (トップピー)
Top-P(核サンプリング)は、確率の高いトークンを累積してPを超える最小セットを選択する手法。出力の多様性と一貫性を調整し、温度パラメータ単独では得られない自然な文脈を生成可能。ローカルLLMユーザーは、P値を調整して出力品質を最適化するのに有効。
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能な入力トークン数の最大値です。ローカルユーザー向けには、長文処理や複雑なタスクに適応するための指標で、モデルの性能やメモリ使用量に直結します。設定値を超えると情報が切り捨てられるため、タスクに応じた最適な長さを確認し、プロンプト設計時に注意が必要です。
トークン (とーくん)
トークンは、LLMが処理する最小単位で、単語・文字・サブワードの一部を含む。モデルの入力長さや効率に影響し、トークナイズ方法(BPEなど)によって分割される。ユーザーはトークン数を意識し、入力制限やコスト最適化に活用する。
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象です。誤った事実や架空の内容を出力するため、信頼性が損なわれます。実践では、出力内容を外部ソースで検証し、モデルに「事
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一度に処理する方法で、効率性を重視します。LLMでは、トレーニング時に大量のデータを一括で処理し、計算リソースを最適化します。リアルタイム性が不要なタスクに適し、ロー
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルに新たな入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(推論速度・メモリ使用量)を最適化する技術(例:量子化、モデル圧縮)が重要です。実用では、API呼び出しやオンデマンド処理に
温度 (おんど)
温度はテキスト生成時の確率分布を調整するパラメータ。低値(例:0.1)で


コメント