このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模言語モデル(LLM)のシリーズ。Transformerアーキテクチャを基盤とし、大量のテキストデータで事前学習されており、
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。軽量で高精度な処理を実現し、ローカル環境での導入や研究用途に適している。多言語対応で、テキスト生成やコード作成など幅広いタスクに強みを持つ。
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータで訓練されたAIモデルで、自然言語の理解・生成を可能にします。ローカル環境で利用する際は、推論速度やメモリ使用量を考慮し、モデルの最適化(例:量化、カスタムファインチューニ
Llama (ラマ)
Llamaはメタが開発したオープンソースのLLMシリーズ(Llama、Llama 2、Llama 3など)。大規模な言語モデルとして、テキ
Mistral (ミストラル)
Mistralは、フランスのMistral AIが開発した大規模言語モデルシリーズ。Mistral-7Bなど、パラメータ数が少ないながらも性能が高く、効率的な推論が可能なモデルが特徴。ローカル環境での導入が容易で、オープンソースとして利用可能。会話やコード生成など、多様なタスクに適応する。
Phi (ファイ)
Phiはマイクロソフトが開発した軽量LLMシリーズ(Phi-1/Phi-2/Phi-3)。パラメータ数が少ないにもかかわらず、効率的で高精度な推論を実現。特にPhi-3は最新バージョンで、ローカル環境での実行や特定タスク向けに最適化されており、リソース制約下でも実用
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、テキスト生成・質問応答・コード作成など多機能。ローカル環境でも効率的に動作し、マルチリンガル対応により幅広い用途に適
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを効率的に利用できるLLMの小型版。ローカル環境
Transformer (トランスフォーマー)
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクやドメインのデータで追加学習し、性能を最適化する手法です。ローカルユーザー向けには、計算リソースを節約しながらも、自社データに合わせたカスタマイズが可能で、Hugging Faceなどのフレームワークで実施可能です。少量のデータでも有効で、実用性が高く、モデルの精度向上に直結します
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
FP16(16ビット浮動小数点数)は、計算精度を半分に抑えることでメモリ使用量を削減し、高速な演算を実現する技術。ローカルLLMでは、GPUのVRAMを節約し、大規模モデルの実行を可能にしますが、精度低下のリスクがあります。混合精度トレー
GGUF (ジージーユーエフ)
GGUF(General GPU Universal Format)は、量子化された
GPTQ (ジーピーティーキュー)
GPTQ(Group-wise Quantization)
INT4 (イントよん)
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
KVキャッシュは、LLMの推論時に過去のトークンのキー・値ベクトルを一時的に保存するメモリ領域。再計算を
量子化 (りょうしか)
量子化は、モデルの重みや活性値の精度を下げて計算効率を向上させる技術です。例として、32ビット浮動小数点を8ビット整数に変換し、モデルサイズを縮小・推論速度を向上させますが、精度の低下がトレードオフです。ローカルLLMでは、メモリ
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、ローカル環境で大規模LLMを効率的に推論するためのエンジン。量子化技術とメモリ最適化により、GPU性能を活かしつつ低リソースでも高速推論を実現。ユーザー向けに簡単なセットアップと柔軟なモデル対応を特徴とし、地元LLMの実用化を促進する。
LM Studio (エルエムスタジオ)
LM Studioは、ローカル環境でLLMを実行するための推論エンジン。GPU加速やモデル最適化機能を備え、プライバシー保護とコスト削減を実現。直感的なUIでモデル管理が可能で、カスタマイズ性が高く、低遅延な推論が特徴です。
LocalAI (ローカルエーアイ)
LocalAIは、ローカル環境でLLMを実行するための推論エンジン。モデルの軽量化や高速化を実現し、プライバシー保護と低遅延を目的とする。ユーザーは自前のハードウェアで推論を実施可能で、インターネット接続不要なオフライン利用が可能。カスタマイズ性が高く、特定のタスクに最
Ollama (オラマ)
Ollamaは、ローカルでLLMを効率的に推論するためのエンジン。GPUを活用し、高速な推論と低リソース消費を実現。モデルのホスティングやAPI経由の利用をサポートし、開発者向けに簡易なデプロイを可能に。量化技術も搭載し、性能と精度のバランスを
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
**Text Generation Inference**は、LLMが入力に基づいてテキストを生成する際の推論処理を指します。ローカル環境では、TensorRTやHugging Face Transformersなどのツールで高速化・最適化が可能で、量子化やモデル圧縮技術を活用し、GPUメモリ効率や推論速度の向上
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAモデルをC++で実装した推論エンジンで、CPUでの高速推論を可能にします。量子化技術により
vLLM (ブイエルエルエム)
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを操作するためのノードベースのインターフェースで、ユーザーが画像生成ワークフローを柔軟に構築できます。ローカル環境で利用可能で、拡張性が高く、カスタムノードやプラグインを簡単に統合可能です。コード知識不要で直感的な操作が可能で、AIアート制作の効率化に最適です。
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable Diffusion)に「制御信号」(エッジ、ポーズ、セグメンテーションなど)を入力し、生成画像の構造を制御する技術。ローカルLLMユーザー向けには、ControlNetを組み合わせて高精度な画像生成を実現し、特定のスタイルや構造を再現可能にすることが実践的です。
Flux (フラックス)
Fluxは、Runwayが開発した拡散モデルベースの画像生成フレームワーク。高品質なリアルな画像を生成
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルを微調整する際、重み行列に低ランクの行列を追加することで計算コストを抑える技術。画像生成では、事前学習モデルを特定タスクに適応させる際、パラメータ数を大幅に削減し
SDXL (エスディーエックスエル)
SDXL(Stable Diffusion XL)は、Stability AIが開発した高解像度画像生成モデル。従来のStable Diffusionを拡張し、多言語対応・高品質なテキストtoイメージ生成を可能に。ローカル環境でも利用可能で、画像編集やアート制作に実用性が高い。訓練データは広範なインターネット情報に基づく。
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成するオープンソースモデル。拡散過程(Diffusion Process)を用いて、ノイズから徐々に画像を生成し、高品質な結果を出力。ローカル環境でも実行可能で、カスタマイズ性が高く、アーティストや研究者に広く利用されている。
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供するGPUを活用するための並列計算プラットフォームおよびAPI。ローカルLLMユーザー向けに、GPUによる高速なモデル推論・学習を実現するための基盤技術。NVIDIA GPU所有者は、CUDAを介してGPUの計算能力を最大限に
NPU (エヌピーユー)
Tensor Core (テンサーコア)
Tensor CoreはNVIDIA GPUに搭載された専用ハードウェアで、行列演算を高速化し、LLMのトレーニングや推論を効率化します。ローカルLLMユーザーは、CUDA対応GPUを活用し、Tensor Coreのサポートを確認することで、計算
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載される専用メモリで、画像処理や機械学習モデルの計算に使用されます。ローカルLLMユーザーにとって、VRAM容量はモデルのサイズに直接影響し、大規模モデルを効率的に実行するためには十分なVRAMが必要です。不足すると、モデルのロードエラーや性能低下が発生するため、GPU選定時に重要な要素です。
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
エンベディング (えんべでぃんぐ)
エンベディングは、テキストやデータを意味を含む数値ベクトルに変換する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、モデル入力の前処理として効果的です。Hugging Faceなどのライブラリで生成可能で、次元削減や精度向上に貢献します。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力(プロンプト)を設計する技術です。明確な指示や例を組み込み、反復的なテストを通じて精度を向上させます。ローカルユーザー向けには、タスクに合わせたテンプレート作成や、出力形式の指定が実践的です。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するツールです。ローカルLLMユーザーは、類似性検索や検索結果の精度向上に活用し、FAISSやPineconeなどのライブラリで実装します。インデックス構築やクエリ性能の最適化が実践的ポイントです。
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワークで、プロンプト・モデル・メモリの連携を簡潔に実装可能。ローカルLLMユーザー向けに、複数モデルの統合やエージェント処理を含む実用的なツールを提供し、開発効率を向上させます。
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMを活用したアプリケーション開発を支援するフレームワーク。データのインデックス作成、クエリ処理、結果の統合を簡易化し、ローカルLLMとの連携をスムーズにします。データベースやAPIとの連携機能も豊富で、実用的なアプリケーション構築に最適です。
📖 コンセプト
Top-P (トップピー)
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能な入力トークン数を指します。ローカルユーザー向けに、長さが大きいほど長文の理解や複雑なタスクに対応可能ですが、メモリ使用量や推論速度に影響を与えます。モデルの性能を最大限に引き出すには、タスクに応じた最適な長さの設定が重要です。
トークン (とーくん)
トークンは、LLMが処理する最小単位で、単語やサブワード(例:「unhappiness」→「un」「happi」「ness」)を含む。トークナイズ(テキストをトークンに分割)は入出力処理の基
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に創作する現象。事実誤認や虚偽情報を生成するリスクがあるため、出力内容の信頼性確認が重要。ユーザーは、生成結果を外部資料で検証し、モデルの出力制限機能を活用してリスクを抑えるべきです。
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一度に処理する方法で、効率性を重視します。LLMでは、複数の入力テキストを一括で処理することで、計算リソースを最適化し、処理時間を短縮できます。特に大規模データの処理やモデルトレーニングに有
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルが入力データを受け取り、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(推論速度・メモリ使用量)を最適化する技術(例:量子化、モデル圧縮)が重要です。実際の応用では、リアルタイム性やハード
温度 (おんど)
温度はテキスト生成時の確率分布を調整するパラメータです。値が低いほど出力が予測可能で保守的になり、高いほどラン


コメント