このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。テキスト生成やコード作成、論理的推論など多様なタスクに対応。軽量かつ高精度で、ローカ
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータで訓練された大規模言語モデルで、自然言語の理解・生成を可能にします。パラメータ数が数十億規模で、質問応答や文章生成など多様なタスクに応用されます。ローカル環境での利用では、計算リソースの確保や最適なモデル選定が実践的です。
Llama (ラマ)
Mistral (ミストラル)
Mistralは、フランスのMistral AIが開発した
Phi (ファイ)
Phiはマイクロソフトが開発した小型LLMシリーズ(例:Phi-1、Phi-2)。計算リソースを抑えつつ高精度なタスク処理を実現し、エッジデバイスやローカル環境での実装に適しています。多言語対応で、軽量ながら汎用性の高いモデルとして注目されています。
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、質問応答・文章生成・プログラミングなど多様なタスクに対応。ローカル環境での導入が可能で、多
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算コストが低いLLMモデルです。大規模モデル(LLM)に比べて、軽量で高速な処理が可能ですが、複雑
Transformer (トランスフォーマー)
Transformerは、2017年に発表されたLLMの基盤となるアーキテクチャで、自己注意機構と位置
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、事前に学習されたLLMに特定のタスクやドメインのデータで追加で学習させ、性能を向上させる手法です。ローカルユーザー向けには、自社データに最適化する際、計算リソースを節約しながら精度を高める実践的なアプローチとして活用されます。
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
FP16は16ビット浮動小数点形式で、FP32より半分のメモリを消費し、計算速度が向上します。
GGUF (ジージーユーエフ)
GPTQ (ジーピーティーキュー)
GPTQは、モデルの重みをグループごとに量子化する技術で、精度を維持しつつモデルサイズを削減します。ローカルLLMユーザーには、メモリ効率化と推論速度向上が実現でき、大規模モデル
INT4 (イントよん)
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
量子化 (りょうしか)
量子化は、モデルの重みやアクティベーションの精度を下げて計算量やメモリ使用量を削減する最適化技術です。例として、32ビット浮動小数点を8ビット整数に変換します。ローカルLLMユーザーには、ハードウェア制約下での
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、大規模言語モデルを効率的に推論するためのフレームワークで、メモリ最適化と複数モデルフォーマット対応が特徴。ローカルユーザー向けに、GPUリソースを活用し、高精度な推論を低コストで実現。CUDAやVulkanをサポートし、幅広いハードウェア環境で利用可能。
LM Studio (エルエムスタジオ)
LM Studioは、ローカルでLLMを実行するための推論エンジン。モデルのロード・推論を効率化し、GPU加速やメモリ最適化をサポート。ユーザーインターフェースが整っており、複数モデルの切り替えやパラメータ調整が容易。プライバシー保護とコスト削減に適し、研究・開発向けに実用的。
LocalAI (ローカルエーアイ)
Ollama (オラマ)
Ollamaは、ローカル環境で大規模言語モデル(LLM)を効率的に実行する推論エンジン。GPUを活用した高速推論と、Transformerなどのフレーム
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
「Text Generation Inference」は、LLMが入力に基づいてテキストを生成する推論プロセスを最適化したエンジンです。ローカル環境で高速かつ効率的に実行可能で、長文生成や複数ターンの会話対応をサポート。モデルの計算
llama.cpp (ラマシーピーピー)
vLLM (ブイエルエルエム)
vLLMは、大規模言語モデルの推論を高速化するエンジンで、メモリ効率化と並列処理技術(例:speculative decoding)を
📖 画像生成
ComfyUI (コンフィユーアイ)
ControlNet (コントロールネット)
Flux (フラックス)
Fluxは、Black Forest Labsが開発した高品質な画像生成モデルで、拡散モデルに基づく。特徴は、詳細な
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルを効率的に微調整する技術で、重み行列に低ランクの行列を追
SDXL (エスディーエックスエル)
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成するラテント拡散モデル。高品質な画像生成とオープンソース性が特徴で、Creative ML Open RAIL-Mライセンスにより商用利用が可能。ローカル環境での導入が容易で、Hugging Faceなどでの配布が広く、コミュニティサポートも充実している。
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供する並列計算プラットフォームで、GPUを活用した高速な数値計算を可能にします。ローカルLLMユーザー向けには、モデルのトレーニングや推論をGPUで効率化するための基盤技術です。CUDAをサポートするNVIDIA GPUが必要で、PyTorchやTensorFlowなどのフレームワークと連携して性能を引き出します。
NPU (エヌピーユー)
Tensor Core (テンサーコア)
Tensor Coreは、NVIDIA GPUに搭載された専用演算ユニットで、行列演算を高速化します。LLMのトレーニングや推論で頻繁に使用される行列乗算を効率的に処理し、性能を向上させます。特に混合
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUが画像処理や機械学習を高速に実行するために使用する専用メモリ。LLMのトレーニングや推論では、モデルパラメータやバッチデータを一時的に保存し、アクセス速度を
eGPU (イージーピーユー)
eGPU(外部グラフィックユニット)は、Thunderboltや
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索エンジンで外部データを取得し、LLMに統合して生成精度を高める技術。ローカルLLMユーザーには、モデルのパラメータを増やすことなく、最新情報や専門知識を活用できる点で有用。検索と生成の2段階処理により、正確性と柔軟性を両立。
エンベディング (えんべでぃんぐ)
エンベディングは、テキストやデータを数値ベクトルに変換する技術で、意味や関係性を数値で表現します。ローカルLLMでは、類似性検索やクラスタリングに活用され、Hugging Faceなどのライブラリで簡単に生成可能です。実務では、自然言語処理や情報検索の基盤として重要です。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力(プロンプト)を設計・最適化する技術です。具体的には、例示や構造化された指示、反復的な調整を通じて、モデルの出力品質を向上させます。ローカルLLMユーザーには、タスクに応じたプロンプト設計が性能向上に直結するため、実践的です。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するデータベースです。LLMユーザー向けには、生成された埋め込み(embedding)を格納し、類似性検索やクエリ応答に活用します。ロ
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワーク。プロンプトテンプレートやメモリ管理、外部ツール連携機能を提供し、ローカルLLMとの連携を簡易化。開発効率を高めるモジュール構成が特徴で、実装の柔軟性と拡張性を実現します。
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMとデータソースを統合するためのフレームワークで、ドキュメントの検索・処理、チャットボット構築を支援します。ローカルLLMユーザー向けに、柔軟なデータ接続と効率的なクエリ処理を実現し、カスタマイズ性が高く、オープンソースで利用可能です。
📖 コンセプト
Top-P (トップピー)
Top-P(核サンプリング)は、確率の
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能な入力トークン数を指します。ローカルユーザー向けには、長文処理や複雑なタスクに適応するための指標です。長すぎるとメモリ制限に達し、短すぎると情報が欠落するため、モデルの性能と制限を理解し、適切なプロンプト設計が重要です。
トークン (とーくん)
トークンは、テキストを処理する際の最小単位(単語・サブワード・記号など)。LLMでは入力・出力をトークンに分割し、モデルが処理可能にします。トークン数制限はモデルごとに異なり、生成範囲や精度に影響。ローカルLLMユーザーは、トークン化方式を理解し、入力の最適化や制限対策に活用しましょう。
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。事実誤認や虚偽情報を生みやすく、特に信頼性の高い情報が必要な場面で問題となる。ユーザーは出力内容を常に確認し、信頼できるソースと照らし合わせる習慣をつけるべきである。
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一括で処理する方法で、効率性を重視します。ローカルLLMでは、大量のトレーニングデータを一度に処理し、GPU/TPUのリソースを最適化できます。逐次処理より処理速度が向上し、バッチサイズの調整で性能とメモリ使用量をバランスさせられます。
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルに新しい入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行環境(CPU/GPU)、推論速度、メモリ効率(例:量子化技術)が実践的課題です
温度 (おんど)
温度はLLMの出力ランダム性を調整するパラメータ。値が低いほど

コメント