このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。2B~7Bパラメータ規模で、ローカル環境でも効率的に
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータで訓練された大規模言語モデルで、自然言語の理解・生成を可能にします。ローカル環境での利用では、モデルのパラメータ規模やトレーニングデータの質が性能に直結し、推論速度やメモリ使用量の最適化が実践的課題です。
Llama (ラマ)
Mistral (ミストラル)
Mistralは、Mistral AIが開発した大規模言語モデルシリーズで、7B~8x7Bパラメータのモデルが存在。効率的な推論性能とコード生成能力が特徴。ローカルユーザー向けにオープンソースで提供され、軽量な実装や多言語対応
Phi (ファイ)
Phiはマイクロソフトが開発した効率的なLLMシリーズで、Phi-1からPhi-3まで存在します。小型ながら高精度な性能を実現し、研究・商用利用が
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、多言語対応・複雑なタスク処理(質問応答・文章生成・プログラミングなど)に強み。ローカル環境での導入も可能で、企業向けのカスタマイズや高精度な推論を実現。効率的なリソース利用と柔軟な展
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少ないLLMで、計算コストが低く、インフェレンスが高速な特徴を持つ。ローカル環境やエッジデバイスでの実装に適し、特定タスク向けに最適化されることが多い。汎用性は劣るが、リソース制限下での実用性が高く、軽量
Transformer (トランスフォーマー)
Transformerは、2017年にGoogleが提案したLLMの基盤となるアーキテクチャ。自己注意機構(Self-Attention)により、文脈を効率的に処理し、並列計算を可能にします。ローカルLLMユーザー向けには、高速なトレーニングと長
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMを特定のタスクやドメインに合わせて最適化する手法です。ローカルユーザー向けには、計算リソースを節約しながらも、少量のデータでモデルの精度を向上させられます。過学習を防ぐため、適切なデータ選定と学習率調整が重要です。
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
EXL2は、モデルの精度を維持しつつ、計算リソースを削減する高度な量子化技術。8bit整数や混合精度を用い
FP16 (エフピーじゅうろく)
GGUF (ジージーユーエフ)
GPTQ (ジーピーティーキュー)
INT4 (イントよん)
INT8 (イントはち)
INT8は8ビット整数精度を
KVキャッシュ (けーぶいきゃっしゅ)
KVキャッシュは、Transformerモデルの注意機構で生成されるKeyとValueの行列を一時的に保存する
量子化 (りょうしか)
量子化は、モデルの重みや活性値の精度を下げて計算量やメモリを削減する最適化技術です。例として、32ビット浮動小数点を8ビット整数に変換し、推論速度を向上
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、大規模言語モデルを効率的に推論するためのフレームワークで、メモリ最適化やGPU対応を特徴とします。ローカルユーザー向けに、低スペックGPUでも動作可能で、複数のモデルフォーマットをサポート。軽量な実装と高いパフォーマンスを実現し、自宅環境での実用性を高めます。
LM Studio (エルエムスタジオ)
LM Studioは、ローカル環境でLLMを効率的に実行する推論エンジン。複数モデルのサポート、GPU加速、メモリ最適化が特徴。開発者向けにUIを提供し、モデルのテストやカスタマイズを簡易化。クラウド依存を避けてローカルでの高速推論を実現する。
LocalAI (ローカルエーアイ)
LocalAIは、ローカル環境でLLMを実行するための推論エンジンで、プライバシー保護と低
Ollama (オラマ)
Ollamaは、ローカルで大規模言語モデル(LLM)を効率的に実行できる推論エンジン。軽量で高速な処理を実現し、GPUやCPUを活用してモデルをローカルマシン上で簡単にデプロイ可能
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAモデルをC/C++で実装した軽量な推論エンジンで、CPUでの高速推論を実現。オープンソースで、量子化サポートによりメモリ効率が高く、ローカル環境での実行に最適。GPU不要な環境でも高精度な推論が可能。
vLLM (ブイエルエルエム)
vLLMは、UC
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを視覚的に操作できるノードベースのインターフェース。ローカル環境で複雑な画像生成ワークフローを構築可能で、カスタマイズ性が高く、コード知識不要で直感的な操作が可能です。AIアート制作の効率化に特化しています。
ControlNet (コントロールネット)
Flux (フラックス)
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルを微調整する際、全パラメータを再訓練せず、低ランク行列で重みの変化を近似する技術。画像生成では、計算リソースを抑えて特定タスクに最適化し、ロ
SDXL (エスディーエックスエル)
SDXL(Stable Diffusion XL)は、Stability AIが開発した高解像度画像生成モデル。従来のStable Diffusionを拡張し、詳細な質
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成するディフュージョンモデル。ノイズを加えた画像を逆転させながら生成する技術を採用し、オープンソースで利用可能。ローカル環境でも実行可能で、コミュニティによる改良が活発。商用利用に注意が必要なライセンスを確認することを推奨。
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供するGPU向け並列計算プラットフォームで、LLMのトレーニング・推論を高速化します。GPUの計算リソースを効率的に活用し、PyTorchやTensorFlowなどのフレームワークと連携して、ローカル環境でも高性能な処理が可能になります。
NPU (エヌピーユー)
NPU(Neural Processing Unit)は、AI処理を最適化した専用ハードウェアで、特に機械学習や深層学習の行列演算を高速化
Tensor Core (テンサーコア)
Tensor CoreはNVIDIA GPUに搭載される専用ハードウェアで、行列演算を高速化する。LLMのトレーニングや推論で頻繁に使われる行列計算を効率的に
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUが画像処理や機械学習を高速に実行するために使用する専用メモリ。LLMユーザーにとって、大規模モデルのトレーニングや推論時に必要な計算リソースを確保する鍵。VRAM容量が不足すると、バッチサイズの制限やモデル圧縮(例:Quantization)が必要になる。性能とメモリのバランスを考慮した設定
eGPU (イージーピーユー)
eGPU(外部GPU)は、ThunderboltやUSB-C経由で接続し、ノートPCや低性能PCに高性能なGPUを追加するハードウェア。ローカルLLMユーザーには、大規模モデルの推論やトレーニングに必要なGPUリソ
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索エンジンで外部情報を取得し、LLMに統合して生成精度を向上させる技術です。ローカルLLMユーザーには、トレーニングデータの制限を補完し、リアルタイムデータや専門知識を活用する実用的な手法として有用です。
エンベディング (えんべでぃんぐ)
エンベディングは、テキストやデータを数値ベクトルに変換する技術で、意味の近さを距離で表現します。ローカルLLMでは、類似性検索やクラスタリングに活用され、モデル入力の前処理にも使われます。効率的なベクトル操作により、自然言語処理の精度向上が期待されます。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに適切な出力を引き出すための提示文(プロンプト)を設計・最適化する技術です。明確な指示や例示、構造化されたフォーマットを用いることで、ローカル環境でも精度を高められます。実践では、タスク目的に応じたテンプレート作成や、モデルの制約を考慮した文脈設計が重要です。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するデータベースです。LLMユーザー向けには、ドキュメントの埋め込みベクトルを格納し
📖 フレームワーク
LangChain (ラングチェーン)
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMを活用したアプリケーション開発を支援するフレームワーク。データのインデックス作成、クエリ処理、モデル統合を簡易化し、ローカル環境での高速な処理や柔軟な拡張性を実現。実践的には、知識ベース構築やチャット
📖 コンセプト
Top-P (トップピー)
Top-P(核サンプリング)は、確率の累積値がPを超えるトークンを候補に選ぶ手法。Top-Kより柔軟で、Pを小さくするほど出力が集中・保守的になり、大きくすると多様性が向上。ローカルLLMでは
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能なトークン数を示す指標です。長さが大きいほど、長文の理解や複雑なタスクに適しますが、メモリ使用量や推論速度に影響を与えます。ローカルユーザーは、自分の用途(例:ドキュメント解析や会話応答)に応じて、最適なモデルを選択する必要があります。
トークン (とーくん)
トークンは、LLMが処理する最小単位で、単語や文字、サブワードなどに分類されます。トークナイズ(分割)によってテキストがトークン列に変換され、モデルの入出力に影響を与えます。ローカルLLMでは、トークン数制限に注意し、効率的な入力設計が重要です。
ハルシネーション (はるしねーしょん)
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一括で処理する方法で、
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルに新たな入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(推論速度・メ
温度 (おんど)
温度は、LLMの出力生成において確率分布の「ランダム性」を調整するパラメータ。値が低いほど予測可能な出力(精度重視)、高いほど多様な表現(創造性重視


コメント