このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模言語モデル(LLM)シリーズ。Transformerアー
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。軽量で高精度な処理を実現し、ローカル環境でも効率的に動作。自然言語処理やコード生成に適し、ライセンス制限なしで
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータで訓練されたAIモデルで、文章生成や翻訳、質問応答など多様なタスクを処理します。ローカル環境で実行可能で、プライバシー保護やコスト削減に適しています。高精度な言語理解と生成能力が特徴で、カスタマイズ性も高いです。
Llama (ラマ)
Llamaはメタが開発したオープンソースのLLMシリーズ(Llama1/2/3など)。大規模な
Mistral (ミストラル)
Mistralは、フランスのスタートアップMistral AIが開発した大規模言語モデル(LLM)
Phi (ファイ)
Phiはマイクロソフトが開発した効率的なLLMシリーズ。小型ながら高精度な自然言語処理・コード生成を実現。ローカル環境でも軽量な推論が可能で、リソース制限下での実装に適している。特にコード補完や会話応答に強みを持つ。
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで、多言語対応(日本語含む)の文生成・質問応答・コード作成を可能にします。ローカル環境での導入が容易で、カスタマイズ性が高く、企業向けのカスタマーサービスやコンテンツ作成などに実用性があります。
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを効率的に利用できるLLMの小型版。ローカル環境や端末での実行に適し、軽量
Transformer (トランスフォーマー)
Transformerは、2017年に発表されたLLMの基盤となるアーキテクチャで、自己注意機構
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定タスクやドメインのデータで追加学習し、性能を最適化する手法です。ローカルユーザー向けには、計算リソースを節約しつつ、自社データに合わせたカスタマイズが可能。ただし、過学習を防ぐため、品質の高いデータと適切な学習設定が不可欠です。
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
FP16は16ビット浮動小数点形式で、FP32よりメモリ使用量が半分になり、計算速度が向上
GGUF (ジージーユーエフ)
GGUFは、LLMを効率的に実行するための量子化フォーマット。モデルサイズを削減し、VRAM使用量を抑えることで、ローカル環境での推論速度を向上。4bit/8bitなど低精度化と最適化技術を組み
GPTQ (ジーピーティーキュー)
GPTQは、モデルの重みをグループごとに量子化し、精度を維持しながらモデルサイズを削減する技術。ローカルLLMユーザーには、GPUメモリ制限下でも大
INT4 (イントよん)
INT4は、モデルの重みを4ビット整数で表現する量子化技術です。モデルサイズを大幅に削減し、低メモリデバイスでの実行を可能にしますが、精度の低下が生じる可能性があります。ローカルLLMユーザー向けに、GGUFやAWQなどのフォーマ
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
量子化 (りょうしか)
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、LLMの推論を効率化するエンジンで、メモリ最適化とGPUアクセラレーションを特徴とします。ローカル環境で大規模モデルをスムーズに実行可能で、Quantization対応によりリソース制約下でも高精度推論を実現。LLaMA系モデルとの高い
LM Studio (エルエムスタジオ)
LM Studioは、ローカル環境でLLMを実行するための推論エンジン。複数モデルのサポート、GPU加速、軽量なUIが特徴。ユーザー
LocalAI (ローカルエーアイ)
LocalAIは、ローカル環境でLLMの推論を実行するためのオープンソースエンジンです。クラウ
Ollama (オラマ)
Ollamaは、ローカル環境で大規模言語モデル(LLM)を効率的に実行するための推論エンジン。軽量でオープンソースであり、GPU/CPUを問わず柔軟なデプロイが可能。モデルのロードや推論を簡易なコマンドで実行でき、メモリ最適
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
**Text Generation Inference**は、LLMが入力に基づいてテキストを生成する推論プロセスです。ローカル環境では、高速化技術(例:量子化、カーネル最適化)を活用し、リアルタイム応答や低リソースでの
llama.cpp (ラマシーピーピー)
llama.cppは、LLa
vLLM (ブイエルエルエム)
vLLMは、LLMの推論効率を劇的に向上させるオープンソースの推論エンジン。スパースデコードや並列処理技術を採用し、高スループット・低レイテンシを実現。Hugging Face Transformersとの互換性があり、CPU
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionなどの画像生成モデルを操作するためのノードベースのインターフェース。ローカル環境で柔軟なワークフロー構築が可能で、プロンプトやパラメータを視覚的に調整できる。オープンソースで、カスタマイズ性が高く、実験的な画像生成に適している。
ControlNet (コントロールネット)
ControlNetは、画像生成モデルに「制御信号」(例:輪郭、ポーズ)を入力し、生成結果を意図的に調整する技術です。ローカルLLMユーザーには、モデルの出力を細か
Flux (フラックス)
FluxはJulia言語で開発された機械学習ライブラリで、画像生成にも利用可能。柔軟なモデル構築と高速な計算が特徴。ローカルLLMユーザー向けには、自
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルを効率的に微調整する技術で、画像生成ではパラメータ数を抑えた適応層を追加し、計算リソースを節約しながら特定のスタイルやタスクに最適化します。ローカ
SDXL (エスディーエックスエル)
SDXLはStability AIが開発した大規模な画像生成モデルで、St
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成する拡散モデル。潜在空間でのノイズ除去プロセス(UNetアーキテクチャ)を用い、高品質な画像を生成。オープンソースで、Creative ML OpenRAIL-Mライセンスにより商用利用が可能。ローカル環境での実装が
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが開発したGPUを活用するための並列計算プラットフォーム。LLMユーザーには、モデル訓練や推論時の高速化を実現し、GPUの計算リソースを効率的に利用できる点が実践的です。専用のプログラミングモデルを用いて、複数のコアを同時に駆動し、AIワークロードを加速します。
NPU (エヌピーユー)
NPU(Neural Processing Unit)は、AI処理を最適化した専用ハードウェアで、特にニューラルネットワークの計算を高速化。ローカルLLMユーザー向けに、低消費電力で高精度な推論を実現し、端末側での実行効率を向上させる。GPUと並ぶAIアクセラレータの一種。
Tensor Core (テンサーコア)
Tensor Coreは、NVIDIA GPUに搭載された専用処理ユニットで、行列演算を高速化する。機械学習やLLMのトレーニング・推論を効率化し、混合精度計算をサポート。ローカルLLMユーザーには、高性能なハードウェ
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載された専用メモリで、画像処理や機械学習モデルの計算に使用されます。ローカルLLMでは、モデルの重みや中間データを一時的に保存し、高速な処理を実現します。VRAM容量が不足すると、モデルのスケ
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索(Retrieval)と生成(Generation)を組み合わせた技術で、外部データベースから情報を検索し、LLMに統合して回答を生成します。ローカルLLMユーザーには、知識の正確性を高めつつ、リアルタイムデータを活用した応答を実現するための開
エンベディング (えんべでぃんぐ)
エンベディングは、テキストを意味を含む数値ベクトルに変換する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、モデルの入力として効率的に処理できます。事前学習済みモデル(例:Sentence-BERT)を活用し、カスタムデータでも高精度なベクトル生成が可能です。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力(プロンプト)を設計する技術です。構造化されたクエリや例示、反復テストを通じて、モデルの出力を制御・最適化します。ローカルLLMユーザーは、この手法でモデルの精度を高め、カスタムタスクに適応させられます。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するデータベースです。ローカルLLMユーザーは、生成された埋め込みベクトルをストアし、類似性検索やクエリ応答に
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワーク。ローカルLLMユーザー向けに、プロンプト管理やチェーン構築、データ連携を簡易化し、カスタマイズ性を高める。API依存を減らし、オフライン環境でも柔軟な開発が可能。
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMを活用したアプリケーション構築を支援するフレームワークです。データのインデックス作成、クエリ処理、LLMとの統合を簡易化し、ローカル環境での知識ベース構築や検索を効率化。複数のLLM対応で柔軟性が高く、開発者向けに実装をスムーズにします。
📖 コンセプト
Top-P (トップピー)
Top-P(核サンプリング)は、確率の累積値がPを超えるトークンのみを候補に選ぶ手法。温度パラメータと組み合わせて、生成文の多様性と一貫性を調整します。P
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能なトークン数を示す指標です。長さが大きいほど、長文の理解や複雑なタスクに対応可能ですが、メモリ使用量や推論速度に影響を与えます。ローカル環境では、モデルの性能とリソース制約を考慮し、適切なコンテキスト長を選択することが重要です。
トークン (とーくん)
トークンは、テキストをモデルが処理する最小単位(単語・文字・記
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。誤った事実や架空の情報を出力するため、信頼性が低下します。ローカルLLMユーザーは、出力内容を常に確認し、信頼できる情報源と照らし合わせることでリスクを軽減しましょう。
バッチ処理 (ばっちしょり)
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルが新しい入力データから予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(推論速度・メモリ使用量)や、量子化・モデル圧縮などの最適化技術が重要です。訓練とは異なり、実運用時のパフォ
温度 (おんど)
温度はテキスト生成時の確率分布の調整パラメータ。


コメント