このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模言語モデル(LLM)シリーズ。Transformerアーキテクチャを基盤とし、大量のテキストデータで事前学
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。2B~7Bパラメータ規模で、テキスト生成やコード
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータを学習し、文章生成や翻訳、質問応答など多様なタスクを処理できるAIモデルです。ローカル環境で利用する際は、計算リソースの最適化やモデルのカスタマイズが重要で、推論速度や精度のバランスを取ることが実践的です。
Llama (ラマ)
Llamaはメタが開発した大規模言語モデルシリーズ(Llama1~Llama3)。オープンソースで、ローカル環境での
Mistral (ミストラル)
Mistralは、フランスのMistral AIが開発したLLMシリーズ。Mistral-7Bなど、パラメータ数が少ないながらも性能に優れたモデルが特徴。ローカル環境での導入が容易で、軽量な処理が求められるタスクに適している。オープンソースのため、カスタマイズや研究用途に広く利用されている。
Phi (ファイ)
Phiはマイクロソフトが開発した小型LLMシリーズ(例:Phi-1、Phi-2)。計算リソースを抑えつつ高精度なタスク処理を実現し、エッジデバイスやリソース制限環境での実装に適している。ローカルユーザー向けに軽量かつ実用性の高いモデルとして注目され、特定のアプリケーションで活用可能。
Qwen (チェン)
Qwenはア
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを効率的に利用できるLLMの一種。大規模モデル(LLM
Transformer (トランスフォーマー)
Transformerは、2017年に発表されたLLMの基盤となるアーキテクチャで、自己注意機構(Self-Attention)を用いて文脈を効率的に処理します。並
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMを特定のタスクやドメインに合わせて最適化する手法です。ローカルユーザー向けには、少量のデータでモデルを微調整し、精度を向上させることが可能。計算リソースを節約しながら、用途に特化した性能を実現します。過学習に注意し、適切なデータ選択が重要です。
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
EXL
FP16 (エフピーじゅうろく)
GGUF (ジージーユーエフ)
GPTQ (ジーピーティーキュー)
GPTQ(Group-wise Quantization)は、モデルの重みをグループ単位で量子化し、精度を維持しながらモデルサイズを削減する技術。ローカルLLMユーザー向けに、GPUメモリを節約し、高速な推論を実現。特に、大規模モデルの軽量化や、低
INT4 (イントよん)
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
量子化 (りょうしか)
量子化は、モデルの重みやアクティベーションの精度を下げて計算効率を向上させる技術です。例:32bit浮動小数点を8bit整数に変換。メモ
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、大規模言語モデルを効率的に推論するためのエンジンで、消費者向け
LM Studio (エルエムスタジオ)
LM Studioは、ローカルでLLMを実行するための推論エンジン。複数モデル対応、GPU加速、直感的なUIを備え、開発者向けにローカル環境でのモデルテストやカスタマイズを容易にします。クラウド依存を避けて高速な推論が可能で、研究やプロトタイピングに最適です。(198字)
LocalAI (ローカルエーアイ)
LocalAIは、ローカル環境で推論を実行するエンジンで、クラウドに依存せずプライバシーを重視した運用が可能。モデルのローカル展開により、ネットワーク接続不要で低遅延な
Ollama (オラマ)
Ollamaは、ローカルで大規模言語モデルを効率的に実行できる推論エンジン。GPUを活用した高速推論と軽量化技術(例:Quantization)を採用し、低リソース環境でも安定動作。モデルのローカルホスティング
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
**Text Generation Inference**は、LLMが入力に基づいてテキストを生成するための推論エンジンの機能です。ローカル環境では、TensorRTやHugging Face Transformersなどのフレームワークで実装され、高速化やメモリ最適化(例:量化、カーネル最適化)により、リアルタイム処理やリソース効率を向上させ
llama.cpp (ラマシーピーピー)
llama
vLLM (ブイエルエルエム)
vLLMは、大規模言語モデル(LLM)の推論を高速化するオープンソースのエンジンで、効率的なメモリ管理と並列処理技術を採用。ローカル環境でも高スループット・低レイテンシを実現し、大規模モデルの実行を可能にします。Transformerベースの
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを視覚的に操作できるノードベースのインターフェース。ユーザーはブロックを接続して画像生成ワークフローを構築でき、コード知識不要で柔軟なカスタマイズが可能。ローカル環境での高精度な画像生成に最適で、アーティストや開発者に広く利用されているオープンソースツ
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable Diffusion)に接続して、エッジやポーズなどの「制御信号」を入力することで、生成画像
Flux (フラックス)
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルを効率的に微調整する技術で、画像生成ではパラメータ数を抑えた適応を可能にします。ローカルLLMユーザー向けに、計算リソースを節約しながら特定のスタイルやタ
SDXL (エスディーエックスエル)
SDXL(Stable Diffusion XL)は、高解像度かつ高品質な画像生成を可能にする拡張型のテキストto画像モデル。従来のバージョンよりパラメータが大きく、詳細表現や複雑なプロンプトへの対応性
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成する拡散モデル。ノイズを徐々に除去するプロセスで画像を生成し、UNetアーキテクチャを採用。ローカル環境でもGPUで実行可能で、コミュニティで広く利用されている。オープンソースのためカスタマイズ性が高く、多様な用途に適応可能。
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供するGPU向け並列計算プラットフォームで、LLMのトレーニングや推論時にGPUの計算能力を活用するためのAPIとライブラリを含みます。ローカルLLMユーザーは、CUDAを介して高速な行列演算やメモリ管理が可能となり、モデルの処理効率が向上します。NVIDIA GPUのドライバと互換性があることが前提です。
NPU (エヌピーユー)
Tensor Core (テンサーコア)
Tensor CoreはNVIDIA GPUに搭載された専用演算ユニットで、行列計算を高速化する。機械学習やLLMのトレーニング・推論で用いられ、混合精度計算を効率的に処理。ローカルLLMユーザーには、モデルの高速実行やリソース効率化に直結する。
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載される専用メモリで、モデルの重みや計算中のデータを一時的に保存します。ローカルLLMでは、VRAM容量がモデルサイズやバッチサイズに直接影響を与え、不足すると性能低下やエラーを引き起こします。効率的な利用には、混合精度計算や量子化などの技術が有
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、外部データベースから情報を検索し、LLMに統合して生成精度を向上させる技術。ローカルLLMユーザーには、トレーニング不要で最新データを活用できる利点があり、ベクトル検索やカスタム知識ベース構
エンベディング (えんべでぃんぐ)
エンベディングは、テキストやデータを数値ベクトルに変換し、意味を数値で表現する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、モデルの入力として効率的に処理します。Hugging FaceのSentence Transformersなどを使って生成し、ベクトル空間での計算を可能にします。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力(プロンプト)を設計・調整する技術です。タスクに応じた指示文の構成、例示の活用、言語の明確化がポイント。ローカルLLMユーザー向けには、反復的なテストと構造化されたフォーマット(例:「目的」「手順」「出力形式」)の導入が実践的です。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するデータベースです。LLMの出力や埋め込み(embedding)を格納し、類似性検索やクエリ応答に活用されます。ローカル環境では、FAISSやPineconeなどのツールで構築し、高速な検索とスケーラビリティ
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワークです。プロンプト、モデル、メモリの統合や、チェーン処理を簡潔に実装できるため、ローカルLLMユーザーは効率的にワークフローを構築できます。柔軟性と拡張性を重視し、実用性が高く、開
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMを活用したアプリケーション開発を支援するフレームワークです。データの読み込み・インデックス作成・クエリ処理を簡易化し、ローカルLLMとの連携をスムーズにします。実践的には、データパイプライン構築やRAG(検索拡張生成)の実装に有効で、開発効率を向上させます。
📖 コンセプト
Top-P (トップピー)
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能なトークン数を示す指標です。ローカル環境では、メモリ制限により長すぎるコンテキストは処理不能になるため、入力テキストの長さやトークン化方式に注意が必要です。適切な長さを設定することで、モデル性能とリソース使用量のバランスを取れます。
トークン (とーくん)
トークンは、テキストをモデルが処理可能な単位(単語・文字・サブワードなど)に分割したものを指します。日本語ではカナ・漢字・語彙を単位として分ける「トークナイズ」が重要で、トークン数がモデルの処理能力やコンテキスト長に直結します。ローカルLLMでは、トークン化の精度が推論結果に影響を与えるため、適切なトークナイザー選択が
ハルシネーション (はるしねーしょん)
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一括で処理する方法で、効率性を重視します。LLMユーザー向けには、複数のクエリを一度に処理することでリソースを節約でき、推論
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルに新たな入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(推論速度・メモリ使用量)や、量子化・モデル圧縮などの最適化技術が重要です。
温度 (おんど)

コメント