このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
Gemma (ジェマ)
GemmaはGoogleが開発したオープンソースのLLMシリーズで、Gemma-2やGemma-2.5など複数のバージョンが存在。自然言語処理やコード生成に最適化され、軽量かつ高精度な推論を実現。ローカル環境でも効率的に動作し、ライセンス制限
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータで訓練された高精度な言語モデルで、文章生成や質問応答などに用いられる。ローカル環境では、モデルサイズや推論速度を考慮し、軽量化技術(例:Quantization)を活用して効率的に運用する。
Llama (ラマ)
Llamaはメタが開発したオープンソースのLLMシリーズ(Llama、Llama 2、Llama 3など)。数十億~数百億パラメータを持つモデル
Mistral (ミストラル)
Mistralは、フランスのスタートアップMistral AIが開発したLLMシリーズ。Mistral 7BやMixtral 8x7Bなど、高精度な推論・コード生成を実現。オープンソースで、Hugging Faceなどでの利用が可能。ローカル環境でも軽量な実装が可能で、研究・開発に適したモデル。
Phi (ファイ)
Phiはマイクロソフトが開発した軽量LLMシリーズ(Phi-1/Phi-2/Phi-3)。パラメータ数が少ないにもかかわらず、効率的で高精度な推論を実現。特にPhi-3は最新バージョンで、チャットボットや特定タスク向けに最適化されており、リソース制限のある環境でも実用可能。
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルシリーズで、多言語対応・コード生成・会話応答など幅広いタスクを処理可能です。ローカルユーザー向けには、軽量版や特定用途向けモデルが提供され、オンプレミスでの導入や
SLM (エスエルエム)
SLM(Small Language Model)は、パラメータ数が少なく、計算リソースを効率的に利用するLLMの一種です。ローカル環境や端末向けに最適化され
Transformer (トランスフォーマー)
Transformerは、2017年に発表されたLLMの基盤となるアーキテクチャ。自己注意機構により文脈を効果的に捉え、並列処理で高速学習を実現。ローカルLLMユーザーには、長文処理や多言語対応の実装
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクやデータに合わせて再訓練する手法です。ローカルユーザー向けには、自社データに最適化する際、計算リソースを効率的に活用し、過学習を防ぐためのデータ選定が重要です。
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
GGUF (ジージーユーエフ)
GGUFは、LLMを効率的に実行するための量子化・最適化形式。モデルサイズを小さくし、GPUメモリを節約しながら高速な推論を可能にします。ローカ
GPTQ (ジーピーティーキュー)
GPTQは、LLMの重みをグループごとに量子化し、精度を維持しながらモデルサイズを削減する技術。ローカルユーザー向けに、GPUメモリを節約し、大規模モデルを効率的に実行可能に。Hugging Face
INT4 (イントよん)
INT4は、モデルの重みを4ビット整数に
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
KVキャッシュは、LLMの推論時に生成されたトークンのキー・値ベクトルを
量子化 (りょうしか)
量子化は、モデルの重みやアクティベーションの精度
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
ExLlamaV2は、消費者向けGPUで大規模LLMを効率的に推論するためのエンジン。8bit/4bit量子化やメモリ最適化により、高性能なモデルを一般PCでも実行可能
LM Studio (エルエムスタジオ)
LM Studioは、ローカル環境でLLMを効率的に実行する推論エンジン。複数モデルのサポート、GPU加速、メモリ最適化が特徴。開発者向けに軽量で使いやすく、クラウド依存なしでモデルテストが可能。実践的には、ローカルでの高速推論やカスタムモデルのデプロイに適している。
LocalAI (ローカルエーアイ)
LocalAIは、ローカル環境でLLMを実行可能なオープンソースの推論エンジン。クラウド依存を避け、プライバシー保護とデータ制御を実現。軽量設計
Ollama (オラマ)
Ollamaは、ローカルで大規模言語モデル(LLM)を効率的に推論するための
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
Text Generation Inferenceは、LLMが入力に基づいてテキストを
llama.cpp (ラマシーピーピー)
vLLM (ブイエルエルエム)
vLLMは、大規模言
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable DiffusionなどのAIモデルを視覚的に操作できるノードベースのインターフェース。ローカルLLMユーザー向けに、プロンプトやモデル設定をドラッグ&ドロップで組み合わせて画像生成をカスタマイズ可能。コード知識不要で柔軟なワークフロー構築が可能で、オープンソースなため拡張性に優れる。
ControlNet (コントロールネット)
ControlNetは、画像生成モデル(例:Stable Diffusion)に「制御信号」(エッジ、ポーズ、セグ
Flux (フラックス)
LoRA (ローラ)
SDXL (エスディーエックスエル)
SDXL(Stable Diffusion XL)は、Stability AIが開発した高解像度・高品質な画像生成モデル。従来のStable Diffusionに比べて、詳細なテキスト
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成するオープンソースモデル。拡散過程を用いて高品質な画像を生成し、ローカル環境での実行が可能。ユーザーはカスタマイ
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供するGPU向け並列計算プラットフォームで、GPUの計算リソースを効率的に活用するためのAPIとツールキットを含みます。ローカルLLMユーザーは、CUDAを介してGPUアクセラレーションを実現し、大規模モデルのトレーニングや推論を高速化できます。CUDAド
NPU (エヌピーユー)
NPU(Neural Processing Unit)は、AI計算を最適化した専用ハードウェアで、機械学習や深層学習の処理を高速化します。ローカルLLMユーザー向けには、推論やトレーニング時の効率化が期待でき、低消費電力で高パフォーマンスを実現。スマートフォ
Tensor Core (テンサーコア)
Tensor CoreはNVIDIA GPUに搭載された専用演算ユニットで、行列演算を高速化し、LL
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUがグラフィック処理や機械学習計算時に使用する専用メモリ。LLMの推論・学習では、モデルパラメータやバッチデータを一時的に保存し、高速な処理を実現。VRAM容量が大きいほど、大
eGPU (イージーピーユー)
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索結果を用いて生成モデルの出力を補完する技術。ローカルLLMユーザーには、外部データベースから情報をリアルタイムに取得し、モデルの知識を拡張する手段として有用。ただし、検索システムの構築や計算リソースの確保が課題となる。
エンベディング (えんべでぃんぐ)
エンベディングは、テキストを意味を含む数値ベクトルに変換する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、モデルの入力として効率的な処理を可能にします。Sentence TransformersやHugging Faceのライブラリで生成され、開発者はこれを用いてアプリケーションに自然言語の理解を組み込むことができます。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力文(プロンプト)を設計する技術です。明確な指示や例の提示、構造化されたフォーマットを用いることで、出力品質を向上させます。ローカルLLMユーザーは、タスクに応じたプロンプトの最適化や、反復的なテストを通じた調整を実践し、モデルの性能を引き出すことが重要です。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するデータベースです。LLMの出力や埋め込みベクトルを格納し、類似性検索やクエリ応答に活用。ローカル環境ではFAISSやPineconeなどのツールで構築可能で、検索性能とスケーラビリティを
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワークです。プロンプトテンプレートやメモリ管理、外部ツール連携機能を提供し、ローカル環境での柔軟なカスタマイズを可能にします。チェーンやエージェントを用いたワークフロー構築が特徴で、デバッグ性やデータプライバシーの確保に適しています。
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMを活用したアプリケーション構築を支援するオープンソースフレームワークです。データインジェスト、クエリ処理、RAG(検索拡張生成)を簡易化し、ローカルLLMとの連携をスムーズに。モジュール構成で柔軟性が高く、実装効率を
📖 コンセプト
Top-P (トップピー)
Top-P(核サンプリング)は、確率の累積値がPを超えるトークンのみを候補に選ぶ手法。Top-Kより柔軟で、文脈に沿った多様な出力を生成可能。ローカルLLMユーザー向けに、P値を小さくすると出力が凝縮され、大きくすると創造性が高
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能なトークン数を示す指標です。ローカルユーザー向けには、長さが大きいほど複雑なタスクに対応可能ですが、メモリや計算リソースを多く消費します。入力テキストを適切に分割し、モデルの限界を意識した設計が重要です。
トークン (とーくん)
トークンは、テキストを処理する際の最小単位で、単語やサブワード、記号などに分類されます。LLMでは入力・出力の単位として扱われ、トークン数制限(例:3000トークン)がモデル
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。誤った事実や架空の内容を出力し、信頼性を損なうリスクがある。ローカルユーザーは、出力内容
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一度に処理する方法で、効率性とリソース最適化を目的とします。LLMユーザーには、トレーニングや推論
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルに新たな入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの軽量化(量子化など)やハードウェア最適化が重要で、低遅延・高精度な実行を
温度 (おんど)
温度はLLMの出力多様性を調整するパラメ


コメント