このページでは、ローカルLLM(Large Language Model)を始めるにあたって知っておくべき用語を網羅的に解説しています。Ollama、llama.cpp、量子化、VRAMなど、自分のPCでAIを動かすために必要な知識をここで身につけましょう。
📖 LLMモデル
GPT (ジーピーティー)
GPT(Generative Pre-trained Transformer)は、OpenAIが開発した大規模言語モデル(LLM)シリーズ。Transformerアーキテクチャを基盤とし、大量のテキストデータで事前学習し、自然言語生成や理解に優れる。ローカル環境での
Gemma (ジェマ)
GemmaはGoogleが開発した軽量で高パフォーマンスなLLMシリーズ(例:Gemma-2)。コード生成や論理的推論に優れ、マルチリンガル対応。ローカル環境でも効率的に動作し、オープンソース化により幅広いユーザーに利用可能。
LLM (エルエルエム)
LLM(Large Language Model)は、膨大なテキストデータで訓練された高パラメータ数を持つ言語モデルで、自然言語理解・生成を可能にします。ローカル環境での利用では、GPUメモリ対応や推論最適化(例:quantization)が実践的です。応用範囲はQA、創作、プログラミングなど多岐にわたります。
Llama (ラマ)
Llamaはメタが開発したオープンソースのLLMシリーズ(Llama1~Llama3
Mistral (ミストラル)
Mistralは、フランスのMistral AIが開発したLLMシリーズ。Mistral-7BやMixtral-8x7Bなど、効率的な推論とコード生成を特徴とし、オープンソースで提供されている。ローカル環境での導入
Phi (ファイ)
Phiはマイクロソフトが開発したLLMシリーズで、Phi-1、Phi-2、Phi-3など複数のバージョンが存在します。小規模ながら高精度な推論や言語理解を実現し、リソース制約のある環境でも効果的に利用可能です。ローカル環境での導入や、特定のタスク向けのカスタマイズに適しています。
Qwen (チェン)
Qwenはアリババクラウドが開発した大規模言語モデルで
SLM (エスエルエム)
Transformer (トランスフォーマー)
Transformerは、2017年にGoogleが提案したLLMの基盤となるアーキテクチャで、自己注意機構(Self-Attention
ファインチューニング (ふぁいんちゅーにんぐ)
ファインチューニングは、既存のLLMに特定のタスクやドメインに特化した知識を追加する技術です。ローカルユーザー向けには、少量のデータでモデルを最適化し、精度を向上させる実践的な手法として活用されます。計算リソースを効率的に使い、過学習を防ぐための調整が重要です。
📖 量子化・最適化
AWQ (エーダブリューキュー)
EXL2 (イーエックスエルツー)
FP16 (エフピーじゅうろく)
FP16(16ビット浮動小数点)は、計算精度を半分に抑えることでメモリ使用量と演算速度を向上させる技術。LLMの推論では、モデルサイズの削減や高速化に活用され、特にGPUでの処理に適している。ただし、精度の低下が生じるため、トレーニングでは混合精度(FP16とFP32の併用)が一般的。
GGUF (ジージーユーエフ)
GPTQ (ジーピーティーキュー)
GPTQ(Group-wise Quantization)は、モデルの重みをグループごとに量子化し、精度を維持しながらモデルサイズを縮小する技術。ローカルLLMユーザー向けに、GPUメモリを節約し、大規模モデルのローカル実行を可能にします。計算効率も高く、推論
INT4 (イントよん)
INT8 (イントはち)
KVキャッシュ (けーぶいきゃっしゅ)
KVキャッシュは
量子化 (りょうしか)
量子化は、モデルの重みやアクティベーションの精度
📖 推論エンジン
ExLlamaV2 (イーエックスラマブイツー)
LM Studio (エルエムスタジオ)
LM Studioは、ローカルでLLMを実行するための推論エンジン。GPU加速を活用し、高速な推論を実現。GGUFなど複数フォーマットをサポートし、GUIによる直感的な操作が可能。クラウド依存を避け、プライバシー保護とコスト削減に適したツール。
LocalAI (ローカルエーアイ)
LocalAIは、ローカル環境で大規模言語モデルを実行可能なオープンソースの推論エンジンです。クラウド依存を避けてプライバシーを確保し、軽量な設計でリソース効
Ollama (オラマ)
Ollamaは、ローカルで大規模言語モデル(LLM)を効率的に実行できる推論エンジン。モデルのホスティング、API経由の推論、複数モデルの管理をサポートし、プライバシー保護とコスト削減を実現。ユーザーが自前のハードウェアでLLMを運用する際の実用性を高めるツール。
Text Generation Inference (てきすとじぇねれーしょんいんふぁれんす)
llama.cpp (ラマシーピーピー)
llama.cppは、LLaMAモデルをC++で実装した推論エンジンで、軽量かつ高速な推論を実現。GPUやCPUでの実行をサポートし、ローカル環境でも効率的にLLMを動作可能。オープン
vLLM (ブイエルエルエム)
vLLMは、大規模言語モデルの推論を高速化するオープンソースのエンジンで、メモリ効率化と並列処理技術を採用。Hugging Face Transformersとの互換性があり、ローカル環境でも高精度な推論を低リソースで
📖 画像生成
ComfyUI (コンフィユーアイ)
ComfyUIは、Stable Diffusionを視覚的に操作できるノードベースのインターフェース。ワークフローを柔軟にカスタマイズでき、ローカル環境で高精度な画像生成を実現。モデルや拡張機能の自由な組み合わせが可能で、実践的な制御性が特徴。オープンソースで拡張性に優れる。
ControlNet (コントロールネット)
ControlNetは、拡散モデルに接続して画像生成を
Flux (フラックス)
Fluxは、画像生成モデルの一種で、高品質な画像を
LoRA (ローラ)
LoRA(Low-Rank Adaptation)は、大規模モデルを効率的に微調整する技術で、画像生成では低ランク行列を追加してパラメータを調整します。計算コストを抑えつつ、特定タスク(例:スタイル変換)に適応可能。ローカルLLMユーザーには、リソースを節約しながら柔軟なモデル調整が可能になります
SDXL (エスディーエックスエル)
SDXL(Stable Diffusion XL)は、Stability AIが開発した高解像度・高品質な画像生成モデル。従来のStable Diffusionよりパラメータ数が増加し、詳細なテキストプロンプトに対応。ローカル環境でも利用可能だが、GPUメモリが16GB以上
Stable Diffusion (ステーブルディフュージョン)
Stable Diffusionは、Stability AIが開発したテキストから画像を生成する拡散モデル。ノイズを段階的に除去して画像を生成し、高品質な出力が可能。オープンソースでローカル実行可能だが、GPUなどの高計算リソースが必要。ユーザーはモデルサイズと生成速度のトレードオフを考慮するべき。
VAE (ブイエーイー)
📖 ハードウェア
CUDA (クーダ)
CUDAはNVIDIAが提供するGPUを活用するための並列計算プラットフォームとAPI。ローカルLLMユーザー向けに、GPUによる高速なモデル推論・学習を実現するための基盤となる技術です。NVIDIA GPU所有者はCUDAドライバとライブラリをインストールし、PyTorchやTensorFlowなどフレームワークでGPU加速を有効化します。
NPU (エヌピーユー)
NPU(Neural Processing Unit)は、AI処理を最適化した専用ハードウェアで、行列演算やテンソル計算を高速に実行します。ローカル
Tensor Core (テンサーコア)
Tensor Coreは、NVIDIA GPUに搭載された専用ハードウェアで、行列演算を高速化し、深層学習やLLMのトレーニング・推論を効率化します。ローカルLLM
VRAM (ブイラム)
VRAM(ビデオRAM)は、GPUに搭載される専用メモリで、画像処理や機械学習モデルの計算に使用されます。ローカルLLMユーザーにとって、モデルのサイズやバッチ処理能力に直結し、VRAM容量が不足するとモデルの読み込みや推論が困難になります
eGPU (イージーピーユー)
eGPU(外部グラフィックボード)は、ThunderboltやUSB-C経由で接続し、ノートPCや低性能デスクトップに高性能GPUを追加する
📖 開発ツール
RAG (ラグ)
RAG(Retrieval-Augmented Generation)は、検索エンジンで外部データを取得し、LLMに統合して回答を生成する技術。ローカルLLMユーザーには、モデルの知識を拡張するための実用的な手法として活用可能。最新情報や専門データを効率的に活用し、トレーニング不要で精度向上が期待できる。
エンベディング (えんべでぃんぐ)
エンベディングは、テキストを意味を含む数値ベクトルに変換する技術です。ローカルLLMでは、類似性検索やクラスタリングに活用され、自然言語を機械が処理可能な形式に変換します。Sentence TransformersやHugging Faceのライブラリで実装可能で、高次元データの次元削減やモデル性能向上に貢献します。
プロンプトエンジニアリング (ぷろんぷとえんじにありんぐ)
プロンプトエンジニアリングは、LLMに最適な入力文(プロンプト)を設計する技術です。明確な指示や例を組み込み、反復的なテストを通じて精度を向上させます。ローカルLLMユーザーは、この手法でモデルの出力を制御し、特定のタスクに最適化できます。
ベクトルストア (べくとるすとあ)
ベクトルストアは、テキストや画像を数値ベクトルに変換したデータを効率的に保存・検索するためのデータベースです。LLMユーザー向けには、生成された埋め込み(embedding)を格納し、類似性検索やクエリ応答に活用します。ローカル環境では、FAISSやPineconeなどのライブラリを用いて高速な検索を実現し、大規模なベクトルデータの
📖 フレームワーク
LangChain (ラングチェーン)
LangChainは、LLMを活用したアプリケーション開発を支援するフレームワークです。プロンプト、モデル、メモリの連携を簡易化し、ローカルLLMとの統合や複雑なワークフロー構築を可能にします。エージェントやデータベース連携機能も備え、実用性が高く、開発効率を向上させます。
LlamaIndex (ラマインデックス)
LlamaIndexは、LLMを活用したアプリケーション開発を支援するフレームワーク。データのインデックス作成、クエリ処理、結果の統合を簡易化し、ローカル環境でのLLM利用を効率化。モジュール構成で柔軟な拡張性を実現し、開発者向けにAPIやツールを提供。
📖 コンセプト
Top-P (トップピー)
Top-P(核サンプリング)は、確率の累積値がPを超えるトークンを候補に選ぶ手法。Top-Kより柔軟で、出力の多様性と一貫性をバランスよく調整可能。ローカルLLMユーザーは、P値を調整して生成文の自然さや創造性を最適化し、過剰なランダム性や単調さを避けるのに有効
コンテキスト長 (こんてきすとちょう)
コンテキスト長は、LLMが一度に処理可能な入力トークン数を指します。ローカルユーザー向けに、長すぎる入力は切り捨てられる可能性があり、性能に影響するため、適切な長さに調整することが重要です。また、メモリ使用量も増加するため、ハードウェア制約を考慮する必要があります。
トークン (とーくん)
トークンは、LLMが処理する最小単位で、単語やサブワード(例:「unhappiness」→「un」「happi」「ness」)を含む。トークナイズ方式(BPEなど)により分割され、入力・出力の解析に不可欠。トークン数はモデルの性能やリソ
ハルシネーション (はるしねーしょん)
ハルシネーションは、LLMが訓練データにない情報を勝手に生成する現象。誤った事実や架空の内容を出力し、信頼性を損なう。ユーザーは出力内容を常に検証し、信頼できる情報源と照合する必要
バッチ処理 (ばっちしょり)
バッチ処理は、複数のデータを一度に処理する方法で、効率性を重視します。LLMでは、大量のトレーニングデータをチャンクごとに処理し、メモリ使用量を抑えつつ学習を進めます。ローカル環境では、バッチサイズの調整が
推論 (すいろん)
推論(インフェレンス)は、学習済みモデルに新しい入力データを渡し、予測や出力を生成するプロセスです。ローカルLLMユーザー向けには、モデルの実行効率(推論速度・メモリ使用量)を最適化するため、量子化やモデル圧縮技術が重要です。実際の応用では、チャットボットやデータ解析などで即時
温度 (おんど)


コメント