RunPod 完全ガイド:GPUクラウドで70BモデルもComfyUIも動かす【2026年6月最新版・料金/設定/ローカルとの分岐点】

RunPod完全ガイド 2026年6月最新版 チュートリアル

ローカルPCでLLM(大規模言語モデル)や画像生成AIを動かしてきた人にとって、最大の壁は「VRAMが足りない」「70Bクラスのモデルが動かない」という現実です。RTX 4090(24GB)やRTX 5090(32GB)を積んでも、Llama 3.3 70BやQwen3 235BのフルウェイトをロードできるGPUは個人向けには事実上存在しません。そこで選択肢に上がるのが、時間貸しのクラウドGPUサービスです。本記事では、その筆頭格であるRunPodを、2026年6月時点の最新料金体系・最新CLI(runpodctl v2.3.0)・最新の対応モデルを踏まえ、アカウント作成から70Bモデルの推論、ComfyUIによる画像生成、コスト最適化、ローカルPC運用との損益分岐点まで、この1記事で完結できるよう徹底的に解説します。

「クラウドGPUは高い」「ローカルの方が結局得」という先入観で敬遠している人にこそ読んでほしい内容です。RTX 4090で月300時間動かす電気代と、RunPodのスポット時間料金を素直に比較すると、用途によっては明確にクラウドが有利なケースが存在します。逆に、常時稼働させたい場合はローカルが圧倒的に得です。本記事はその判断軸を、具体的な数字で示します。

  1. RunPodとは何か:GPUクラウドレンタル業界での位置づけ
    1. サービスの3つの柱
    2. 2つの実行環境ティア
    3. ライセンス・データ取り扱い
  2. 2026年最新リリース情報・直近6ヶ月の主要アップデート
    1. 2026年3月:US-GA-2 リージョン追加とS3互換API拡張
    2. 2026年4月:runpodctl v2.2.0 で hub コマンド追加
    3. 2026年5月:runpodctl v2.3.0 リリース
    4. 2026年通年:Blackwell世代(B200/RTX 5090)の本格展開
    5. Serverless の vLLM ワーカー対応強化
  3. 他のGPUクラウドサービスとの比較
    1. サービス別の使い分け早見表
  4. RunPodのメリット・デメリット
    1. メリット
    2. デメリット
  5. 動作要件・対応モデル
    1. ユーザー側(クライアント)の最小要件
    2. 用途別の推奨GPU
  6. RunPod 利用開始の完全手順
    1. Step 1:アカウント作成・初期設定
    2. Step 2:API キーの発行
    3. Step 3:CLI(runpodctl v2.3.0)のインストール
      1. Linux / macOS
      2. Windows(PowerShell)
      3. API キーの設定
  7. 初期セットアップとGPU選定
    1. Pod を立ち上げる:Web UI からの最短手順
    2. CLI から Pod を立ち上げる
    3. SSH 接続
  8. 基本的な使い方:Ollama で 70B モデルを動かす
    1. Step 1:Ollama テンプレートで Pod を起動
    2. Step 2:Pod に SSH 接続して Ollama 起動確認
    3. Step 3:ローカルPC から HTTP API で呼ぶ
    4. Step 4:Network Volume でモデルを永続化
  9. 実践的な使い方
    1. ユースケース1:vLLM で OpenAI 互換 LLM API を立てる
      1. 手順
      2. ローカルから OpenAI SDK でアクセス
    2. ユースケース2:ComfyUI で SDXL / FLUX.1 画像を高速生成
      1. 手順
      2. Network Volume を使った効率的なワークフロー
    3. ユースケース3:Serverless で本番LLM APIエンドポイント構築
      1. 手順
      2. クライアントからの呼び出し例
  10. 応用・カスタマイズ
    1. カスタム Docker イメージで自前環境を再現
    2. S3 互換 API でモデルファイルを事前配置
    3. マルチノードクラスタ(Instant Clusters)で70B以上の学習
    4. runpodctl hub で人気テンプレートを即デプロイ
  11. パフォーマンス最適化
    1. 1:適切な量子化を選ぶ
    2. 2:vLLM の --gpu-memory-utilization を調整
    3. 3:Container Disk より Network Volume を優先
    4. 4:Community Cloud との使い分け
    5. 5:スポット(Interruptible)の活用
    6. 6:自動停止スクリプトでアイドル課金を防ぐ
  12. よくあるエラーとトラブルシューティング
    1. エラー1:「No GPUs available」
    2. エラー2:SSH 接続が拒否される(Permission denied)
    3. エラー3:「CUDA out of memory」(推論中)
    4. エラー4:Network Volume が見えない(/workspace が空)
    5. エラー5:HTTP プロキシ URL(proxy.runpod.net)にアクセスできない
    6. エラー6:Serverless のコールドスタートが遅すぎる
    7. エラー7:クレジット残高不足で Pod が強制終了
  13. おすすめの組み合わせ・連携
    1. ローカル + RunPod のハイブリッド構成
    2. Open WebUI を経由した統一インターフェース
    3. LangChain / LlamaIndex から RunPod Serverless を直叩き
    4. Cursor / Cline / Continue(VSCode拡張)から自社モデルを呼ぶ
  14. 推奨PCスペック(クライアント側)
    1. 入門(クラウドのみ・たまに使う)
    2. 標準(ローカルとハイブリッド運用)
    3. ハイエンド(ローカル中心+RunPodは70B検証用)
  15. ローカルPC運用とのコスト分岐点(最重要:いつクラウドが得か)
    1. 前提条件
    2. 月間使用時間別コスト試算
    3. 結論:使い分けの黄金律
  16. セキュリティ・プライバシー上の注意
    1. 機密データの取り扱い
    2. 支払いリスク
  17. まとめ:RunPodは誰に向いているか
    1. RunPodを使うべき人
    2. RunPodを使わない方がいい人
    3. 今後の展望
  18. 📦 この記事で紹介した商品

RunPodとは何か:GPUクラウドレンタル業界での位置づけ

RunPodは、2022年に設立された米国スタートアップが運営するGPUクラウドサービスです。AWSやGCPのような汎用クラウドではなく、AI/ML推論・学習・画像生成に特化しており、コンテナベースで分単位(実際には秒単位)の課金体系を採用しています。2024年に120M USDのARR(年間経常収益)を突破したと公表され、AI開発者向けGPUクラウドとしてはVast.ai・Lambda Labsと並ぶ主要プレイヤーの一つです。

サービスの3つの柱

  • Pods:Docker コンテナベースの専有GPUインスタンス。SSH/Jupyter/Web UI経由で接続して自由にカスタマイズできる。Stable Diffusion、Ollama、vLLM、ComfyUIなどテンプレートが多数用意されており、起動から30秒程度で利用開始できる
  • Serverless:API呼び出しベースの推論サーバ。リクエストがあった時だけ秒単位で課金され、アイドル時はコストがゼロ。本番運用のLLM推論エンドポイントに最適
  • Instant Clusters / Flash(Beta):複数ノードのGPUクラスタや、ローカルのターミナルから直接Pythonコードをリモート実行する仕組み。HPCや分散学習向け

2つの実行環境ティア

RunPodの料金体系を理解する上で重要なのが、2つのインフラティアです。

  • Secure Cloud:RunPod直営のデータセンターで稼働。99.5%稼働率、NVLink対応、永続ストレージ、エンタープライズ向けセキュリティ。価格はやや高い
  • Community Cloud:第三者ホスト(GPUを貸し出している企業や個人)で稼働。料金が安く、Secure Cloudより20〜40%程度安価だが稼働率は97〜99%と変動する。短期間の実験や学習用途に向く

ライセンス・データ取り扱い

RunPodの利用規約上、Pod上で稼働するワークロードと生成データはユーザーに帰属します。Secure Cloudは GDPR・SOC2 などの準拠を進めていますが、機密データを扱う場合はSecure Cloud限定、かつネットワーク・ボリュームの暗号化設定を推奨します。

2026年最新リリース情報・直近6ヶ月の主要アップデート

2026年に入ってからRunPodは急速に機能拡張を続けています。執筆時点(2026年6月10日)で確認できる主要アップデートを時系列でまとめます。

2026年3月:US-GA-2 リージョン追加とS3互換API拡張

3月のリリースで、米ジョージア州の新データセンターUS-GA-2がネットワーク・ボリュームのサポート対象に追加されました。同時に、ネットワーク・ボリュームに対する S3-compatible API が複数リージョン(US-KS-2、EU-CZ-1、US-CA-2など)で利用可能になり、Podを起動せずに boto3 や AWS CLI からファイルのアップロード・ダウンロードができるようになっています。学習データの事前配置やモデルファイルの差し替えが劇的に楽になりました。

2026年4月:runpodctl v2.2.0 で hub コマンド追加

公式CLI runpodctl のv2.2.0で runpodctl hub サブコマンドが追加され、コミュニティ製のテンプレート・ワーカーをコマンドラインから検索・デプロイできるようになりました。これにより、ChatGPT風UIやSDXL推論サーバなど、人気のあるワークロードをワンライナーで立ち上げられます。

2026年5月:runpodctl v2.3.0 リリース

2026年5月13日にリリースされたrunpodctl v2.3.0では、Serverless / Templateの更新フラグ拡充、ssh remove-key コマンド追加、Pod・Serverless作成APIフィールドの追加、セキュリティ脆弱性修正が入りました。本記事のコマンド例はすべて v2.3.0 を前提にしています。

2026年通年:Blackwell世代(B200/RTX 5090)の本格展開

NVIDIAのBlackwell世代GPUが2026年を通じて在庫を増やしており、RunPodでもB200(180GB VRAM)RTX 5090(32GB VRAM)が安定的に確保できる状況になっています。特にB200はFP4精度に対応し、Llama 3.3 405Bなどの巨大モデルを1枚で動かせる唯一の選択肢として注目されています。

Serverless の vLLM ワーカー対応強化

OpenAI互換APIとして即座にデプロイできるrunpod-workers/worker-vllm が継続的にアップデートされ、Llama 3.3、Qwen3、DeepSeek V4 などの最新モデルに Day-0 対応しています。本番運用のLLM APIをRunPod Serverlessで構築する選択肢は、2026年に入って一段と現実的になりました。

他のGPUクラウドサービスとの比較

RunPodの立ち位置を理解するために、主要な競合サービスと2026年6月時点の特徴を比較します。表中のバージョン・料金はすべて執筆時点で公式サイト・公式ドキュメントから確認した最新値です。

項目RunPodVast.aiLambda LabsGoogle Colab Pro+
主なターゲットAI開発者・スタートアップ個人・予算重視研究機関・エンタープライズ個人学習・プロトタイピング
課金単位秒単位分単位分単位(オンデマンド)月額+コンピュートユニット
H100 SXM(80GB)参考価格$3.29/hr(Secure)$0.67〜$1.87/hr(変動)$2.99/hr(オンデマンド)利用不可
RTX 5090(32GB)$0.99/hr$0.30〜$0.60/hr(変動)未提供未提供
RTX 4090(24GB)$0.69/hr$0.30前後未提供未提供
A100 80GB$1.49/hr(SXM)$0.80〜$1.20/hr$1.29/hr15CU/hr(実質$1.50相当)
Serverless推論あり(秒単位課金)なし(Pod型のみ)なし(オンデマンドのみ)なし
稼働率(Secure系)99.5%ホスト依存(80〜99%)99.9%SLAなし
無料枠なしなしなし月3,000円程度から(無料Colabあり)
日本リージョンなし(最寄りは韓国・台湾経由)あり(ホストによる)なし(米国・欧州中心)あり(GCPアジア東京)
CLIrunpodctl v2.3.0(2026/05)vastai CLIlambda-cliColab内ノートブックUI
料金透明性高(公式ページ即確認)変動制(マーケットプレイス)高(固定)中(コンピュートユニット制)

サービス別の使い分け早見表

  • 開発・検証から本番まで一気通貫で揃えたい:RunPod。PodからServerlessまで同じUIで扱える
  • とにかく1時間あたりの単価を下げたい・落ちる可能性は許容できる:Vast.ai。マーケットプレイス型でRunPodの半額以下になることも
  • 長期予約・大規模クラスタ・NVLink/InfiniBand必須:Lambda Labs。研究機関向けに最適
  • 個人学習・ノートブック中心・データはGoogle Driveで完結:Google Colab Pro/Pro+。月額$9.99/$49.99で気軽

RunPodのメリット・デメリット

メリット

  • 料金透明性が高い:公式ページに全GPUの時間料金が掲載されており、見積もりが容易
  • テンプレートが豊富:Ollama、vLLM、ComfyUI、Stable Diffusion WebUI、Jupyter、PyTorch、TensorFlow など主要ワークロードが数クリックで起動
  • 秒単位課金:1時間契約や日割りではなく、起動から停止まで秒単位で課金。実験で5分使って止める運用が成立する
  • Serverlessが強力:本番LLM APIの構築でリクエストが無い時の課金がゼロ。アイドルコストを完全に消せる
  • Network Volume が安価:1TBまで$0.07/GB/月(=$70/月)、追加分$0.05/GB/月。モデルや学習データを永続保存しておきPodの起動・停止時に都度ダウンロードする無駄を避けられる
  • S3互換APIで運用効率化:Pod起動なしでファイル操作可能、CI/CDパイプラインに組み込みやすい
  • Blackwell世代の在庫が比較的潤沢:B200、RTX 5090をオンデマンドで掴みやすい

デメリット

  • 日本リージョンが無い:最寄りでもアジア圏は韓国・台湾・シンガポール経由。国内からのレイテンシは100〜150ms程度
  • Community Cloudは稼働率にばらつき:第三者ホストに依存するため、稀に予告なく落ちる。学習途中で消える前提でチェックポイントを頻繁に取る必要
  • 無料枠が無い:Google Colabのような無料ティアが存在しない。最初の検証から課金が発生する
  • UIが英語のみ:日本語ドキュメントは非公式コミュニティ製のみ
  • サポート対応は基本Discord/メール:日本語サポートは無し
  • 支払いは基本的にクレジットカード:日本円請求書発行や法人向け請求書払いはエンタープライズ契約以外では対応していない

動作要件・対応モデル

RunPodはクラウドサービスなので、ローカルPCの要件は最小限です。むしろ「どのGPUを借りるか」がモデル要件で決まります。

ユーザー側(クライアント)の最小要件

項目要件
OSWindows 10/11、macOS 12以降、Ubuntu 20.04以降のいずれか
ブラウザChrome、Firefox、Edge、Safari 最新版(Web UI使用時)
SSHクライアントOpenSSH(Pod接続用、Windowsは標準搭載)
Pythonバージョンrunpodctl Python SDKを使う場合は3.9以降
ネットワーク下り20Mbps以上(モデル転送考慮)、SSH/HTTPSが許可されていること

用途別の推奨GPU

用途推奨GPU必要VRAM時間料金(Secure Cloud)
7B〜13B LLM推論(INT4量子化)RTX 4090 / RTX A500016〜24GB$0.27〜$0.69/hr
34B LLM推論(INT4量子化)RTX 5090 / L40S32〜48GB$0.86〜$0.99/hr
70B LLM推論(INT4量子化)A100 80GB / H100 PCIe48〜80GB$1.39〜$2.89/hr
70B LLM 学習・FTH100 SXM x8640GB(クラスタ)$26.32/hr〜
235B〜405B モデル推論B200 / H200 x2180GB〜282GB$5.89/hr〜
Stable Diffusion XL生成RTX 4090 / RTX 509016〜24GB$0.69〜$0.99/hr
FLUX.1 / 動画生成(Wan、HunyuanVideo)RTX 5090 / H100 PCIe24〜80GB$0.99〜$2.89/hr
大規模ファインチューニング(QLoRA, 70B)H100 SXM80GB$3.29/hr

RunPod 利用開始の完全手順

Step 1:アカウント作成・初期設定

RunPodの利用開始は5分で完了します。

  1. RunPod公式サイトにアクセスし、右上の「Sign Up」をクリック
  2. メールアドレス+パスワード、またはGoogleアカウントでサインアップ
  3. メール認証リンクをクリックして認証完了
  4. 左メニューの「Billing」から支払い方法(クレジットカード)を登録
  5. 初回チャージは最低$10から(クレジットチャージ式で、口座から自動引き落としではない点に注意)

Step 2:API キーの発行

CLIやAPIを使う場合、左メニュー「Settings」→「API Keys」から発行します。

  1. 「Create API Key」をクリック
  2. 用途名(例: local-dev)と権限(Read/Write/Restricted)を選択
  3. 表示されたAPIキーを安全な場所にコピー(再表示不可)

Step 3:CLI(runpodctl v2.3.0)のインストール

Web UIだけでも全機能を使えますが、自動化や大量Pod管理のためにはCLIが不可欠です。最新v2.3.0をインストールします。

Linux / macOS

wget -qO- cli.runpod.net | sudo bash
runpodctl version
# 期待される出力: runpodctl v2.3.0

Windows(PowerShell)

# 最新リリースから直接ダウンロード
Invoke-WebRequest -Uri "https://github.com/runpod/runpodctl/releases/latest/download/runpodctl-windows-amd64.exe" -OutFile "runpodctl.exe"
# PATHが通ったディレクトリに配置
Move-Item runpodctl.exe C:\Windows\System32\runpodctl.exe
runpodctl version

API キーの設定

runpodctl config --apiKey YOUR_API_KEY_HERE
# 接続テスト
runpodctl get pods

初期セットアップとGPU選定

Pod を立ち上げる:Web UI からの最短手順

  1. 左メニュー「Deploy」→「Pods」をクリック
  2. GPU一覧から目的に合うものを選択(例: RTX 5090)
  3. 「Secure Cloud」または「Community Cloud」を選択(短期実験ならCommunity、本番作業ならSecure推奨)
  4. テンプレート選択:用途別に「Ollama」「vLLM」「ComfyUI」「Stable Diffusion WebUI」「PyTorch」などが用意されている
  5. カスタマイズ:Container Disk容量(デフォルト40GB)、Volume Disk(Network Volumeアタッチ)、公開ポート(例: 11434, 8188)を設定
  6. 「Deploy On-Demand」または「Deploy Spot」を選択(スポットは50%程度安いが、他ユーザに横取りされる可能性あり)
  7. 30秒程度で起動完了、SSH/Jupyter/HTTP接続情報が表示される

CLI から Pod を立ち上げる

# RTX 4090 を1枚、PyTorch テンプレートで起動
runpodctl create pod \
  --name dev-llm \
  --gpuType "NVIDIA GeForce RTX 4090" \
  --gpuCount 1 \
  --imageName runpod/pytorch:2.4.0-py3.11-cuda12.4.1-devel-ubuntu22.04 \
  --containerDiskInGb 40 \
  --volumeInGb 100 \
  --ports "8888/http,22/tcp" \
  --secureCloud

SSH 接続

# Web UI または `runpodctl get pod <pod-id>` で接続情報を取得
ssh root@<pod-host> -p <pod-port> -i ~/.ssh/id_ed25519
# 例:
ssh root@213.181.123.45 -p 22134 -i ~/.ssh/id_ed25519

SSH公開鍵は事前に「Settings」→「SSH Public Keys」に登録しておきます。複数キーを登録でき、各Podに自動的に注入されます。

基本的な使い方:Ollama で 70B モデルを動かす

RunPodのもっとも実用的なユースケースの一つが、ローカルPCでは動かせない70B〜の大型LLMを Ollama 経由で動かす運用です。

Step 1:Ollama テンプレートで Pod を起動

Web UIから以下の構成でデプロイします。

  • GPU:H100 PCIe(80GB)または A100 80GB
  • テンプレート:「runpod/ollama」(公式テンプレート)またはollama/ollama:latest
  • Container Disk:60GB(70Bモデルは40GB前後)
  • Volume Disk:100GB(Network Volumeとしてモデルを永続化)
  • 公開ポート:11434/http(Ollama HTTP API)
  • 環境変数:OLLAMA_HOST=0.0.0.0:11434

Step 2:Pod に SSH 接続して Ollama 起動確認

ssh root@<pod-host> -p <pod-port> -i ~/.ssh/id_ed25519

# Ollama バージョン確認(v0.30.7 以降を想定、2026年6月時点)
ollama --version
# 期待される出力: ollama version is 0.30.7

# Llama 3.3 70B をプル(約42GB、ダウンロード5〜10分)
ollama pull llama3.3:70b

# 動作確認
ollama run llama3.3:70b "Pythonで素数判定する関数を書いて"

Step 3:ローカルPC から HTTP API で呼ぶ

Podの公開URL(HTTPSプロキシ)にローカルから直接アクセスできます。

import requests

POD_URL = "https://abc123-11434.proxy.runpod.net"  # Web UIで確認

response = requests.post(
    f"{POD_URL}/api/generate",
    json={
        "model": "llama3.3:70b",
        "prompt": "AIの未来について簡潔に教えて",
        "stream": False
    },
    timeout=300
)
print(response.json()["response"])

Step 4:Network Volume でモデルを永続化

Podを停止するとContainer Disk上のデータは消えますが、Network Volumeにマウントしたデータは残ります。/workspaceがNetwork Volumeのマウントポイントになっています。

# OllamaのモデルディレクトリをVolumeにシンボリックリンク
mkdir -p /workspace/ollama
ln -sfn /workspace/ollama /root/.ollama

# 以降、ollama pull したモデルは /workspace/ollama に保存され、Pod再起動後も残る
ollama pull qwen3:72b

実践的な使い方

ユースケース1:vLLM で OpenAI 互換 LLM API を立てる

vLLM は連続バッチング・PagedAttention により、Ollamaよりも数倍高いスループットを出せる本番向け推論エンジンです。RunPod上でOpenAI互換APIを立てれば、自社プロダクトのバックエンドとして即座に使えます。最新vLLM 0.22.1(2026年6月5日リリース)はBlackwell世代のGPUに最適化されており、B200・RTX 5090で性能を引き出せます。

手順

# H100 PCIe で Pod を起動(vLLM テンプレート使用)
# Pod 内で実行

# 最新版を確認
pip install -U vllm
python -c "import vllm; print(vllm.__version__)"
# 期待される出力: 0.22.1

# OpenAI 互換サーバを起動(Llama 3.3 70B を AWQ 量子化で)
python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-3.3-70B-Instruct-AWQ-INT4 \
  --quantization awq \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.92 \
  --host 0.0.0.0 \
  --port 8000

ローカルから OpenAI SDK でアクセス

from openai import OpenAI

client = OpenAI(
    base_url="https://abc123-8000.proxy.runpod.net/v1",
    api_key="dummy"  # vLLM は API キー検証を任意でON/OFFできる
)

resp = client.chat.completions.create(
    model="meta-llama/Llama-3.3-70B-Instruct-AWQ-INT4",
    messages=[{"role": "user", "content": "5歳児にもわかるように量子もつれを説明して"}],
    max_tokens=512
)
print(resp.choices[0].message.content)

ユースケース2:ComfyUI で SDXL / FLUX.1 画像を高速生成

RTX 4090(24GB)クラスのVRAMでも動かせるが、ComfyUI v0.24.0(2026年6月3日リリース)が対応した最新の Ideogram V4・PixelDiT 1300M・PiD系モデルや、大規模な動画生成(Wan、HunyuanVideo)はVRAM 32GB以上が必要になります。ローカルRTX 4090で時間がかかる重い生成を、RunPod上のH100やB200で一気に流す運用が成立します。

手順

  1. Web UIの「Deploy」→「Pods」→「ComfyUI」テンプレートを選択
  2. GPU は RTX 5090(32GB)または H100 PCIe(80GB)を選択
  3. Volume Disk を 200GB 確保(モデルファイルは数十GB〜)
  4. 起動後、ComfyUI の Web UI(ポート8188)にブラウザで接続
  5. 必要なチェックポイント(SDXL、FLUX.1、Wan)を/workspace/ComfyUI/models/checkpointsに配置
  6. ComfyUI Manager から追加カスタムノードをインストール

Network Volume を使った効率的なワークフロー

# Pod 内で、モデルダウンロードを Volume 側に向ける
cd /workspace/ComfyUI/models/checkpoints
wget https://huggingface.co/black-forest-labs/FLUX.1-dev/resolve/main/flux1-dev.safetensors

# 次回Pod起動時は同じVolumeを再利用すれば、ダウンロードをスキップ可能

ユースケース3:Serverless で本番LLM APIエンドポイント構築

Pod型は常時起動コストが発生しますが、Serverless はリクエストが来た時だけ秒単位で課金されます。Webアプリのバックエンドや、ChatGPT風サービスの推論層として理想的です。

手順

  1. Web UI 左メニュー「Serverless」→「New Endpoint」
  2. 「vLLM」テンプレートを選択
  3. モデル名(HuggingFace IDまたは独自のDocker image)を指定
  4. GPU タイプ(A100 80GB / H100 PCIe 等)と最小/最大ワーカー数を設定(最小0が推奨:完全アイドル時の課金ゼロ)
  5. 「Idle Timeout」を5〜30秒に設定(短いほどコールドスタート頻度↑、保持コスト↓)
  6. 「Deploy」をクリックすると数分でデプロイ完了
  7. 発行されたEndpoint URLに対してOpenAI互換APIとして叩ける

クライアントからの呼び出し例

from openai import OpenAI

client = OpenAI(
    base_url="https://api.runpod.ai/v2/<endpoint-id>/openai/v1",
    api_key="<your-runpod-api-key>"
)

resp = client.chat.completions.create(
    model="meta-llama/Llama-3.3-70B-Instruct-AWQ-INT4",
    messages=[{"role": "user", "content": "RunPod Serverlessの利点を3つ"}],
)
print(resp.choices[0].message.content)

初回リクエスト時のコールドスタートは10〜30秒程度。常時呼ばれるエンドポイントは Min Workers=1 にしておくと、低レイテンシ重視の運用が可能(ただしアイドル時もGPU時間料金が発生)。

応用・カスタマイズ

カスタム Docker イメージで自前環境を再現

テンプレートに無い環境を使う場合、自前のDocker imageをDocker Hub または GitHub Container Registry にプッシュしてRunPodから呼べます。

FROM nvidia/cuda:12.4.1-devel-ubuntu22.04

RUN apt-get update && apt-get install -y python3.11 python3-pip git openssh-server
RUN pip install torch transformers accelerate bitsandbytes vllm==0.22.1

WORKDIR /workspace
EXPOSE 22 8000
CMD ["bash"]
docker build -t yourname/llm-base:latest .
docker push yourname/llm-base:latest

# Pod 作成時に Image Name に yourname/llm-base:latest を指定

S3 互換 API でモデルファイルを事前配置

Pod起動なしでNetwork Volumeにファイルを置けます。学習データやチェックポイントを事前にアップロードしておくと、Pod起動から1分以内に学習開始できます。

# AWS CLI を RunPod の S3 エンドポイント向けに設定
aws configure set aws_access_key_id YOUR_RUNPOD_S3_KEY
aws configure set aws_secret_access_key YOUR_RUNPOD_S3_SECRET

# ファイルアップロード(US-KS-2 リージョンの例)
aws s3 cp ./large_dataset.tar.gz \
  s3://<volume-id>/dataset/ \
  --endpoint-url https://s3api-us-ks-2.runpod.io

# Pod 内では /workspace/dataset/ として参照可能

マルチノードクラスタ(Instant Clusters)で70B以上の学習

2026年に強化された Instant Clusters では、複数Pod間でSlurm/PyTorch Distributed連携が事前構成されており、H100 SXM x8 を複数ノード束ねた学習が数クリックで開始できます。70B以上のフルファインチューニングや、235Bクラスの DeepSpeed Zero-3 学習でも実用域に入りました。

runpodctl hub で人気テンプレートを即デプロイ

# 利用可能なテンプレートを検索
runpodctl hub list

# 検索(例: ComfyUI関連)
runpodctl hub search comfyui

# テンプレートをデプロイ
runpodctl hub deploy <template-id> --gpu "NVIDIA GeForce RTX 5090"

パフォーマンス最適化

1:適切な量子化を選ぶ

70BモデルをFP16で動かすには140GB必要ですが、量子化すれば大幅に節約できます。RunPodで借りるGPUのVRAMに合わせて選定します。

量子化70BモデルのVRAM要求品質劣化推奨GPU
FP16約140GBなしH100 SXM x2 / B200
FP8約75GBほぼなしH100 PCIe(80GB)
INT4(AWQ/GPTQ)約42GB軽微A100 80GB / H100 PCIe
Q4_K_M(GGUF)約42GB(+kv cache)軽微A100 80GB(Ollama使用時)
Q3_K_M約34GB顕著L40S(48GB)

2:vLLM の --gpu-memory-utilization を調整

デフォルトは0.9ですが、長文コンテキスト(max_model_len 16384〜)を扱うなら0.95、安定重視なら0.85に設定。OOMが頻発するなら--max-model-lenを縮めるのが先決です。

3:Container Disk より Network Volume を優先

Container Diskは$0.10/GB/月でPod停止時にデータ消失。Network Volumeは$0.05〜$0.07/GB/月で永続化。70Bモデル(42GB)を毎回Container DiskでダウンロードするとPod起動の度に5〜10分の無駄が発生します。Network Volumeに置けば、Pod再起動後すぐ使えます。

4:Community Cloud との使い分け

長時間のファインチューニングはSecure Cloud(落ちにくい)、5〜30分の単発推論実験はCommunity Cloud(安い)と使い分けます。CommunityでもRTX 4090系は$0.35/hr前後で借りられ、Secureより30〜40%安いケースもあります。

5:スポット(Interruptible)の活用

「Deploy Spot」を選ぶと、料金が約50%になりますが、優先度の高いオンデマンドユーザーに横取りされる可能性があります。チェックポイントを5〜10分毎に書き出す前提なら、学習用途で大きな節約になります。

6:自動停止スクリプトでアイドル課金を防ぐ

# Pod内 cron で5分間アイドルなら自動停止
*/5 * * * * test "$(nvidia-smi --query-gpu=utilization.gpu --format=csv,noheader,nounits)" -lt 10 && runpodctl stop pod $RUNPOD_POD_ID

よくあるエラーとトラブルシューティング

エラー1:「No GPUs available」

原因:希望GPUの在庫切れ(特に H100 SXM、B200、RTX 5090 はピーク時間帯に枯渇)
対処

  • 別リージョン(US-CA、EU-CZ など)を選択する
  • Community Cloud に切り替える
  • 1つ下のグレード(H100 SXM → H100 PCIe)に妥協する
  • Web UI 上で在庫を3〜5分おきに確認するか、Discord の通知Botを設定する

エラー2:SSH 接続が拒否される(Permission denied)

原因:「Settings」→「SSH Public Keys」に公開鍵を登録していない、または公開鍵登録前に起動したPodに鍵が注入されていない
対処

  1. 公開鍵を Settings に登録
  2. 既存Podは再起動するか、Web UI上の Web Terminal で echo "ssh-ed25519 AAAA..." >> ~/.ssh/authorized_keys を手動実行

エラー3:「CUDA out of memory」(推論中)

原因:モデルサイズ+kvキャッシュがVRAM超過。特に長文コンテキスト(10k tokens以上)で頻発
対処

  • 量子化レベルを下げる(FP16 → INT4)
  • vLLM の --max-model-len を4096〜8192に制限
  • --gpu-memory-utilization 0.85 に下げる
  • より大きなVRAMのGPUに乗り換え(A100 80GB → H100 PCIe → H100 SXM)

エラー4:Network Volume が見えない(/workspace が空)

原因:Pod作成時にVolume Diskを設定し忘れた、または異なるリージョンのVolumeを指定した
対処

  • Pod作成時に Volume を必ず指定する(既存Volumeから選択 or 新規作成)
  • Network Volume はリージョン固定。Pod のリージョンと一致させる
  • df -h /workspace で容量確認、500GB割り当てたVolumeが正しくマウントされているか検証

エラー5:HTTP プロキシ URL(proxy.runpod.net)にアクセスできない

原因:公開ポートを設定していない、またはコンテナ内サービスが0.0.0.0ではなく127.0.0.1にバインドしている
対処

  • Pod 作成時に Expose HTTP/TCP Ports に該当ポートを追加
  • サーバプロセスを--host 0.0.0.0で起動
  • ファイアウォール(ufw、iptables)が有効ならポート許可

エラー6:Serverless のコールドスタートが遅すぎる

原因:Min Workers=0 のためゼロからの起動。モデルが大きいと20〜40秒かかる
対処

  • レイテンシ重視なら Min Workers=1 にして常時保持(コストは増える)
  • Network Volume にモデルキャッシュを置いてダウンロード時間短縮
  • Idle Timeout を 60〜120秒に延長して、頻繁なリクエストでコールド回数を減らす
  • 軽量モデル(7〜13B)で動的アロケーションする設計に変更

エラー7:クレジット残高不足で Pod が強制終了

原因:プリペイド式なので残高が0になると稼働中のPodが停止する
対処

  • Settings → Billing で Auto-Reload を有効化(指定残高を下回ったら自動チャージ)
  • 大きな学習を回す前に十分な残高を確保
  • 使用予測アラート(残高$5以下でメール通知など)を設定

おすすめの組み合わせ・連携

ローカル + RunPod のハイブリッド構成

本ブログ読者の多くはローカルPCを持っているはず。RunPodを「補完」として使うのが最強です。

  • ローカル(RTX 4090 / 5090):日常使い、7〜34Bモデル、頻繁な実験、IDE統合
  • RunPod Pods:70B以上の検証、ComfyUIで重い動画生成、ファインチューニング
  • RunPod Serverless:自社プロダクトの本番LLM API(最大ユーザー数読めない時)

Open WebUI を経由した統一インターフェース

ローカル Ollama と RunPod 上の vLLM を、Open WebUI から統一的に呼べます。ローカルでは7Bを、重い質問だけ「70Bモデル」を選択するとRunPodが呼ばれる、という運用が可能です。

# Open WebUI の docker-compose.yml に複数モデル接続を定義
services:
  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    environment:
      - OLLAMA_BASE_URL=http://host.docker.internal:11434
      - OPENAI_API_BASE_URLS=https://abc123-8000.proxy.runpod.net/v1
      - OPENAI_API_KEYS=dummy
    ports:
      - "3000:8080"

LangChain / LlamaIndex から RunPod Serverless を直叩き

OpenAI互換エンドポイントなので、LangChain・LlamaIndexの既存コードがそのまま動きます。

from langchain_openai import ChatOpenAI

llm = ChatOpenAI(
    base_url="https://api.runpod.ai/v2/<endpoint-id>/openai/v1",
    api_key="<your-runpod-api-key>",
    model="meta-llama/Llama-3.3-70B-Instruct-AWQ-INT4",
)
print(llm.invoke("RAGの基本原理を100字で").content)

Cursor / Cline / Continue(VSCode拡張)から自社モデルを呼ぶ

RunPod Serverlessで立てたOpenAI互換APIを、Cursor の Custom Provider や Cline の API URL に登録すれば、コードエディタからClaude/GPT代替として自社モデルを使えます。プライバシーが重要な企業環境で特に有効です。

推奨PCスペック(クライアント側)

RunPodは計算をクラウドに丸投げするので、クライアントPCの要件はWeb開発と同程度で十分です。とはいえ、ローカル併用やSSH/Jupyter作業の快適さを考えると、以下が目安です。

入門(クラウドのみ・たまに使う)

項目推奨スペック
OSWindows 11 / macOS 14 / Ubuntu 22.04
CPUIntel Core i5 / AMD Ryzen 5 以上
GPU不要(内蔵GPUで可)
メモリ16GB
ストレージ512GB NVMe SSD
ネットワーク下り50Mbps以上

標準(ローカルとハイブリッド運用)

項目推奨スペック
OSWindows 11 / Ubuntu 22.04
CPUIntel Core i7-14700K / AMD Ryzen 7 7700X 以上
GPURTX 4070 Ti SUPER(16GB)/ RTX 5070 Ti
メモリ32GB DDR5 5600以上
ストレージ2TB NVMe SSD(モデル一時保存用)
ネットワーク下り100Mbps以上、SSH UDP通信が許可されること

ハイエンド(ローカル中心+RunPodは70B検証用)

項目推奨スペック
OSUbuntu 24.04 / Windows 11 Pro
CPUIntel Core i9-14900K / AMD Ryzen 9 7950X3D 以上
GPURTX 5090(32GB)または RTX 4090(24GB)
メモリ64GB DDR5 5600以上
ストレージ2TB NVMe SSD + 4TB データ用 SSD
ネットワーク下り1Gbps、有線LAN推奨

ローカルPC運用とのコスト分岐点(最重要:いつクラウドが得か)

「クラウドGPUとローカルPC、結局どっちが得?」という問いに、2026年6月時点の具体的な数字で答えます。

前提条件

  • ローカル:RTX 4090搭載自作PC(GPU実勢25万円、本体30万円、合計55万円、3年使用)
  • 電気代:稼働中400W、月100時間稼働で約1,200円(東京電力標準単価30円/kWh)
  • RunPod:RTX 4090 Secure Cloud $0.69/hr
  • 為替:1USD=158円(2026年6月時点)

月間使用時間別コスト試算

月間使用時間ローカル(PC減価償却+電気)RunPod RTX 4090(オンデマンド)RunPod RTX 4090(スポット)得な方
10時間約15,400円約1,090円約550円RunPod圧勝
50時間約15,700円約5,460円約2,730円RunPod圧勝
100時間約16,500円約10,910円約5,460円RunPod有利
200時間約17,800円約21,810円約10,910円ローカル微有利(オンデマンド比)
300時間約19,100円約32,720円約16,360円ローカル有利
500時間(24h×21日)約21,700円約54,530円約27,270円ローカル圧勝

結論:使い分けの黄金律

  • 月100時間未満:迷わずRunPod。初期投資55万円が回収できる前にPCが陳腐化する
  • 月100〜200時間:用途次第。70B以上を扱うならRunPod。7〜34Bならローカル
  • 月200時間以上:ローカル優位。ただし重い動画生成や70B以上はRunPodに逃がす
  • 常時稼働(500時間/月以上):ローカル一択。クラウドだと月5万円超え

ローカル運用は「初期投資が大きい代わりに、限界費用が電気代だけ」というモデル。RunPodは「初期投資ゼロ、使った分だけ支払い」というモデル。「常時稼働するワークロードはローカル、瞬間的に巨大GPUが必要な時だけクラウド」が、2026年時点での最適解です。

セキュリティ・プライバシー上の注意

機密データの取り扱い

  • Community Cloudは第三者ホストで稼働。社外秘データや個人情報は Secure Cloud 限定で利用すること
  • Network Volume は Pod 削除後も残る。完全消去するには Volume 自体を削除する
  • SSH キーは ed25519 など強力なアルゴリズムを使い、パスフレーズを設定する
  • APIキーは Read-only / Restricted で発行できる場合は権限を絞る

支払いリスク

  • クレジットカードの限度額超過に注意。月間予算上限を設定(Billing→Spend Limit)
  • 意図せず Pod が起動しっぱなしになるリスク。「Idle GPU Stop」「Auto-Terminate」を必ず設定

まとめ:RunPodは誰に向いているか

RunPodを使うべき人

  • ローカルPC(RTX 4090/5090)を持っているが、70B以上のモデルを試したい人
  • ComfyUIで重い動画生成(Wan、HunyuanVideo)を高速に試したいクリエイター
  • 自社サービスのLLM推論バックエンドをコスト最適化したい開発者・スタートアップ
  • ファインチューニングを月に数回しか回さないML エンジニア
  • 「PC買い替えに50万円」を投じる前に、本当に必要な性能を見極めたい人

RunPodを使わない方がいい人

  • 常時24時間LLMサーバを動かし続けたい人(→ローカルで自作)
  • 厳しいデータ越境規制下にある企業(→国内クラウドかオンプレ)
  • 無料で試したいだけの人(→ Google Colab 無料枠)
  • 1〜2時間で完結する一回限りの実験(→ Vast.ai の方が安い場合あり)

今後の展望

RunPodは2026年に入って、Blackwell世代GPUの大量導入、Serverlessの強化、S3互換API、Global Networkingといった重要機能を立て続けにリリースしています。公式ロードマップ上では「Multi-region Serverless replication」「On-prem cluster federation」など、エンタープライズ向け機能の拡張が予告されています。一方、Vast.ai は引き続き「最安マーケットプレイス」のポジションを維持し、Lambda Labsは大規模クラスタ市場を狙う、という棲み分けが進行中です。

ローカルLLMコミュニティにとって、「70Bを月数回だけ試したい」というニッチが、RunPodによって初めて健全なコスト感覚で満たされるようになりました。本ブログでも、ローカルでは扱いきれない巨大モデルのベンチマーク記事は今後すべてRunPod上で実施する予定です。本記事を起点に、自身の用途に合わせた最適なGPUインフラ構成を見つけてください。

参考リンク:RunPod 公式サイト / 公式ドキュメント / runpodctl GitHub / 最新料金ページ

📦 この記事で紹介した商品

※ 上記リンクはAmazonアソシエイトリンクです。購入いただくと当サイトに紹介料が入ります。

タイトルとURLをコピーしました