LM Studio導入完全ガイド｜日本語化・OpenAI互換APIサーバー設定まで（v0.4.12対応）

ローカルLLMをGUIで手軽に動かしたい、しかし複雑なコマンド操作は避けたい――そんな読者にもっとも近道となるのがLM Studioです。本記事では、2026年4月17日リリースの最新版v0.4.12を前提に、Windows・macOS・Linux別の導入から、日本語UI設定、OpenAI互換APIサーバーとして使う応用、そして同年2月に登場したLM Link（リモート接続機能）の活用までを、初めて触る人でも迷わないレベルで網羅します。読了後にはあなたのPCがそのままプライベートなChatGPTサーバーに変貌します。

ここで扱う情報はすべて2026年5月時点の公式ドキュメント・公式リポジトリ・公式チェンジログを一次ソースとして検証済みです。古い記事に多い「メジャー番号間違い」や「廃止コマンドの紹介」は一切含みません。

LM Studio CLI（lms）公式ロゴ — LM Studioのコマンドラインツール「lms」公式ロゴ（出典: lmstudio-ai/lms / MITライセンス）

LM Studioとは何か
1. 主要スペック
2. このツールが解決する問題
2026年最新リリース情報（直近6ヶ月のアップデート）
1. 注目すべき新機能
他ツールとの比較
1. どれを選ぶべきか
メリットとデメリット
1. メリット
2. デメリット
動作要件
インストール手順
初期設定
基本的な使い方
実践的な使い方
応用とカスタマイズ
パフォーマンス最適化
よくあるエラーとトラブルシューティング
おすすめの組み合わせと連携
用途別推奨PCスペック
まとめ
📦 この記事で紹介した商品

LM Studioとは何か

LM Studioは、Element Labs社（米サンフランシスコ）が開発する、ローカルでLLM（大規模言語モデル）を動かすためのデスクトップアプリケーションです。GGUF形式とMLX形式のモデルをワンクリックでダウンロード・実行でき、チャット画面からそのまま使い始められます。さらにOpenAI互換のローカルAPIサーバーとして起動できるため、自前のアプリやエージェントから呼び出すことも可能です。

主要スペック

最新バージョン: v0.4.12（2026年4月17日リリース）
対応OS: Windows 10/11（x64・ARM64）、macOS 13.4以降（Apple Silicon／Intel）、Linux x64
推論バックエンド: llama.cpp、MLX（Apple Silicon専用）、ONNX Runtime
対応モデル: Llama 3／Llama 4、Qwen 3.5／3.6、Gemma 4、DeepSeek-R1、Phi-4、Mistral、Mixtral ほかHugging Face上のGGUFモデル全般
ライセンス: 本体は独自ライセンス、SDK（lmstudio.js／lmstudio-python／lms CLI）はMITライセンス
商用利用: 個人利用は無料。商用はWork用ライセンスを申請
初回リリース: 2023年6月

このツールが解決する問題

従来、ローカルLLMを動かすにはllama.cppをビルドし、モデルをHugging FaceからGGUF形式で落とし、コマンドラインで起動するというハードルがありました。LM Studioはこれを「アプリを開く → モデルを検索 → ダウンロード → チャット開始」の4クリックに圧縮し、APIサーバーまで標準装備にしてあります。プログラマでなくても、社内の機密文書を扱いたい弁護士・医師・研究者がプライベート環境でAIを使うための事実上の標準ツールに育っています。

2026年最新リリース情報（直近6ヶ月のアップデート）

LM Studioは公式チェンジログで頻繁に更新されています。直近6ヶ月の主要アップデートを時系列でまとめます。

バージョン	リリース日	主な変更点
0.4.12	2026年4月17日	Qwen 3.6対応、PDFエクスポートの装飾改善、MCP OAuth on Windowsバグ修正、Qwen 3.5のOpenAI／Anthropic互換APIパフォーマンス改善
0.4.11	2026年4月10日	Gemma 4チャットテンプレートのアップデート
0.4.10	2026年4月9日	Gemma 4ツール呼び出しの安定性向上、MCPサーバー向けOAuth対応
0.4.9	2026年4月2日	Anthropic APIのeffortレベル互換、チャットフォルダ削除時のUIフリーズ修正
0.4.8	2026年3月26日	OpenAI互換エンドポイントへのreasoningフィールド追加、CUDA VRAM解放問題修正
0.4.7	2026年3月18日	LM Linkリモート接続機能の正式リリース、数式マークダウン描画修正
0.4.6	2026年2月27日	LM Link（Tailscale連携の暗号化リモート接続）を導入

注目すべき新機能

LM Linkは2026年に追加された目玉機能です。Tailsacleと共同で実装されたエンドツーエンド暗号化のトンネルを使い、自宅のデスクトップに乗せたLM Studioを外出先のノートPCから「あたかもローカルにあるかのように」呼び出せます。リモートデスクトップを開く必要がありません。詳細は公式ブログのLM Link発表記事を参照してください。

MCP（Model Context Protocol）対応も2026年に強化されました。OAuth付きのMCPサーバーをLM Studioから呼び出せるため、Notion・Slack・GitHubなど認証が必要な外部サービスとローカルLLMを安全に連携できます。

OpenAI互換のreasoningフィールドが0.4.8で追加され、DeepSeek-R1やQwen 3.5の思考プロセスをAPI経由で取り出せるようになりました。エージェント開発で「なぜその結論に至ったか」をログに残したい場合に有用です。

他ツールとの比較

同種のローカルLLMツールは複数あります。バージョン情報は2026年5月2日時点の公式リポジトリで確認した値です。

項目	LM Studio	Ollama	Jan	text-generation-webui	llama.cpp
バージョン	v0.4.12（2026/4/17）	v0.22.1（2026/4/28）	v0.7.6（2026/1/27）	v4.6.2（2026/4/23）	b9002（2026/5/2）
UI形式	デスクトップGUI	CLI＋デスクトップアプリ	デスクトップGUI	WebUI（Gradio）	CLIのみ
モデル形式	GGUF・MLX	GGUF（独自レジストリ）	GGUF・MLX	GGUF・GPTQ・AWQ・ExLlama	GGUF
OpenAI互換API	標準搭載	標準搭載	標準搭載	拡張で対応	llama-server同梱
MLX対応	あり（Apple Silicon）	あり（v0.21.1〜）	あり	なし	なし
セットアップ難易度	低（GUIインストーラ）	低	低	中（依存関係多い）	高（要ビルド）
カスタマイズ性	標準	標準	拡張機能で拡張可	非常に高い	最も高い
ライセンス	独自（個人無料）	MIT	MIT	AGPL-3.0	MIT
商用利用	Workライセンス必要	無料	無料	AGPL条件あり	無料

どれを選ぶべきか

とにかく早く動かしたい人／非エンジニア: LM Studio。インストーラを実行してモデルを検索するだけで使い始められる
サーバー運用・スクリプト化したい人: Ollama。CLIファーストで`ollama pull`／`ollama run`が直感的
完全オープンソースにこだわる人: Jan。MITライセンスで本体含めて自由に改変可能
量子化を細かく調整したい上級者: text-generation-webui。GPTQ・AWQ・ExLlamaまで対応
最低レイヤーで触りたい開発者: llama.cpp。バックエンドそのもの

メリットとデメリット

メリット

GUIインストーラで導入が完結する（プログラミング知識不要）
モデル検索画面からHugging Faceのモデルを直接ダウンロードできる
OpenAI互換APIサーバーをワンクリックで起動できる（ポート1234）
Apple SiliconネイティブのMLXバックエンドで高速推論
RAG（社内文書チャット）機能を内蔵
2026年に追加されたLM Linkでリモート利用が可能
MCPサーバー連携でNotion・Slack・GitHub等と接続できる
VRAMが小さいGPUでも動作する量子化モデルを推奨表示してくれる

デメリット

本体はオープンソースではない（個人利用は無料、商用はライセンス申請が必要）
Linux版はAppImageのみで、ディストリ標準パッケージではない
WindowsのARM64版はQualcomm Snapdragon Xシリーズ向けで対応モデルが限定的
大規模モデル（70B以上）を扱うとUIがやや重くなる場合がある
商用利用を始めるにはWork用ライセンスの申請が必要

動作要件

項目	最小	推奨	ハイエンド
OS	Windows 10 / macOS 13.4 / Ubuntu 20.04（AppImage）	Windows 11 / macOS 14 / Ubuntu 22.04	Windows 11 / macOS 15
CPU	AVX2対応のIntel/AMD x64	第10世代Intel Core i5 / Ryzen 5 5000以降	第13世代Intel Core i7 / Ryzen 9 7900以降
GPU（NVIDIA）	不要（CPU推論可能）	RTX 3060 12GB	RTX 5090 32GB
GPU（Apple）	M1 8GB	M2 Pro 16GB	M3 Max 64GB
RAM	16GB	32GB	64GB以上
ディスク	10GB（小型モデル数本）	500GB SSD	2TB NVMe SSD以上

VRAMの目安として、7Bモデル（Llama 3.1 8B等）はQ4量子化で約5GB、14Bモデルは約9GB、70Bモデルは40GB前後を要します。VRAMが不足すると自動でCPUオフロードされますが、推論速度は10分の1以下に落ちるため、ターゲットモデルのサイズに合わせてGPUを選定してください。

インストール手順

Windows版のインストール

Windows 10／11のx64環境を例に手順を示します。

LM Studio公式サイトにアクセスする
トップページの「Download for Windows 0.4.12」ボタンをクリック
ダウンロードしたLM-Studio-0.4.12-x64.exeを実行
インストーラの指示に従う（既定インストール先は%LOCALAPPDATA%\Programs\LM Studio\）
インストール完了後、スタートメニューから「LM Studio」を起動

初回起動時に「Get your first LLM」のオンボーディングが表示されます。後述の初期設定セクションへ進んでください。

PowerShellでサイレントインストールしたい場合は次のコマンドが利用できます。

# 公式インストーラを取得して実行
$url = "https://installers.lmstudio.ai/win32/x64/0.4.12/LM-Studio-0.4.12-x64.exe"
$installer = "$env:TEMP\LM-Studio-0.4.12-x64.exe"
Invoke-WebRequest -Uri $url -OutFile $installer
Start-Process -FilePath $installer -ArgumentList "/S" -Wait
Remove-Item $installer

macOS版のインストール

Apple Silicon（M1／M2／M3／M4）を強く推奨します。MLXバックエンドが使えるため、Intel Macに比べ2〜3倍高速です。

公式サイトから「Download for Mac」をクリック
LM-Studio-0.4.12-arm64.dmgを開く
表示されたウィンドウでLM StudioアイコンをApplicationsフォルダにドラッグ
Launchpadから「LM Studio」を起動。初回起動時にGatekeeperで「開く」を選択

Homebrew経由でも導入できます。

brew install --cask lm-studio

Linux版のインストール

LinuxではAppImageのみが提供されます。Ubuntu 22.04／24.04を例に示します。

# AppImageをダウンロード（バージョンは公式サイトで最新を確認）
wget https://installers.lmstudio.ai/linux/x64/0.4.12/LM_Studio-0.4.12.AppImage -O ~/LMStudio.AppImage

# 実行権限を付与
chmod +x ~/LMStudio.AppImage

# 起動
~/LMStudio.AppImage

FUSEがインストールされていないと起動できません。Ubuntu 22.04以降では次のコマンドで導入します。

sudo apt update
sudo apt install -y libfuse2t64

古いUbuntu 20.04ではlibfuse2を、Fedoraではfuse-libsを導入してください。

CLIツール（lms）の導入

GUIだけでなくコマンドラインから操作したい場合、lms CLIを有効化します。

# LM Studioを少なくとも1回起動した後で実行
# Windows
& "$env:LOCALAPPDATA\Programs\LM Studio\resources\app\.webpack\main\bin\lms.exe" bootstrap

# macOS / Linux
~/.lmstudio/bin/lms bootstrap

# 動作確認
lms version
# → lms-cli 0.0.x (LM Studio CLI)

bootstrap後はターミナルからlmsコマンドが使えます。lms lsで導入済みモデル一覧、lms server startでローカルAPIサーバーを起動できます。

初期設定

初回起動とオンボーディング

初回起動すると「Get your first LLM」画面が表示されます。2026年現在の推奨モデルは以下のとおりです。

VRAM 8GB以下: Llama 3.2 3B Instruct（Q4_K_M、約2GB）
VRAM 12GB: Qwen 3.5 7B Instruct（Q4_K_M、約4.5GB）
VRAM 16GB以上: Llama 3.1 8B Instruct（Q5_K_M、約5.7GB）
VRAM 24GB以上: Qwen 3.6 14B Instruct（Q4_K_M、約9GB）
VRAM 32GB以上: Qwen 3.6 32B Instruct（Q4_K_M、約19GB）

推奨モデルを選んで「Download」をクリックすれば、自動でHugging Faceから取得されます。

日本語UI設定

LM Studioのバージョン0.4系では日本語UIが追加されています。設定方法は次のとおりです。

左サイドバー下部の歯車アイコン（Settings）をクリック
「General」タブの「Language」を「日本語（Japanese）」に変更
アプリを再起動

翻訳のカバレッジは画面によって差があるため、専門用語が残ることがあります。完全な日本語化を期待する場合は、英語UIで使ったほうが情報も多く実用的です。

モデル保存先の変更

既定ではモデルが~/.lmstudio/models/に保存されます。Cドライブの空き容量が乏しい場合は別ドライブに変更してください。

Settings → 「My Models」タブ
「Models Directory」の右にあるフォルダアイコンをクリック
外付けSSDなど任意のフォルダを指定（例: D:\LMStudioModels）
既存モデルがあれば移行確認のダイアログが表示される

GPU設定の確認

Settings → 「Hardware」で、認識されたGPUとVRAMが表示されます。NVIDIA環境でCUDAが認識されていない場合は、CUDA Toolkit 13.0以降とNVIDIA最新ドライバを導入してから再起動してください。

基本的な使い方

チャットで対話する

左サイドバーの吹き出しアイコン「Chat」を開きます。

画面上部の「Select a model to load」をクリック
ダウンロード済みモデルから1つ選択
右ペインで「GPU Offload」スライダを最大にする（VRAMに収まる範囲で全レイヤーをGPUに載せる）
「Load Model」を押下し、ロード完了を待つ（5〜30秒）
下部の入力欄にプロンプトを入れて送信

モデルロード時に「Insufficient VRAM」と警告が出た場合、GPU Offloadを下げて部分的にCPUで処理させます。

モデルを検索・追加でダウンロードする

左サイドバーの虫眼鏡アイコン「Discover」を開きます。検索窓に「qwen3」「llama4」のようにキーワードを入れると、Hugging Face上のGGUF／MLXモデルが一覧されます。

各モデルカードには量子化バリアント（Q3_K_M、Q4_K_M、Q5_K_M、Q6_K、Q8_0等）と必要VRAMが表示されます。LM Studioが「Full GPU Offload Possible」と判定したものを選ぶと安全です。

チャット履歴の管理

すべてのチャットは~/.lmstudio/conversations/にJSON形式で保存されます。サイドバーで右クリックすると「Rename」「Duplicate」「Move to folder」「Export to Markdown / PDF」「Delete」のメニューが利用できます。0.4.12でPDFエクスポートのスタイルが大幅に改善されました。

実践的な使い方

ユースケース1: ローカルAPIサーバーとして他アプリから利用する

LM StudioはOpenAI互換のREST APIサーバーとして動作します。社内システムやIDE拡張からChatGPT API互換コードでローカルLLMを呼び出せます。

左サイドバーの「Developer」（</> アイコン）をクリック
上部の「Status: Stopped」を「Status: Running」に切り替える（既定ポート1234）
「Settings」でJust-in-Time Loading・CORS・Verbose Loggingを必要に応じて有効化
下部のログにリクエストが流れることを確認

Pythonクライアントから呼び出す例:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="lm-studio"  # ダミーで何でも良い
)

resp = client.chat.completions.create(
    model="qwen3.5-7b-instruct",  # ロード中のモデルID
    messages=[
        {"role": "system", "content": "あなたは丁寧なアシスタントです"},
        {"role": "user", "content": "ローカルLLMを使うメリットを3つ挙げて"}
    ],
    temperature=0.7,
    max_tokens=512,
)
print(resp.choices[0].message.content)

curlでの動作確認:

curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.5-7b-instruct",
    "messages": [{"role": "user", "content": "Hello"}],
    "temperature": 0.7
  }'

0.4.8以降ではreasoningフィールドがレスポンスに追加され、思考型モデルの内部推論を取り出せます。

{
  "choices": [{
    "message": {
      "role": "assistant",
      "content": "結論はXです",
      "reasoning": "まずAについて検討し、次にBを比較した結果……"
    }
  }]
}

ユースケース2: ローカルRAGで社内文書とチャットする

LM Studioのチャット画面ではPDF・Markdown・テキストファイルを添付するだけでRAG（Retrieval-Augmented Generation）が走ります。社内マニュアルや論文をクラウドに送らずに要約・質問応答できます。

Chat画面でモデルをロード
入力欄左のクリップアイコンからPDFを添付
添付されたファイルから関連箇所が自動でコンテキストに組み込まれる
「この文書の3章で述べている結論を要約して」のように質問

埋め込み（embedding）モデルとしてnomic-embed-text-v1.5が既定で使われます。Embedding専用エンドポイント/v1/embeddingsも提供されているため、自作のRAGアプリの埋め込み計算にも転用できます。

resp = client.embeddings.create(
    model="nomic-embed-text-v1.5",
    input=["これはテスト文章です"]
)
print(len(resp.data[0].embedding))  # → 768

ユースケース3: VSCode拡張やContinueから呼び出す

VSCodeのContinue拡張から、ローカルLLMをコーディングアシスタントとして利用できます。~/.continue/config.jsonに次を追加します。

{
  "models": [
    {
      "title": "LM Studio - Qwen3.5 7B",
      "provider": "lmstudio",
      "model": "qwen3.5-7b-instruct",
      "apiBase": "http://localhost:1234/v1"
    }
  ]
}

これでChatGPT Plusに月額3,000円払わずとも、自前のローカル環境でコード補完・リファクタ提案を受けられます。

応用とカスタマイズ

LM Linkで遠隔のLM Studioに接続する（2026年新機能）

v0.4.6で追加されたLM Linkを使うと、自宅のデスクトップに置いたLM Studioを外出先のノートPCから利用できます。Tailscaleと共同設計されたエンドツーエンド暗号化のトンネルを使用します。

サーバー側（自宅PC）のLM Studioで Settings → 「LM Link」を開く
「Enable LM Link」をオン、「Generate Pairing Code」をクリック
クライアント側（外出先のPC）のLM Studioを起動し、Settings → 「LM Link」 → 「Connect to a remote instance」
表示されたペアリングコードを入力
接続後はモデル一覧にリモート機のモデルが表示され、ローカルと同じ感覚で使える

ペアリング情報はTailscaleのコントロールプレーン経由で交換され、推論データはクライアントとサーバーの間だけで暗号化通信されます。詳細仕様は公式ブログのLM Link発表記事を参照してください。

MCPサーバーを接続する（2026年新機能）

Model Context Protocol（MCP）対応により、Notion・Slack・GitHubなど外部サービスをLLMの「ツール」として呼び出せます。0.4.10でOAuth認証も対応しました。

Settings → 「Integrations」 → 「MCP Servers」
「Add Server」を選択し、stdioコマンドかURLを指定
OAuthが必要なサーバーは認証フローが起動
Chat画面でモデルがツールを自動選択して呼び出す

例: GitHubのIssueを検索してREADMEを更新するワークフローを、ローカルのQwen 3.6 32Bが自律的に実行できます。

カスタムプロンプトテンプレート

各モデルにはチャットテンプレートが組み込まれていますが、Settings → 「My Models」 → 該当モデルの設定からテンプレートをカスタマイズできます。Llama・ChatML・Alpaca・Vicunaなどのプリセットに加え、Jinja2構文で自作テンプレートを定義できます。

{% for message in messages %}
{% if message['role'] == 'system' %}
<|im_start|>system
{{ message['content'] }}<|im_end|>
{% elif message['role'] == 'user' %}
<|im_start|>user
{{ message['content'] }}<|im_end|>
{% elif message['role'] == 'assistant' %}
<|im_start|>assistant
{{ message['content'] }}<|im_end|>
{% endif %}
{% endfor %}
<|im_start|>assistant

lms CLIでヘッドレス運用

サーバー専用機でGUIを起動したくない場合、lms CLIでヘッドレス起動が可能です。

# モデル一覧
lms ls

# モデルをロード（GPU Offloadを32レイヤーに指定）
lms load qwen3.5-7b-instruct --gpu 32

# APIサーバーを起動（ポート1234、CORS有効）
lms server start --port 1234 --cors

# モデルをアンロード
lms unload qwen3.5-7b-instruct

# サーバー停止
lms server stop

Dockerfileから呼び出してCI環境でローカルLLMをテストするといった用途にも便利です。

パフォーマンス最適化

GPU Offload設定の最適化

モデルの全レイヤーをGPUに載せ切るのが最速ですが、VRAMが足りない場合はOffloadレイヤー数を調整します。経験則としてVRAMの80％を目安にすると、KVキャッシュ用の余白を確保できて安定します。

モデルサイズ	Q4量子化サイズ	推奨VRAM	全レイヤーGPU化の目安
3B	約2GB	4GB以上	RTX 3050以降
7B	約4.5GB	8GB以上	RTX 4060以降
14B	約9GB	12GB以上	RTX 4070 Ti SUPER以降
32B	約19GB	24GB以上	RTX 4090／RTX 5090
70B	約42GB	48GB以上	RTX 6000 Ada／A100

コンテキスト長の調整

長文を扱わない用途であれば、Settings → モデル設定の「Context Length」を4096〜8192トークンまで下げるとKVキャッシュが減りVRAMを節約できます。逆にRAGで長文書を扱う場合は32K〜128Kまで拡張します。Llama 3.1は128K、Qwen 3.6は1Mまで対応しています。

Flash Attention／MLXの有効化

Settings → モデル詳細で「Flash Attention」を有効にすると、Attention計算のメモリ使用量が3〜5割削減されます。Apple SiliconではMLXバックエンドに切り替えるとllama.cppバックエンドより1.5〜2倍高速になります。

並列リクエストとContinuous Batching

v0.4.0で導入された並列リクエスト機能を使うと、複数のクライアントから同時にリクエストを投げてもバッチ化して処理されます。Developer → Server Settingsで「Parallel Requests」を有効にしてください。エージェント開発で複数のサブエージェントが同時に問い合わせる場合にスループットが向上します。

よくあるエラーとトラブルシューティング

エラー1: “Failed to load model: insufficient VRAM”

VRAMが不足しています。次のいずれかで対処します。

GPU Offloadスライダを下げて部分的にCPUに載せる
より小さい量子化バリアント（Q4_K_S → Q3_K_M）に変更する
Context Lengthを短くしてKVキャッシュを削減する
他のGPUプロセス（ブラウザのハードウェアアクセラレーション、ゲーム等）を終了する

エラー2: “CUDA error: out of memory” でアプリが落ちる

0.4.8で「CUDA VRAM deallocation」のバグが修正されているため、古いバージョンを使っている場合はまずアップデートしてください。それでも発生する場合はNVIDIAドライバを最新（CUDA 13対応版）にし、Windowsの場合はTDR（Timeout Detection and Recovery）をレジストリで延長します。

エラー3: macOSで「LM Studio.app は壊れているため開けません」

Gatekeeperによる隔離属性が原因です。ターミナルで属性を解除します。

xattr -d com.apple.quarantine /Applications/LM\ Studio.app

エラー4: Linux AppImageが起動しない（FUSEエラー）

FUSEがインストールされていません。Ubuntu 24.04以降はlibfuse2t64、Ubuntu 22.04以前はlibfuse2を導入します。

sudo apt install -y libfuse2t64
# または
sudo apt install -y libfuse2

エラー5: APIサーバーに外部から接続できない

既定では127.0.0.1:1234でのみリッスンします。LAN内の他端末から接続するには、Developer → Server Settings → 「Serve on Local Network」を有効にしてください。ポートは1234のままで、URLがhttp://[マシンのIP]:1234に変わります。ファイアウォールの例外設定も忘れずに。

エラー6: MCPサーバーのOAuth認証がWindowsで失敗する

0.4.12で修正済みのバグです。0.4.11以前を使っている場合はアップデートしてください。アップデート後もエラーが続く場合は、ブラウザでOAuth認証画面が開かれるかを確認し、開かれなければ既定ブラウザ設定を見直します。

エラー7: モデル検索でHugging Faceから404が返る

Hugging FaceがレートリミットしているかVPN経由で接続できていない可能性があります。Settings → 「Network」でHTTPプロキシを設定するか、しばらく待ってから再試行してください。

用途別推奨PCスペック

入門（軽量モデル中心、3B〜7B）

パーツ	推奨	備考
CPU	Intel Core i5-14400 / Ryzen 5 8600G	AVX2必須
GPU	RTX 4060 8GB	7BモデルがフルGPUで動く下限
メモリ	32GB DDR5	RAM ≥ VRAM × 2 が安全
SSD	1TB NVMe SSD	モデル数本＋OS／アプリ
電源	650W 80+ Bronze	RTX 4060なら十分

標準（14B〜32Bを実用速度で）

パーツ	推奨	備考
CPU	Intel Core i7-14700 / Ryzen 7 8700G	マルチタスク余裕
GPU	RTX 4070 Ti SUPER 16GB	14BフルGPU可、32Bも一部GPU化で実用域
メモリ	32GB DDR5 5600	RAGで大量文書を扱うなら64GB
SSD	2TB NVMe SSD	モデル10〜20本ストック想定
電源	850W 80+ Gold	GPUの瞬間電力に余裕を持たせる

ハイエンド（70Bモデル、業務サーバー）

パーツ	推奨	備考
CPU	Intel Core i9-14900K / Ryzen 9 9950X	並列リクエストの前処理を支える
GPU	RTX 5090 32GB	32BをフルGPU、70BはCPUオフロード併用で実用
メモリ	64GB DDR5 6400	70Bを部分CPUで扱うなら必須
SSD	2TB NVMe SSD ＋ 4TB SATA SSD	NVMeにOS／アクティブモデル、SATAにアーカイブ
電源	1000W 80+ Platinum	RTX 5090のピーク電力に対応

Apple Silicon（プロフェッショナル）

Macで本気でローカルLLMを動かすなら、M3 Max 64GBまたはM4 Max 128GBのMacBook Pro／Mac Studioが最適です。ユニファイドメモリのおかげで、システムメモリのほぼすべてをVRAMとして使えるため、70BモデルがフルでGPU実行できます。NVIDIA GPUを別途用意するより合計コストが下がるケースもあります。

まとめ

LM Studio v0.4.12（2026年4月17日リリース）は、ローカルLLMをGUIで使い始める事実上の標準ツールです。Windows・Mac・Linux問わずインストーラ1本で動き、OpenAI互換APIサーバーを内蔵し、2026年に追加されたLM Linkで遠隔利用も可能、MCPで外部サービス連携もこなせる、いま最も完成度の高いローカルLLMフロントエンドの1つです。

本記事の手順をひととおりなぞれば、あなたの手元にプライベートなChatGPT環境が立ち上がります。月額のサブスクリプション料金を払わずに、機密文書を外部に送ることなくAIを活用できる時代が、すでに来ています。今後はLM Linkがさらに高度化し、家のデスクトップとMacBookの間でモデルを使い分けるハイブリッド運用が一般化していくと予想されます。公式チェンジログを月1回チェックする習慣をつけて、最新機能を取り逃さないようにしてください。

「とりあえず触る」段階から「本格運用」まで、本記事1本でカバーできるよう書きました。動かなかった箇所、本記事で扱っていない応用例があれば、コメント欄やお問い合わせから教えていただけると、随時アップデートしていきます。

📦 この記事で紹介した商品

NVIDIA GeForce RTX 4070 Ti SUPER → Amazonで見る
大規模言語モデル入門 → Amazonで見る
Apple MacBook Pro (M4 Pro) → Amazonで見る
GB DDR5メモリ → Amazonで見る
TB NVMe SSD → Amazonで見る

※ 上記リンクはAmazonアソシエイトリンクです。購入いただくと当サイトに紹介料が入ります。