ローカルLLMをGUIで手軽に動かしたい、しかし複雑なコマンド操作は避けたい――そんな読者にもっとも近道となるのがLM Studioです。本記事では、2026年4月17日リリースの最新版v0.4.12を前提に、Windows・macOS・Linux別の導入から、日本語UI設定、OpenAI互換APIサーバーとして使う応用、そして同年2月に登場したLM Link(リモート接続機能)の活用までを、初めて触る人でも迷わないレベルで網羅します。読了後にはあなたのPCがそのままプライベートなChatGPTサーバーに変貌します。
ここで扱う情報はすべて2026年5月時点の公式ドキュメント・公式リポジトリ・公式チェンジログを一次ソースとして検証済みです。古い記事に多い「メジャー番号間違い」や「廃止コマンドの紹介」は一切含みません。
LM Studioとは何か
LM Studioは、Element Labs社(米サンフランシスコ)が開発する、ローカルでLLM(大規模言語モデル)を動かすためのデスクトップアプリケーションです。GGUF形式とMLX形式のモデルをワンクリックでダウンロード・実行でき、チャット画面からそのまま使い始められます。さらにOpenAI互換のローカルAPIサーバーとして起動できるため、自前のアプリやエージェントから呼び出すことも可能です。
主要スペック
- 最新バージョン: v0.4.12(2026年4月17日リリース)
- 対応OS: Windows 10/11(x64・ARM64)、macOS 13.4以降(Apple Silicon/Intel)、Linux x64
- 推論バックエンド: llama.cpp、MLX(Apple Silicon専用)、ONNX Runtime
- 対応モデル: Llama 3/Llama 4、Qwen 3.5/3.6、Gemma 4、DeepSeek-R1、Phi-4、Mistral、Mixtral ほかHugging Face上のGGUFモデル全般
- ライセンス: 本体は独自ライセンス、SDK(lmstudio.js/lmstudio-python/lms CLI)はMITライセンス
- 商用利用: 個人利用は無料。商用はWork用ライセンスを申請
- 初回リリース: 2023年6月
このツールが解決する問題
従来、ローカルLLMを動かすにはllama.cppをビルドし、モデルをHugging FaceからGGUF形式で落とし、コマンドラインで起動するというハードルがありました。LM Studioはこれを「アプリを開く → モデルを検索 → ダウンロード → チャット開始」の4クリックに圧縮し、APIサーバーまで標準装備にしてあります。プログラマでなくても、社内の機密文書を扱いたい弁護士・医師・研究者がプライベート環境でAIを使うための事実上の標準ツールに育っています。
2026年最新リリース情報(直近6ヶ月のアップデート)
LM Studioは公式チェンジログで頻繁に更新されています。直近6ヶ月の主要アップデートを時系列でまとめます。
| バージョン | リリース日 | 主な変更点 |
|---|---|---|
| 0.4.12 | 2026年4月17日 | Qwen 3.6対応、PDFエクスポートの装飾改善、MCP OAuth on Windowsバグ修正、Qwen 3.5のOpenAI/Anthropic互換APIパフォーマンス改善 |
| 0.4.11 | 2026年4月10日 | Gemma 4チャットテンプレートのアップデート |
| 0.4.10 | 2026年4月9日 | Gemma 4ツール呼び出しの安定性向上、MCPサーバー向けOAuth対応 |
| 0.4.9 | 2026年4月2日 | Anthropic APIのeffortレベル互換、チャットフォルダ削除時のUIフリーズ修正 |
| 0.4.8 | 2026年3月26日 | OpenAI互換エンドポイントへのreasoningフィールド追加、CUDA VRAM解放問題修正 |
| 0.4.7 | 2026年3月18日 | LM Linkリモート接続機能の正式リリース、数式マークダウン描画修正 |
| 0.4.6 | 2026年2月27日 | LM Link(Tailscale連携の暗号化リモート接続)を導入 |
注目すべき新機能
LM Linkは2026年に追加された目玉機能です。Tailsacleと共同で実装されたエンドツーエンド暗号化のトンネルを使い、自宅のデスクトップに乗せたLM Studioを外出先のノートPCから「あたかもローカルにあるかのように」呼び出せます。リモートデスクトップを開く必要がありません。詳細は公式ブログのLM Link発表記事を参照してください。
MCP(Model Context Protocol)対応も2026年に強化されました。OAuth付きのMCPサーバーをLM Studioから呼び出せるため、Notion・Slack・GitHubなど認証が必要な外部サービスとローカルLLMを安全に連携できます。
OpenAI互換のreasoningフィールドが0.4.8で追加され、DeepSeek-R1やQwen 3.5の思考プロセスをAPI経由で取り出せるようになりました。エージェント開発で「なぜその結論に至ったか」をログに残したい場合に有用です。
他ツールとの比較
同種のローカルLLMツールは複数あります。バージョン情報は2026年5月2日時点の公式リポジトリで確認した値です。
| 項目 | LM Studio | Ollama | Jan | text-generation-webui | llama.cpp |
|---|---|---|---|---|---|
| バージョン | v0.4.12(2026/4/17) | v0.22.1(2026/4/28) | v0.7.6(2026/1/27) | v4.6.2(2026/4/23) | b9002(2026/5/2) |
| UI形式 | デスクトップGUI | CLI+デスクトップアプリ | デスクトップGUI | WebUI(Gradio) | CLIのみ |
| モデル形式 | GGUF・MLX | GGUF(独自レジストリ) | GGUF・MLX | GGUF・GPTQ・AWQ・ExLlama | GGUF |
| OpenAI互換API | 標準搭載 | 標準搭載 | 標準搭載 | 拡張で対応 | llama-server同梱 |
| MLX対応 | あり(Apple Silicon) | あり(v0.21.1〜) | あり | なし | なし |
| セットアップ難易度 | 低(GUIインストーラ) | 低 | 低 | 中(依存関係多い) | 高(要ビルド) |
| カスタマイズ性 | 標準 | 標準 | 拡張機能で拡張可 | 非常に高い | 最も高い |
| ライセンス | 独自(個人無料) | MIT | MIT | AGPL-3.0 | MIT |
| 商用利用 | Workライセンス必要 | 無料 | 無料 | AGPL条件あり | 無料 |
どれを選ぶべきか
- とにかく早く動かしたい人/非エンジニア: LM Studio。インストーラを実行してモデルを検索するだけで使い始められる
- サーバー運用・スクリプト化したい人: Ollama。CLIファーストで`ollama pull`/`ollama run`が直感的
- 完全オープンソースにこだわる人: Jan。MITライセンスで本体含めて自由に改変可能
- 量子化を細かく調整したい上級者: text-generation-webui。GPTQ・AWQ・ExLlamaまで対応
- 最低レイヤーで触りたい開発者: llama.cpp。バックエンドそのもの
メリットとデメリット
メリット
- GUIインストーラで導入が完結する(プログラミング知識不要)
- モデル検索画面からHugging Faceのモデルを直接ダウンロードできる
- OpenAI互換APIサーバーをワンクリックで起動できる(ポート1234)
- Apple SiliconネイティブのMLXバックエンドで高速推論
- RAG(社内文書チャット)機能を内蔵
- 2026年に追加されたLM Linkでリモート利用が可能
- MCPサーバー連携でNotion・Slack・GitHub等と接続できる
- VRAMが小さいGPUでも動作する量子化モデルを推奨表示してくれる
デメリット
- 本体はオープンソースではない(個人利用は無料、商用はライセンス申請が必要)
- Linux版はAppImageのみで、ディストリ標準パッケージではない
- WindowsのARM64版はQualcomm Snapdragon Xシリーズ向けで対応モデルが限定的
- 大規模モデル(70B以上)を扱うとUIがやや重くなる場合がある
- 商用利用を始めるにはWork用ライセンスの申請が必要
動作要件
| 項目 | 最小 | 推奨 | ハイエンド |
|---|---|---|---|
| OS | Windows 10 / macOS 13.4 / Ubuntu 20.04(AppImage) | Windows 11 / macOS 14 / Ubuntu 22.04 | Windows 11 / macOS 15 |
| CPU | AVX2対応のIntel/AMD x64 | 第10世代Intel Core i5 / Ryzen 5 5000以降 | 第13世代Intel Core i7 / Ryzen 9 7900以降 |
| GPU(NVIDIA) | 不要(CPU推論可能) | RTX 3060 12GB | RTX 5090 32GB |
| GPU(Apple) | M1 8GB | M2 Pro 16GB | M3 Max 64GB |
| RAM | 16GB | 32GB | 64GB以上 |
| ディスク | 10GB(小型モデル数本) | 500GB SSD | 2TB NVMe SSD以上 |
VRAMの目安として、7Bモデル(Llama 3.1 8B等)はQ4量子化で約5GB、14Bモデルは約9GB、70Bモデルは40GB前後を要します。VRAMが不足すると自動でCPUオフロードされますが、推論速度は10分の1以下に落ちるため、ターゲットモデルのサイズに合わせてGPUを選定してください。
インストール手順
Windows版のインストール
Windows 10/11のx64環境を例に手順を示します。
- LM Studio公式サイトにアクセスする
- トップページの「Download for Windows 0.4.12」ボタンをクリック
- ダウンロードした
LM-Studio-0.4.12-x64.exeを実行 - インストーラの指示に従う(既定インストール先は
%LOCALAPPDATA%\Programs\LM Studio\) - インストール完了後、スタートメニューから「LM Studio」を起動
初回起動時に「Get your first LLM」のオンボーディングが表示されます。後述の初期設定セクションへ進んでください。
PowerShellでサイレントインストールしたい場合は次のコマンドが利用できます。
# 公式インストーラを取得して実行
$url = "https://installers.lmstudio.ai/win32/x64/0.4.12/LM-Studio-0.4.12-x64.exe"
$installer = "$env:TEMP\LM-Studio-0.4.12-x64.exe"
Invoke-WebRequest -Uri $url -OutFile $installer
Start-Process -FilePath $installer -ArgumentList "/S" -Wait
Remove-Item $installer
macOS版のインストール
Apple Silicon(M1/M2/M3/M4)を強く推奨します。MLXバックエンドが使えるため、Intel Macに比べ2〜3倍高速です。
- 公式サイトから「Download for Mac」をクリック
LM-Studio-0.4.12-arm64.dmgを開く- 表示されたウィンドウでLM StudioアイコンをApplicationsフォルダにドラッグ
- Launchpadから「LM Studio」を起動。初回起動時にGatekeeperで「開く」を選択
Homebrew経由でも導入できます。
brew install --cask lm-studio
Linux版のインストール
LinuxではAppImageのみが提供されます。Ubuntu 22.04/24.04を例に示します。
# AppImageをダウンロード(バージョンは公式サイトで最新を確認)
wget https://installers.lmstudio.ai/linux/x64/0.4.12/LM_Studio-0.4.12.AppImage -O ~/LMStudio.AppImage
# 実行権限を付与
chmod +x ~/LMStudio.AppImage
# 起動
~/LMStudio.AppImage
FUSEがインストールされていないと起動できません。Ubuntu 22.04以降では次のコマンドで導入します。
sudo apt update
sudo apt install -y libfuse2t64
古いUbuntu 20.04ではlibfuse2を、Fedoraではfuse-libsを導入してください。
CLIツール(lms)の導入
GUIだけでなくコマンドラインから操作したい場合、lms CLIを有効化します。
# LM Studioを少なくとも1回起動した後で実行
# Windows
& "$env:LOCALAPPDATA\Programs\LM Studio\resources\app\.webpack\main\bin\lms.exe" bootstrap
# macOS / Linux
~/.lmstudio/bin/lms bootstrap
# 動作確認
lms version
# → lms-cli 0.0.x (LM Studio CLI)
bootstrap後はターミナルからlmsコマンドが使えます。lms lsで導入済みモデル一覧、lms server startでローカルAPIサーバーを起動できます。
初期設定
初回起動とオンボーディング
初回起動すると「Get your first LLM」画面が表示されます。2026年現在の推奨モデルは以下のとおりです。
- VRAM 8GB以下: Llama 3.2 3B Instruct(Q4_K_M、約2GB)
- VRAM 12GB: Qwen 3.5 7B Instruct(Q4_K_M、約4.5GB)
- VRAM 16GB以上: Llama 3.1 8B Instruct(Q5_K_M、約5.7GB)
- VRAM 24GB以上: Qwen 3.6 14B Instruct(Q4_K_M、約9GB)
- VRAM 32GB以上: Qwen 3.6 32B Instruct(Q4_K_M、約19GB)
推奨モデルを選んで「Download」をクリックすれば、自動でHugging Faceから取得されます。
日本語UI設定
LM Studioのバージョン0.4系では日本語UIが追加されています。設定方法は次のとおりです。
- 左サイドバー下部の歯車アイコン(Settings)をクリック
- 「General」タブの「Language」を「日本語(Japanese)」に変更
- アプリを再起動
翻訳のカバレッジは画面によって差があるため、専門用語が残ることがあります。完全な日本語化を期待する場合は、英語UIで使ったほうが情報も多く実用的です。
モデル保存先の変更
既定ではモデルが~/.lmstudio/models/に保存されます。Cドライブの空き容量が乏しい場合は別ドライブに変更してください。
- Settings → 「My Models」タブ
- 「Models Directory」の右にあるフォルダアイコンをクリック
- 外付けSSDなど任意のフォルダを指定(例:
D:\LMStudioModels) - 既存モデルがあれば移行確認のダイアログが表示される
GPU設定の確認
Settings → 「Hardware」で、認識されたGPUとVRAMが表示されます。NVIDIA環境でCUDAが認識されていない場合は、CUDA Toolkit 13.0以降とNVIDIA最新ドライバを導入してから再起動してください。
基本的な使い方
チャットで対話する
左サイドバーの吹き出しアイコン「Chat」を開きます。
- 画面上部の「Select a model to load」をクリック
- ダウンロード済みモデルから1つ選択
- 右ペインで「GPU Offload」スライダを最大にする(VRAMに収まる範囲で全レイヤーをGPUに載せる)
- 「Load Model」を押下し、ロード完了を待つ(5〜30秒)
- 下部の入力欄にプロンプトを入れて送信
モデルロード時に「Insufficient VRAM」と警告が出た場合、GPU Offloadを下げて部分的にCPUで処理させます。
モデルを検索・追加でダウンロードする
左サイドバーの虫眼鏡アイコン「Discover」を開きます。検索窓に「qwen3」「llama4」のようにキーワードを入れると、Hugging Face上のGGUF/MLXモデルが一覧されます。
各モデルカードには量子化バリアント(Q3_K_M、Q4_K_M、Q5_K_M、Q6_K、Q8_0等)と必要VRAMが表示されます。LM Studioが「Full GPU Offload Possible」と判定したものを選ぶと安全です。
チャット履歴の管理
すべてのチャットは~/.lmstudio/conversations/にJSON形式で保存されます。サイドバーで右クリックすると「Rename」「Duplicate」「Move to folder」「Export to Markdown / PDF」「Delete」のメニューが利用できます。0.4.12でPDFエクスポートのスタイルが大幅に改善されました。
実践的な使い方
ユースケース1: ローカルAPIサーバーとして他アプリから利用する
LM StudioはOpenAI互換のREST APIサーバーとして動作します。社内システムやIDE拡張からChatGPT API互換コードでローカルLLMを呼び出せます。
- 左サイドバーの「Developer」(</> アイコン)をクリック
- 上部の「Status: Stopped」を「Status: Running」に切り替える(既定ポート1234)
- 「Settings」でJust-in-Time Loading・CORS・Verbose Loggingを必要に応じて有効化
- 下部のログにリクエストが流れることを確認
Pythonクライアントから呼び出す例:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="lm-studio" # ダミーで何でも良い
)
resp = client.chat.completions.create(
model="qwen3.5-7b-instruct", # ロード中のモデルID
messages=[
{"role": "system", "content": "あなたは丁寧なアシスタントです"},
{"role": "user", "content": "ローカルLLMを使うメリットを3つ挙げて"}
],
temperature=0.7,
max_tokens=512,
)
print(resp.choices[0].message.content)
curlでの動作確認:
curl http://localhost:1234/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3.5-7b-instruct",
"messages": [{"role": "user", "content": "Hello"}],
"temperature": 0.7
}'
0.4.8以降ではreasoningフィールドがレスポンスに追加され、思考型モデルの内部推論を取り出せます。
{
"choices": [{
"message": {
"role": "assistant",
"content": "結論はXです",
"reasoning": "まずAについて検討し、次にBを比較した結果……"
}
}]
}
ユースケース2: ローカルRAGで社内文書とチャットする
LM Studioのチャット画面ではPDF・Markdown・テキストファイルを添付するだけでRAG(Retrieval-Augmented Generation)が走ります。社内マニュアルや論文をクラウドに送らずに要約・質問応答できます。
- Chat画面でモデルをロード
- 入力欄左のクリップアイコンからPDFを添付
- 添付されたファイルから関連箇所が自動でコンテキストに組み込まれる
- 「この文書の3章で述べている結論を要約して」のように質問
埋め込み(embedding)モデルとしてnomic-embed-text-v1.5が既定で使われます。Embedding専用エンドポイント/v1/embeddingsも提供されているため、自作のRAGアプリの埋め込み計算にも転用できます。
resp = client.embeddings.create(
model="nomic-embed-text-v1.5",
input=["これはテスト文章です"]
)
print(len(resp.data[0].embedding)) # → 768
ユースケース3: VSCode拡張やContinueから呼び出す
VSCodeのContinue拡張から、ローカルLLMをコーディングアシスタントとして利用できます。~/.continue/config.jsonに次を追加します。
{
"models": [
{
"title": "LM Studio - Qwen3.5 7B",
"provider": "lmstudio",
"model": "qwen3.5-7b-instruct",
"apiBase": "http://localhost:1234/v1"
}
]
}
これでChatGPT Plusに月額3,000円払わずとも、自前のローカル環境でコード補完・リファクタ提案を受けられます。
応用とカスタマイズ
LM Linkで遠隔のLM Studioに接続する(2026年新機能)
v0.4.6で追加されたLM Linkを使うと、自宅のデスクトップに置いたLM Studioを外出先のノートPCから利用できます。Tailscaleと共同設計されたエンドツーエンド暗号化のトンネルを使用します。
- サーバー側(自宅PC)のLM Studioで Settings → 「LM Link」を開く
- 「Enable LM Link」をオン、「Generate Pairing Code」をクリック
- クライアント側(外出先のPC)のLM Studioを起動し、Settings → 「LM Link」 → 「Connect to a remote instance」
- 表示されたペアリングコードを入力
- 接続後はモデル一覧にリモート機のモデルが表示され、ローカルと同じ感覚で使える
ペアリング情報はTailscaleのコントロールプレーン経由で交換され、推論データはクライアントとサーバーの間だけで暗号化通信されます。詳細仕様は公式ブログのLM Link発表記事を参照してください。
MCPサーバーを接続する(2026年新機能)
Model Context Protocol(MCP)対応により、Notion・Slack・GitHubなど外部サービスをLLMの「ツール」として呼び出せます。0.4.10でOAuth認証も対応しました。
- Settings → 「Integrations」 → 「MCP Servers」
- 「Add Server」を選択し、stdioコマンドかURLを指定
- OAuthが必要なサーバーは認証フローが起動
- Chat画面でモデルがツールを自動選択して呼び出す
例: GitHubのIssueを検索してREADMEを更新するワークフローを、ローカルのQwen 3.6 32Bが自律的に実行できます。
カスタムプロンプトテンプレート
各モデルにはチャットテンプレートが組み込まれていますが、Settings → 「My Models」 → 該当モデルの設定からテンプレートをカスタマイズできます。Llama・ChatML・Alpaca・Vicunaなどのプリセットに加え、Jinja2構文で自作テンプレートを定義できます。
{% for message in messages %}
{% if message['role'] == 'system' %}
<|im_start|>system
{{ message['content'] }}<|im_end|>
{% elif message['role'] == 'user' %}
<|im_start|>user
{{ message['content'] }}<|im_end|>
{% elif message['role'] == 'assistant' %}
<|im_start|>assistant
{{ message['content'] }}<|im_end|>
{% endif %}
{% endfor %}
<|im_start|>assistant
lms CLIでヘッドレス運用
サーバー専用機でGUIを起動したくない場合、lms CLIでヘッドレス起動が可能です。
# モデル一覧
lms ls
# モデルをロード(GPU Offloadを32レイヤーに指定)
lms load qwen3.5-7b-instruct --gpu 32
# APIサーバーを起動(ポート1234、CORS有効)
lms server start --port 1234 --cors
# モデルをアンロード
lms unload qwen3.5-7b-instruct
# サーバー停止
lms server stop
Dockerfileから呼び出してCI環境でローカルLLMをテストするといった用途にも便利です。
パフォーマンス最適化
GPU Offload設定の最適化
モデルの全レイヤーをGPUに載せ切るのが最速ですが、VRAMが足りない場合はOffloadレイヤー数を調整します。経験則としてVRAMの80%を目安にすると、KVキャッシュ用の余白を確保できて安定します。
| モデルサイズ | Q4量子化サイズ | 推奨VRAM | 全レイヤーGPU化の目安 |
|---|---|---|---|
| 3B | 約2GB | 4GB以上 | RTX 3050以降 |
| 7B | 約4.5GB | 8GB以上 | RTX 4060以降 |
| 14B | 約9GB | 12GB以上 | RTX 4070 Ti SUPER以降 |
| 32B | 約19GB | 24GB以上 | RTX 4090/RTX 5090 |
| 70B | 約42GB | 48GB以上 | RTX 6000 Ada/A100 |
コンテキスト長の調整
長文を扱わない用途であれば、Settings → モデル設定の「Context Length」を4096〜8192トークンまで下げるとKVキャッシュが減りVRAMを節約できます。逆にRAGで長文書を扱う場合は32K〜128Kまで拡張します。Llama 3.1は128K、Qwen 3.6は1Mまで対応しています。
Flash Attention/MLXの有効化
Settings → モデル詳細で「Flash Attention」を有効にすると、Attention計算のメモリ使用量が3〜5割削減されます。Apple SiliconではMLXバックエンドに切り替えるとllama.cppバックエンドより1.5〜2倍高速になります。
並列リクエストとContinuous Batching
v0.4.0で導入された並列リクエスト機能を使うと、複数のクライアントから同時にリクエストを投げてもバッチ化して処理されます。Developer → Server Settingsで「Parallel Requests」を有効にしてください。エージェント開発で複数のサブエージェントが同時に問い合わせる場合にスループットが向上します。
よくあるエラーとトラブルシューティング
エラー1: “Failed to load model: insufficient VRAM”
VRAMが不足しています。次のいずれかで対処します。
- GPU Offloadスライダを下げて部分的にCPUに載せる
- より小さい量子化バリアント(Q4_K_S → Q3_K_M)に変更する
- Context Lengthを短くしてKVキャッシュを削減する
- 他のGPUプロセス(ブラウザのハードウェアアクセラレーション、ゲーム等)を終了する
エラー2: “CUDA error: out of memory” でアプリが落ちる
0.4.8で「CUDA VRAM deallocation」のバグが修正されているため、古いバージョンを使っている場合はまずアップデートしてください。それでも発生する場合はNVIDIAドライバを最新(CUDA 13対応版)にし、Windowsの場合はTDR(Timeout Detection and Recovery)をレジストリで延長します。
エラー3: macOSで「LM Studio.app は壊れているため開けません」
Gatekeeperによる隔離属性が原因です。ターミナルで属性を解除します。
xattr -d com.apple.quarantine /Applications/LM\ Studio.app
エラー4: Linux AppImageが起動しない(FUSEエラー)
FUSEがインストールされていません。Ubuntu 24.04以降はlibfuse2t64、Ubuntu 22.04以前はlibfuse2を導入します。
sudo apt install -y libfuse2t64
# または
sudo apt install -y libfuse2
エラー5: APIサーバーに外部から接続できない
既定では127.0.0.1:1234でのみリッスンします。LAN内の他端末から接続するには、Developer → Server Settings → 「Serve on Local Network」を有効にしてください。ポートは1234のままで、URLがhttp://[マシンのIP]:1234に変わります。ファイアウォールの例外設定も忘れずに。
エラー6: MCPサーバーのOAuth認証がWindowsで失敗する
0.4.12で修正済みのバグです。0.4.11以前を使っている場合はアップデートしてください。アップデート後もエラーが続く場合は、ブラウザでOAuth認証画面が開かれるかを確認し、開かれなければ既定ブラウザ設定を見直します。
エラー7: モデル検索でHugging Faceから404が返る
Hugging FaceがレートリミットしているかVPN経由で接続できていない可能性があります。Settings → 「Network」でHTTPプロキシを設定するか、しばらく待ってから再試行してください。
おすすめの組み合わせと連携
Open WebUIと組み合わせる
LM Studioが提供するOpenAI互換APIに、Open WebUIを被せると、ChatGPT風の高機能なWeb UIで利用できます。複数ユーザーでの利用や履歴管理を強化したい場合に向きます。
docker run -d \
-p 3000:8080 \
-e OPENAI_API_BASE_URL=http://host.docker.internal:1234/v1 \
-e OPENAI_API_KEY=lm-studio \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
n8nとの連携で業務自動化
ローコードワークフローツールn8nのOpenAIノードでBase URLをhttp://localhost:1234/v1に書き換えると、メール要約・SNS投稿生成などをローカルLLMで自動化できます。
ContinueとClaude Codeの併用
VSCodeでContinueを使い、簡単な補完はLM Studio上のローカルLLMに、複雑な設計はClaude APIにルーティングする「ハイブリッド運用」が2026年のトレンドです。コストを抑えつつ機密コードはクラウドに送らずに済みます。
用途別 推奨PCスペック
入門(軽量モデル中心、3B〜7B)
| パーツ | 推奨 | 備考 |
|---|---|---|
| CPU | Intel Core i5-14400 / Ryzen 5 8600G | AVX2必須 |
| GPU | RTX 4060 8GB | 7BモデルがフルGPUで動く下限 |
| メモリ | 32GB DDR5 | RAM ≥ VRAM × 2 が安全 |
| SSD | 1TB NVMe SSD | モデル数本+OS/アプリ |
| 電源 | 650W 80+ Bronze | RTX 4060なら十分 |
標準(14B〜32Bを実用速度で)
| パーツ | 推奨 | 備考 |
|---|---|---|
| CPU | Intel Core i7-14700 / Ryzen 7 8700G | マルチタスク余裕 |
| GPU | RTX 4070 Ti SUPER 16GB | 14BフルGPU可、32Bも一部GPU化で実用域 |
| メモリ | 32GB DDR5 5600 | RAGで大量文書を扱うなら64GB |
| SSD | 2TB NVMe SSD | モデル10〜20本ストック想定 |
| 電源 | 850W 80+ Gold | GPUの瞬間電力に余裕を持たせる |
ハイエンド(70Bモデル、業務サーバー)
| パーツ | 推奨 | 備考 |
|---|---|---|
| CPU | Intel Core i9-14900K / Ryzen 9 9950X | 並列リクエストの前処理を支える |
| GPU | RTX 5090 32GB | 32BをフルGPU、70BはCPUオフロード併用で実用 |
| メモリ | 64GB DDR5 6400 | 70Bを部分CPUで扱うなら必須 |
| SSD | 2TB NVMe SSD + 4TB SATA SSD | NVMeにOS/アクティブモデル、SATAにアーカイブ |
| 電源 | 1000W 80+ Platinum | RTX 5090のピーク電力に対応 |
Apple Silicon(プロフェッショナル)
Macで本気でローカルLLMを動かすなら、M3 Max 64GBまたはM4 Max 128GBのMacBook Pro/Mac Studioが最適です。ユニファイドメモリのおかげで、システムメモリのほぼすべてをVRAMとして使えるため、70BモデルがフルでGPU実行できます。NVIDIA GPUを別途用意するより合計コストが下がるケースもあります。
まとめ
LM Studio v0.4.12(2026年4月17日リリース)は、ローカルLLMをGUIで使い始める事実上の標準ツールです。Windows・Mac・Linux問わずインストーラ1本で動き、OpenAI互換APIサーバーを内蔵し、2026年に追加されたLM Linkで遠隔利用も可能、MCPで外部サービス連携もこなせる、いま最も完成度の高いローカルLLMフロントエンドの1つです。
本記事の手順をひととおりなぞれば、あなたの手元にプライベートなChatGPT環境が立ち上がります。月額のサブスクリプション料金を払わずに、機密文書を外部に送ることなくAIを活用できる時代が、すでに来ています。今後はLM Linkがさらに高度化し、家のデスクトップとMacBookの間でモデルを使い分けるハイブリッド運用が一般化していくと予想されます。公式チェンジログを月1回チェックする習慣をつけて、最新機能を取り逃さないようにしてください。
「とりあえず触る」段階から「本格運用」まで、本記事1本でカバーできるよう書きました。動かなかった箇所、本記事で扱っていない応用例があれば、コメント欄やお問い合わせから教えていただけると、随時アップデートしていきます。
📦 この記事で紹介した商品
- NVIDIA GeForce RTX 4070 Ti SUPER → Amazonで見る
- 大規模言語モデル入門 → Amazonで見る
- Apple MacBook Pro (M4 Pro) → Amazonで見る
- GB DDR5メモリ → Amazonで見る
- TB NVMe SSD → Amazonで見る
※ 上記リンクはAmazonアソシエイトリンクです。購入いただくと当サイトに紹介料が入ります。

