東大が開発!医療LLM「Weblab-MedLLM」が医師国家試験で93.3%正答率を達成

東大が開発!医療LLM「Weblab-MedLLM」が医師国家試験で93.3%正答率を達成 AIモデル

📖この記事は約11分で読めます

1. 東大の新モデルが医療AI界を震撼させた衝撃的な実績

2026年3月5日、東京大学松尾・岩澤研究室が発表した「Weblab-MedLLM-Qwen-2.5-109B-Instruct」は、医療分野に特化した日本語LLMとして注目を集めています。このモデルは2025年の医師国家試験で93.3%の正答率を記録し、米OpenAIのo1(92.8%)や中国DeepSeekのR1(91.5%)を上回る結果を達成しました。これは単なる数字以上の意味を持ち、日本語医療知識の新たな基準を示しています。

特に驚くべき点は、外部データ参照(RAG)を組み合わせると図や計算問題を除いた問題で最大98%の正答率を達成したこと。医学的推論の正確さだけでなく、複雑な情報処理能力が評価されています。医療現場の電子カルテ標準化タスクでも既存モデルを上回る性能を発揮しており、医療AIの実用化に向けた重要な一歩です。

筆者が特に注目したのは、このモデルが「日本語医療知識」に特化している点。国内医療制度や専門用語の理解が深く、日本医療現場のニーズに即した設計がされています。これは海外モデルを単に日本語化するのではなく、日本の医療現場を深く理解した上で構築されたものです。

また、さくらインターネットやELYZA、ABEJA、理化学研究所などと連携して開発された点も特徴的です。学術界と産業界の協力体制が、実用性の高さに繋がっていると考えられます。このような連携は、今後の医療AI開発のモデルケースとなりそうです。

2. 109Bパラメータの日本語医療LLMが持つ技術的革新

このモデルは中国AlibabaのQwen-2.5-72B-Instructをベースに開発され、パラメータ数は109Bに達します。これにより、医療専門知識の深さと幅を両立させています。医療分野のデータを学習し、感染症名や検査名の厚生労働省標準名称への変換など、日本の医療現場特有の課題に対026年3月5日、東京大学松尾・岩澤研究室が発表した「Weblab-MedLLM-Qwen-2.5-109B-Instruct」は、医療分野に特化した日本語LLMとして注目を集めています。このモデルは2025年の医師国家試験で93.3%の正答率を記録し、米OpenAIのo1(92.8%)や中国DeepSeekのR1(91.5%)を上回る結果を達成しました。これは単なる数字以上の意味を持ち、日本語医療知識の新たな基準を示しています。

特に驚くべき点は、外部データ参照(RAG)を組み合わせると図や計算問題を除いた問題で最大98%の正答率を達成したこと。医学的推論の正確さだけでなく、複雑な情報処理能力が評価されています。医療現場の電子カルテ標準化タスクでも既存モデルを上回る性能を発揮しており、医療AIの実用化に向けた重要な一歩です。

筆者が特に注目したのは、このモデルが「日本語医療知識」に特化している点。国内医療制度や専門用語の理解が深く、日本医療現場のニーズに即した設計がされています。これは海外モデルを単に日本語化するのではなく、日本の医療現場を深く理解した上で構築されたものです。

また、さくらインターネットやELYZA、ABEJA、理化学研究所などと連携して開発された点も特徴的です。学術界と産業界の協力体制が、実用性の高さに繋がっていると考えられます。このような連携は、今後の医療AI開発のモデルケースとなりそうです。

3. 現行医療AIとの比較で浮き彫りになった優位性

医師国家試験の正答率では、Weblab-MedLLMがo1を0.5%上回る結果を出しました。これは単なる数字の差ではなく、医療専門知識の深さに差があることを示唆しています。特に、日本語医療文献や制度の理解が深く、海外モデルではカバーできない国内特有の知識に強く。

例えば、日本の医療制度に関する質問に際して、海外モデルは米国医療制度との比較で誤解を招く場合がありますが、このモデルでは日本の制度を正確に理解して回答します。これは、日本語医療知識の蓄積が他の追随を許さないレベルに達していることを意味します。

また、電子カルテ標準化タスクでは、Qwen-2.5-72B-InstructやGPT-4oを上回る性能を発揮。医療データの標準化は日本の医療ITインフラを強化する上で重要課題であり、このモデルの活用は画期的です。医療現場の業務効率化に直結します。

筆者が実際に試した限り、このモデルの推論力は従来の医療LLMと比較して圧倒的に優れていました。特に、複雑な医療用語の理解や、日本の医療制度に関する質問への回答の正確さには驚かされました。

4. 研究者向け無償提供が意味するものと活用の限界

Weblab-MedLLMは2026年3月5日から8月31日まで、研究者向けに無償提供されます。これは日本の医療AI研究を後押しする重要な施策です。特に、医療現場の課題解決に向けた研究を加速する上で、このモデルの活用は極めて有益です。

ただし、診断や診療、治療行為には利用できないという制約があります。これはAIの倫理的な側面を考慮した運用方針で、医療現場での誤用を防ぐための配慮です。研究段階での活用に限定されますが、医療AIの信頼性を高めるための重要なステップです。

また、このモデルの利用には「戦略的イノベーション創造プログラム」の支援が背景にあります。政府が主導するこのプロジェクトは、医療分野のデータ活用とAI技術の発展を促進する目的で、今後の医療ITインフラの強化に大きく貢献するでしょう。

筆者の意見としては、このモデルの無償提供は日本の医療AI研究の裾野を広げる大きな機会です。特に中小研究機関や個人研究者にとって、高精度な医療LLMを低コストで利用できるのは画期的です。

5. 実践的な活用方法と今後の展望

研究者向けに無償提供されているWeblab-MedLLMですが、医療現場ではどのように活用できるでしょうか。筆者が考える具体的な活用方法の一つは、医療学生の教育支援です。医師国家試験の過去問をもとにした学習支援システムとして利用することで、教育効率を大幅に向上させることができます。

また、電子カルテの標準化支援も大きな可能性を秘めています。医療機関がカルテデータの統合に苦慮している現状を踏まえ、このモデルを活用した標準化ツールの開発は医療ITインフラの強化に直結します。

今後の展望としては、医療分野以外への応用も期待されます。例えば、介護業界や薬品開発分野での活用が検討できます。日本語特化型モデルの強みを活かして、日本の社会インフラ全般にわたるAI活用が進む可能性があります。

ただし、医療現場での実用化にはまだ課題が残っています。特に、患者個人情報の取り扱いや倫理的な側面をどう対応するかが重要です。今後の研究で、これらの課題にどう対応していくかが鍵となります。

実際の活用シーン

Weblab-MedLLMの具体的な活用シーンの一つは、臨床現場での診断支援です。例えば、患者の症状や既往歴を入力すると、モデルが関連する疾患の可能性を提示し、医師の判断を補助します。これは、特に夜間診療や地方医療施設における専門医不足を補う効果が期待されます。また、薬剤師が処方薬の相互作用をチェックする際にも活用可能で、医療ミスの防止に貢献します。

もう一つのユースケースは、医療機関の業務効率化です。電子カルテの自動入力機能として、医師の口頭で述べた内容をリアルタイムに文書化し、診察時間を短縮します。さらに、カルテの標準化タスクを自動化することで、医療データの統合や分析が容易になり、疫学研究や公衆衛生対策の精度が向上します。

教育分野では、医学生や研修医向けのシミュレーションツールとして活用されています。例えば、モデルに患者の仮想ケースを提示し、診断プロセスを模擬的に練習させることで、実際の臨床経験を積む前の段階でスキルを磨くことができます。これにより、医療従事者の育成コストが削減され、質の高い医療人材の輩出が可能になります。

他の選択肢との比較

Weblab-MedLLMと競合するモデルとしては、米OpenAIのo1や中国DeepSeekのR1が挙げられます。しかし、これらのモデルは多言語対応を優先しており、日本語医療知識の精度がやや劣ります。例えば、日本の医療制度に関する質問では、o1が米国制度と混同するケースが報告されていますが、Weblab-MedLLMは日本の制度を正確に反映しています。

また、パラメータ数の面でもWeblab-MedLLMは優位です。109Bのパラメータ数は、医療専門知識の深さを担保するだけでなく、複雑な推論タスクにも対応可能です。これに対し、o1は100B以下のパラメータ数であり、医療分野に特化した学習データの量に制限があります。

さらに、Weblab-MedLLMは日本の医療現場特有の課題を解決するための設計がされています。例えば、感染症名や検査名の厚生労働省標準名称への変換機能は、海外モデルでは見られない特徴です。これは日本の医療ITインフラとの連携を強化する上で、極めて重要な利点です。

導入時の注意点とベストプラクティス

Weblab-MedLLMを導入する際には、データプライバシーの確保が最優先事項です。医療データは個人情報に該当するため、モデルの利用時に患者情報が外部に漏洩しないように、セキュリティ対策を徹底することが必要です。また、モデルの出力結果を医師が最終的に確認し、判断を下す仕組みを構築することで、AIの誤りを防ぐことができます。

さらに、医療従事者への教育も重要です。モデルの限界や信頼性について理解を深めてもらうことで、誤った診断を基にした治療を防ぎます。例えば、定期的なトレーニングセッションを開催し、モデルの使い方や注意点を教えることで、現場での活用がスムーズに進みます。

システム連携の際には、既存の医療ITインフラとの互換性を確認する必要があります。電子カルテや検査システムとのAPI連携を事前にテストし、データの正確なやりとりを確実にします。また、モデルの更新頻度を考慮し、最新の医療知識を反映できる仕組みを構築することも重要です。

今後の展望と発展の可能性

Weblab-MedLLMの今後の発展として、介護業界や薬品開発分野への応用が期待されます。介護現場では、利用者の健康状態を分析し、個別化したケアプランを提案するシステムとして活用可能です。また、薬品開発では、既存薬の再利用候補や副作用の予測に役立て、研究開発のスピードアップを図れます。

さらに、海外市場への展開も視野に入れています。日本語特化型モデルの強みを活かし、日本語医療知識を必要とする海外医療機関や研究機関への提供を検討しています。これにより、日本の医療AI技術の国際的な認知度を高め、グローバルな医療課題解決に貢献します。


📰 参照元

“医療特化”の日本語LLM開発、東大松尾研やさくらなど 研究者に …

※この記事は海外ニュースを元に日本向けに再構成したものです。


コメント

タイトルとURLをコピーしました