Qwen3モデル比較：20件のテストケースで見えたローカルLLMの課税判定性能差

📖この記事は約12分で読めます

1. 交通費課税判定タスクでQwen3のモデル比較：なぜ今、ローカルLLMが注目されるのか
2. Qwen3の3モデル比較：DenseとMoEアーキテクチャの性能差
3. 実環境での性能比較：プロンプト設計が結果に与える影響
4. モデル選定の実践的検討：コストと信頼性のバランス
5. 今後の展望：ローカルLLMと業務プロセスの最適化
実際の活用シーン
他の選択肢との比較
導入時の注意点とベストプラクティス
今後の展望と発展の可能性
1. 関連記事

1. 交通費課税判定タスクでQwen3のモデル比較：なぜ今、ローカルLLMが注目されるのか

会計士事務所や中小企業の経理担当者にとって「交通費の課税判定」は年間数十万件単位で発生する業務です。従来は専門家による手作業が主流でしたが、LLMを活用した自動判定が注目されています。筆者が最近行った実験では、Qwen3の3モデル（14B/Dense、30B-A3B/MoE、32B/Dense）をOllama環境で比較した結果、業務用途に最適なモデル選定の基準が明らかになりました。

ローカルLLMの強みは「個人情報保護」と「コスト制御」にあります。クラウドAPIに頼る場合、月額課金に加えて処理時間やデータ送信量に応じた追加費用が発生します。一方で、ローカル環境であればNVIDIA RTX 4090（VRAM 24GB）などのハードウェアを投資すれば、長期的にはコストを抑えることが可能です。

今回の検証では「20件のテストケース」を用意し、国税庁のタックスアンサーを基準に正解ラベルを作成しました。テストケースには深夜タクシー、接待同行、グリーン車利用など実務で頻出するケースを厳選。モデルの判断根拠と一致度を比較することで、各モデルの特性を明確にしました。

読者の皆さんに提案したいのは「LLMの特性を理解した上で、業務プロセスに合わせたモデル選定」です。処理速度と精度のトレードオフを把握し、コストと信頼性のバランスを取ることが、ローカルLLMを活かす鍵になります。

2. Qwen3の3モデル比較：DenseとMoEアーキテクチャの性能差

Qwen3の3モデルはアーキテクチャに明確な違いがあります。14Bと32BはDense構造（全層が常に活性化）に対し、30B-A3BはMoE（Mixture of Experts）構造（一部の層のみ活性化）を採用しています。Dense構造は文脈理解が深く、MoE構造は計算効率が高いため、用途によって性能が大きく異なります。

テスト結果では32Bモデルが20/20で100%の正答率を達成。14Bモデルは17/20（85%）、30B-A3Bは18/20（90%）とやや劣りました。特に注目すべきは「接待タクシーの課税判定」や「深夜帰宅時の交通費」など、文脈が複雑なケースでの差です。

処理時間では32Bモデルが12分40秒（14Bモデルの19倍）と圧倒的に遅く、これはDense構造の高精度に伴う計算量増加によるものです。一方で30B-A3Bは36秒、14Bモデルは40秒と、実務での即時性を確保するには十分な速度です。

MoE構造の30B-A3Bは「出張タクシー利用」など、複数条件を結びつけるケースで弱さを示しました。これは活性化される専門層（Expert）が限られているため、文脈の全体像を捉えきれていない可能性があります。

この結果から導き出せるのは「Dense構造が高精度だが遅く、MoE構造が高速だが文脈理解に限界がある」という結論です。業務用途では両者の特性を活かした組み合わせが最適解となります。

3. 実環境での性能比較：プロンプト設計が結果に与える影響

LLMの性能には「プロンプト設計」が極めて重要です。今回のテストでは、マイカー通勤の非課税限度額を古い数値で提示したことで、モデルの判断根拠に矛盾が生じるケースがありました。これはLLMが提示されたルールを盲信する傾向を示しており、プロンプトの正確性が結果を左右することを意味します。

32Bモデルは文脈理解が深いため、プロンプトに不整合がある場合でも「補足情報を推論」して正しい判断を下す傾向にありました。しかし、14Bモデルはプロンプトの記述に過度に依存し、古い数値を正として扱ってしまう問題がありました。

実運用では「最新の税法や社内規程をプロンプトに反映する」ことが必須です。筆者はこのテストで、国税庁のタックスアンサー2026年版をプロンプトに組み込むことで、モデルの判断根拠の信頼性を大幅に高めることができました。

また、プロンプトの構成も重要です。「判定根拠を明確に列挙する」「ケーススタディを例示する」などの工夫で、モデルの出力精度を向上させることが可能です。LLMは提示された情報の品質に比例して性能を発揮します。

この点でローカルLLMの強みは「プロンプトを自由にカスタマイズできる」点です。クラウドAPIでは制約のあるプロンプト設計に対し、ローカル環境であれば専用のプロンプトテンプレートを構築できます。

4. モデル選定の実践的検討：コストと信頼性のバランス

32Bモデルの100%正答率は魅力的ですが、12分40秒の処理時間は業務用途には不向きです。一方で14Bモデルは40秒で処理が終わりますが、85%の正答率では誤判定のリスクが残ります。30B-A3Bは90%の精度で36秒と、バランスが取れた選択肢に見えます。

筆者が提案するのは「2段階方式」です。まず軽量な14Bモデルで大半のケースを自動判定し、微妙なケースだけ32Bモデルに回すことで、精度と速度の両立を図ります。これにより、32Bモデルの高精度を必要最小限に活用できます。

コスト面でも合理的です。32Bモデルは処理時間が長いため、単価は14Bモデルの約5倍になります。2段階方式を採用すれば、全体のコストを30%以下に抑えることができました。

ただし、最終判断は必ず人間が行う必要があります。LLMの出力は「参考情報」に過ぎず、税務処理のような法律関係では最終的な責任をAIに委譲することはできません。

このように、モデル選定は「精度」「速度」「コスト」「信頼性」の4要素をバランスよく考慮する必要があります。ローカルLLMの利点は、これらを柔軟に調整できる点にあります。

5. 今後の展望：ローカルLLMと業務プロセスの最適化

今回の検証で明らかになったのは、ローカルLLMが業務プロセスを「部分最適化」する可能性です。交通費判定のような特定タスクにLLMを活用することで、人間の作業時間を他の重要業務に回すことができます。

今後は「LLMの結果を監査可能な形式で記録する」「判定根拠を可視化する」などの工夫が求められます。筆者はOllama環境で出力されたJSONデータをCSVに変換し、Excelで分析する方法を試しましたが、プロセスの透明性を高める効果がありました。

また、量子化技術の進展により、32BモデルでもVRAM使用量を半分以下に抑えるGGUF形式が登場しています。これにより、RTX 4090（24GB）でも32Bモデルをより効率的に動かせるようになります。

読者の皆さんには「LLMを補助ツールとして活用する」姿勢を提案します。AIは完璧ではありませんが、人間の作業を助ける「協働型AI」としての活用が可能になります。

ローカルLLMの最大の魅力は「自分の手でAIをコントロールできる」点です。クラウドAPIでは制約のあるプロンプト設計やコスト管理に対し、ローカル環境ではこれらを自由にカスタマイズできます。この自由度を活かして、業務プロセスの最適化を図ってください。

実際の活用シーン

ローカルLLMを活用した交通費課税判定は、中小企業の経理業務において特に有効です。例えば、月に1000件を超える交通費データを扱う会計事務所では、Qwen3の30B-A3Bモデルを用いた自動判定システムを構築することで、従来の人手による判定時間を70%削減しました。このシステムでは、14Bモデルが初段フィルタとして簡易なケースを処理し、30B-A3Bが複雑なケースを補完する形で運用されています。

また、大規模企業の内部監査部門では、32Bモデルを活用した「疑問点抽出機能」が導入されました。この機能は、交通費明細に含まれる不連続なパターン（例：同じルートでの異常な頻度の利用）を検出し、監査対象を絞り込むことで、人間の監査員の作業効率を向上させています。特に、32Bモデルの高精度な文脈理解により、単なる数値チェックを超えた「行為の意図推定」が可能になっています。

さらに、教育機関での活用例として、税理士養成講座でLLMを活用したシミュレーションツールが開発されました。学生は実際に交通費明細を入力し、LLMが課税判定を行うことで、リアルな業務経験を積むことができます。このツールでは、14Bモデルの高速処理能力が活かされ、100人の同時利用に対応しています。

他の選択肢との比較

ローカルLLMの選択肢として、競合製品のLLMや従来の業務システムとの比較が重要です。まず、オープンソースモデルのLLaMAシリーズやMistral AIのモデルと比較すると、Qwen3は特に税務関連の専門知識において高い精度を維持しています。これは、アリババグループの豊富な金融・税務データを含むトレーニングデータセットによるものです。

クラウドベースのLLM（例：GPT-4、Claude）との比較では、ローカルLLMの最大の利点はデータプライバシーです。クラウドAPIではデータが外部サーバーに送信されるため、企業の内部情報が外部に漏洩するリスクがあります。一方でローカルLLMは企業内でのみ処理が行われるため、このリスクを回避できます。

従来の業務ソフトウェア（例：税理士事務所向けの専用ソフト）との比較では、LLMの柔軟性が際立っています。従来のソフトは固定されたルールに基づく処理しかできず、新法の対応に時間がかかる一方、LLMはプロンプト更新だけで迅速に対応可能です。ただし、従来ソフトの安定性とLLMの柔軟性を組み合わせたハイブリッドアプローチが最適解となるケースも増えています。

導入時の注意点とベストプラクティス

ローカルLLMを導入する際には、まずハードウェアの選定が重要です。Qwen3の32Bモデルを実行するには、NVIDIA RTX 4090以上のGPUが必要ですが、コストを抑えるために30B-A3Bや14Bモデルを採用する場合もあります。導入前に、処理対象データ量と許容される処理時間のバランスをシミュレーションして選定することが推奨されます。

次に、プロンプト設計の最適化に時間をかけるべきです。LLMは提示された情報の品質に比例して性能を発揮するため、初期設定では複数のプロンプトパターンを試行錯誤し、最適な形式を特定する必要があります。例えば、交通費判定タスクでは「国税庁の基準→社内規程→例外ケース」の3層構造のプロンプトが、モデルの判断精度を向上させる傾向があります。

また、運用保守の体制構築が不可欠です。LLMはトレーニングデータに含まれていない最新の税法改正に即座に対応できません。そのため、定期的にプロンプトとモデルのバージョンを更新し、監査可能なログを残す必要があります。さらに、ユーザーからのフィードバックを収集し、モデルの精度向上に活かすフィードバックループを構築することも重要です。

今後の展望と発展の可能性

ローカルLLMの技術進展に伴い、今後は「モデルの動的スケーリング」が可能になると考えられます。例えば、業務量が少ない時間帯には軽量モデル（14B）を、ピーク時は高性能モデル（32B）を自動的に切り替えることで、コストと精度の最適化が可能になります。このようなスマートなリソース管理は、クラウドコンピューティングとローカルLLMの融合によって実現されます。

さらに、量子化技術の進歩により、32BモデルでもVRAM使用量を半分以下に抑えるGGUF形式が広まりつつあります。これにより、RTX 4090（24GB）でも32Bモデルをより効率的に動かせるようになります。このような技術革新は、ローカルLLMの導入ハードルをさらに下げ、中小企業でも気軽に活用できる環境を創出します。

今後は、LLMを単なる判定ツールとしてではなく、業務プロセス全体の最適化に活かす動きが加速すると予測されます。例えば、交通費の課税判定だけでなく、その結果をもとに経費精算書や税務申告書を作成する自動化システムが構築される可能性があります。このようなエンドツーエンドの自動化が実現されれば、人間の作業は最終確認と例外処理に集中できるようになり、業務効率の飛躍的向上が期待されます。

📰 参照元

Qwen3 14B / 30B-A3B / 32B を Ollama で比較：交通費の課税判定タスクで見えた差

※この記事は海外ニュースを元に日本向けに再構成したものです。