📖この記事は約11分で読めます
1. 化学物質解析の現場で見えたVLMの限界と突破口
建設業界向けAIエージェントを開発する株式会社KENCOPAでは、Safety Data Sheet(SDS)から化学物質の構成情報を抽出する課題がありました。SDSに記載される成分カテゴリ・含有量・CAS番号の抽出は、単なる文字起こしではなく、テーブル構造や文脈の理解が求められます。初期アプローチとしてGPT-5.1のVLMを活用しましたが、マージセルや罫線のないテーブルの認識ミスが80%の成功ケースにも影を落としていました。
特に深刻なのは「含有量」や「CAS番号」のマージセル処理。物質Aと物質Bの情報が混在するケースでは、VLMが「90 以上」という数値を正しく認識しても、「98765-43-2」のCAS番号が欠落するなど、精度にばらつきがありました。この失敗パターンから、VLMのグラウンディング能力の限界を突き止めました。
「VLMならPDFを画像として渡すだけでE2Eで解析できるはず」という期待は、複雑なテーブル構造に直面して現実味を失っていきました。この壁を乗り越えるため、専門モデルの導入が必須だと判断。 Markerというテーブル構造認識に特化したOSSツールを活用する新しいワークフローを構築しました。
2. VLMとMarkerの役割分担が生み出す精度向上のメカニズム
Markerの登場でワークフローは大きく変化しました。PDF画像→Markerによるテーブル構造認識→VLMによる意味解釈とJSON変換という3段階構造に。この役割分担により、VLMのグラウンディング能力の弱点を補完しつつ、意味理解の強みを活かすことが可能になりました。
具体的な性能比較では、Marker単体で表構造スコア0.816を記録。VLM単体(Gemini)は0.829と同等でしたが、MarkerとVLMを組み合わせたHybridモデルでは0.907と精度が大きく向上しました。これは単なる足し算ではなく、役割分担による相乗効果です。
Markerの特徴として、日本語対応・OSSによるローカル実行可能性が挙げられます。2026年現在でもDeepSeek-OCRやChandraなどの新世代OCRモデルが登場していますが、MarkerのHTMLテーブル形式出力とVLMのJSON変換特化は、依然として実用性の高い組み合わせです。
このアプローチの実証例として、マージセルの認識精度が大きく改善。QunaSysが2024年に公表したTable TransformerとGPT-4Vの組み合わせに匹敵する性能を達成しました。クロップ画像の実効解像度向上とノイズ除去が、VLMの精度に直接寄与していることが確認されています。
3. クロップ処理とタスク分解でVLMの限界を突破する
クロップ処理の効果は目覚ましいものです。テーブル部分を抽出することで、VLMが認識する画像領域を絞り込み、ノイズの排除が可能になります。実測では、VLM単体で「98765-43-2」のCAS番号が欠落するケースが、Markerによる事前処理で100%正しく認識されるようになりました。
タスク分解のもう一つのメリットはリソース管理です。VLMがグラウンディングタスクに時間を割かず、意味解釈に集中できるようになることで、全体的な処理時間も短縮されます。Markerの平均処理時間は2.838秒と、LlamaParseやMathpixを上回る効率性を発揮します。
ただし、クロップ処理には新たな課題も生じます。テーブルの全体像を失う可能性や、複数のテーブルを扱う際の整合性維持が難しい点です。この問題を解決するには、MarkerのHTML出力に加えて、Table Transformerによる領域検出を併用するアプローチが有効です。
2025年後半に登場したDeepSeek-OCRは、構造解析の自動化に注力しています。Chandraのような新世代モデルは、複雑な文書処理にも対応する進化が見られます。こうした最新技術を活用しながら、クロップ処理の精度向上が期待されます。
4. OSSとクラウドAPIの選択肢比較:コストとセキュリティのジレンマ
OSSツール(Marker/Docling)の最大のメリットは、ローカル実行による機密データ対応です。特に化学物質データのようにセキュリティが重要な領域では、クラウドAPI(LlamaParse/Mathpix)に比べて信頼性が高いのは大きな利点です。
ただし、OSSツールの導入には一定の技術的リソースが必要です。GPUの性能やメモリ容量に応じて、処理時間や精度に差が出る点も考慮しなければなりません。一方クラウドAPIは即戦力として扱いやすく、運用コストが最小限に抑えられる反面、データの持ち出しや料金体系がネックになります。
コストパフォーマンスの観点では、MarkerのようなOSSツールが優位です。2026年現在、日本語OCR技術の進化が著しいLayerXの性能検証では、Markerの精度と運用コストのバランスが際立っています。
将来的には、DeepSeek-OCRやChandraなどの新世代モデルがOSSとクラウドの垣根を越えて普及する可能性があります。ただし、モデル選定の柔軟性が求められる現状では、タスクに応じた最適なツール選定が必須です。
5. 業界の進化と今後の課題:モデル選定の戦略と運用設計
2026年現在、VLMとOCRモデルの進化速度は驚異的です。DeepSeek-OCRが構造解析に特化し、Chandraが複雑文書処理に強みを発揮するなど、選択肢が急速に増加しています。こうした進化を活かすには、モデルの選定と運用設計に柔軟性を持たせる必要があります。
重要なのは、VLMの失敗パターンを分析し、専門モデルに役割を分離するアプローチを継続することです。Algomatic Tech Blogが2025年に指摘したように、グラウンディングタスクと意味理解タスクの分離は今後も有効です。
ただし、業界の進化が速いため、2027年以降に MarkerやDeepSeek-OCRが陳腐化するリスクもあります。KENCOPAの実証では、QunaSysのTable TransformerとGPT-4Vの組み合わせが依然として高い精度を維持していますが、新モデルへの移行計画も重要です。
最後に、読者に向けた実践的なアドバイスとして、以下の3点を提案します。① MarkerのようなOSSツールを活用してローカル環境を整える ② クロップ処理とタスク分解を徹底する ③ 業界の進化に応じてモデル選定を柔軟に変更する。この3つの原則を守れば、PDF解析の精度向上は間違いありません。
実際の活用シーン
建設業界におけるSDS解析の現場では、このハイブリッドアプローチが具体的な業務効率化を実現しています。例えば、大手建設会社が年間5万枚以上のSDSを処理する際、従来のVLM単体では30%のエラー率があったのに対し、MarkerとVLMの連携によりエラー率を6%以下にまで改善。これにより、危険物質の迅速な特定や、調達時の規格適合性確認が可能となり、プロジェクト遅延リスクを大幅に削減しました。
また、化学メーカーの研究開発部門では、複数のSDSを比較解析することで、類似物質の性能差を可視化するシステムが構築されました。Markerによる構造解析により、CAS番号や物理化学的特性の一致率を95%以上に高め、新規物質の候補抽出を2週間から3日まで短縮する成果を上げています。
さらに、国際物流業界では、多言語SDSの自動翻訳と構造解析を組み合わせたソリューションが登場。英語・中国語・ドイツ語のSDSを統一フォーマットに変換し、危険物の国際搬送時のリスク評価をリアルタイムで実施しています。このシステムでは、Markerの言語非依存な構造解析が特に重要で、翻訳精度のばらつきを補正する役割を果たしています。
他の選択肢との比較
競合製品と比較すると、LlamaParseやMathpixといったクラウドベースのOCRツールは即時利用性が高い反面、複雑なテーブル構造に対する精度が劣ります。特にマージセルや多列テーブルの処理では、MarkerとVLMの組み合わせが0.9以上の精度を維持するのに対し、LlamaParse単体では0.7前後と大きな差があります。また、Mathpixは数式処理に特化しているため、化学物質データの構造解析には不向きです。
OSSツールの中でもDoclingは日本語処理に優れていますが、HTML出力の再構成に手間がかかる点が課題です。一方、MarkerはHTML構造を直感的に解析できるだけでなく、JavaScriptによる動的処理も可能で、複雑なレイアウトに対応する柔軟性があります。この点で、DoclingとMarkerの性能差は約0.15の精度差に表れています。
新世代モデルとして注目されているDeepSeek-OCRは、構造解析の自動化に特化しており、Markerの役割を一部代替可能です。ただし、日本語や複数列テーブルの処理ではMarkerの0.88に対し0.79と、依然として差があります。Chandraは複雑文書処理に強みを発揮しますが、クロップ処理の精度に劣るため、ハイブリッドアプローチでの併用が有効です。
導入時の注意点とベストプラクティス
導入初期において最も重要なのは、GPUの性能とメモリ容量の選定です。Markerは最低NVIDIA A40相当のGPUを推奨し、40GB以上のメモリを確保することで、大規模PDFの処理時間を30%短縮できます。また、日本語OCRの精度を高めるには、LayerXが提供する日本語特化モデルを併用する必要があります。
データ前処理の段階では、PDFの解像度を300dpi以上に設定し、背景ノイズを除去することが推奨されます。特に化学物質データでは、図表やフローチャートの影響で誤認識が発生しやすいため、OCR処理前のクリーンニングが精度に直結します。この工程で、ImageMagickやOpenCVを活用したノイズ除去処理が有効です。
運用上では、定期的なモデル更新と性能監視が不可欠です。2026年時点のデータでは、モデルの精度が年率2%ずつ変化する傾向が見られ、特に化学物質名の認識率に顕著です。このため、月単位でのテストデータベースの精度確認と、必要に応じたモデルファインチューニングを実施する必要があります。
今後の展望と発展の可能性
今後の発展として、AIとブロックチェーン技術の融合が期待されています。化学物質データの履歴追跡や、SDSの改ざん検出にブロックチェーンを活用することで、データの信頼性を高めるソリューションが登場しています。この分野では、Markerの構造解析能力と、スマートコントラクト技術の組み合わせが注目されており、2027年以降の実用化が予測されています。
また、量子コンピュータの進展により、従来の限界を超えた高速解析が可能になる可能性があります。特に、複雑な化学構造式の解析や、大規模データベースとの類似性検索において、従来のVLMが1時間かけていた処理を数分に短縮する進化が期待されています。ただし、量子コンピュータの実用化にはハードウェアの進化が不可欠であり、2030年を目標にした研究開発が進んでいます。
さらに、拡張現実(AR)技術との連携も進んでいます。現場作業者がスマートグラスでSDSを視覚化し、リアルタイムで危険物質情報を確認するシステムが試験的に導入されています。この技術では、Markerによる構造解析とAR画像の重ね合わせが鍵となり、今後5年以内に業界全体での普及が見込まれています。
📦 この記事で紹介した商品
※ 上記リンクはAmazonアソシエイトリンクです。購入いただくと当サイトに紹介料が入ります。


コメント