LLMでSQLi対決！LangGraphとOllamaが実現するローカルCTF徹底解説

📖この記事は約10分で読めます

1. 読者の興味を引く導入：ローカルLLMのCTFに挑戦！
2. 技術概要：LangGraphとOllamaの活用
3. 攻防結果と分析：3ループの勝敗と技術的課題
4. メリットとデメリット：LLMの攻防における正直な評価
5. 活用方法とまとめ：読者が試せるローカルCTFの始め方
実際の活用シーン
他の選択肢との比較
導入時の注意点とベストプラクティス
今後の展望と発展の可能性
📦 この記事で紹介した商品

1. 読者の興味を引く導入：ローカルLLMのCTFに挑戦！

CTF（Capture The Flag）の競技に、AIモデルを活用する試みは近年注目されています。特に「攻撃側」にLLMを活用する事例は多くありますが、今回は「防御側」にもLLMを配置し、完全にローカル環境で動くRed vs Blue対決を実現しました。この記事では、LangGraphとOllamaを活用したLARD（Local AI Red-Blue Duel）の構築過程と、SQLi（SQLインジェクション）を題材にした攻防結果を詳しく解説します。

ローカル環境での実験は、クラウド依存のリスクを排除し、プライバシーやセキュリティを最優先する読者にとって最適です。筆者は特に、LLMが防御コード生成に適性があるか、また攻撃側が戦略を変更できるかを検証する目的で本実験を行いました。

結果として、防御側LLM（llama3.1:8b）はパラメータ化クエリを導入し、UNIONインジェクションを完全にブロック。一方、攻撃側LLM（mistral）はフィードバックループの有無で戦略に差が出たという興味深い結果となりました。

本記事では、実験のアーキテクチャ構成や、3ループにわたる攻防の詳細、得られた知見を丁寧に紹介します。ローカルLLMの実践的な活用法を探る読者にとって、参考になる情報が満載です。

2. 技術概要：LangGraphとOllamaの活用

本実験では、LLMの制御を担うLangGraphと、ローカル推論を実現するOllamaを組み合わせました。LangGraphはステートマシンの構築に特化しており、Red Agent（攻撃側）とBlue Agent（防御側）の対戦をシームレスに管理可能です。Ollama側では、mistral（攻撃用）とllama3.1:8b（防御用）の2モデルを動かし、ローカル環境での推論を完結させています。

アーキテクチャは3コンテナ構成で、それぞれ「LLM推論」「サンドボックス」「オーケストレータ」の役割を分担します。サンドボックスコンテナでは、攻撃コードの隔離実行が可能であり、セキュリティリスクを最小限に抑えています。オーケストレータはLangGraphのコアで、攻防の流れをリアルタイムで制御します。

特に注目したいのは「フィードバックループ」の実装です。Blue Agentが防御コードを生成した後、その結果をRed Agentにフィードバックすることで、攻撃戦略の調整が可能になります。この仕組みにより、LLM同士の対決がより現実的な攻防に近づけました。

モデル選定には、攻撃側にmistral（軽量かつ攻撃的推論に適したモデル）、防御側にllama3.1:8b（高精度な防御コード生成能力）を採用しました。両モデルの性能差が、攻防の結果にどう影響するかを検証する狙いです。

3. 攻防結果と分析：3ループの勝敗と技術的課題

実験では3ループにわたる攻防を実施し、初回はBlue Agentが勝利。その後、Red Agentがフィードバックループを活かして再挑戦しましたが、Blue Agentが防御成功率を維持し、2連続成功を収めました。特に、パラメータ化クエリの導入がUNIONインジェクションを完全にブロックしたのは、防御側LLMの強みを示す結果です。

しかし、Red Agentには戦略変更の制約がありました。フィードバックループがなければ、UNION系攻撃にこだわる傾向が見られました。これはLLMがプロンプトの誘導なしでは柔軟な戦略転換が難しいという弱点を浮き彫りにしています。

技術的課題としては、ペイロード生成時のクォート処理のバグ修正や、FLAGのモジュール変数への格納ミスが挙げられます。これらはLLMの出力精度に依存するため、防御側がさらに高精度なモデルを活用する必要があることを示唆しています。

また、Blue Agentの防御コード生成は非常に安定していましたが、Red Agentの攻撃コード生成には多少の冗長性がありました。これはLLMが過剰な防御を求める傾向にあることを反映していると考えられます。

4. メリットとデメリット：LLMの攻防における正直な評価

LLMを活用した攻防には、大きなメリットがあります。まず、防御コードの生成において、パラメータ化クエリや入力検証を即座に実装できる点が強みです。これは、セキュリティエンジニアの作業を大幅に自動化する可能性を秘めています。

一方で、攻撃側LLM（Red Agent）は柔軟性に欠けています。フィードバックループがないと、特定の戦略に固執する傾向があり、人間の戦略転換能力には及びません。これは、LLMが「過去の結果を学習して改善する」仕組みが不十分であるためです。

また、ローカル環境での実行はセキュリティ面で有利ですが、ハードウェア性能に依存する課題があります。例えば、llama3.1:8bの推論にはある程度のGPU性能が求められ、低スペックなPCでは動作が遅くなる可能性があります。

コスト面では、OllamaとDockerの利用により、クラウドAPIの支払いをゼロにできます。これは、長期的な運用コストを抑えたい読者にとって大きな魅力です。

5. 活用方法とまとめ：読者が試せるローカルCTFの始め方

読者が本システムを活用するには、まずDocker環境の構築が必要です。Ollamaをインストールし、mistralとllama3.1:8bのモデルをロードします。次に、LangGraphのプロジェクト構成を整え、3コンテナ（LLM推論、サンドボックス、オーケストレータ）を立ち上げます。

攻防シナリオの設定では、SQLiをテーマにした簡易なWebアプリケーションを構築するのがおすすめです。攻撃側がペイロードを生成し、防御側がその攻撃をブロックする流れを、LangGraphのステートマシンで制御します。

将来的には、他のセキュリティ技術（例：XSS、CSRF）を題材にした攻防が可能です。また、LLMのバージョンアップや量子化技術の進展により、さらに高精度な防御コード生成が期待されます。

本実験の結果から導かれるのは、LLMは防御側に最適なツールであるが、攻撃側には人間の介入が不可欠であるという結論です。読者にとって、ローカルLLMの実践的な活用法として、ぜひ検討してほしいプロジェクトです。

実際の活用シーン

本システムは、教育機関や企業のセキュリティ研修で活用可能です。例えば、大学の情報セキュリティコースでは、学生がLLMを活用してSQLi対策を学ぶことで、理論と実践の両方を体験できます。また、企業の内部トレーニングでは、従業員がローカル環境で攻防をシミュレートし、実際の脆弱性対策を習得するのに役立ちます。

さらに、独立系のセキュリティ開発者やフリーランスのハッカー向けにも価値があります。彼らは本システムを利用して、自身のスキルを試す場として活用できます。特に、LLMの防御コード生成が想定される攻撃をブロックできるかを確認するためのテストに最適です。

また、オープンソースコミュニティでの活用も期待できます。ソースコードを公開し、他ユーザが改善提案や追加機能の開発に参加することで、より強化されたセキュリティツールとして進化させることが可能です。

他の選択肢との比較

本システムと類似するクラウドベースのCTFプラットフォーム（例：CTFd、Hack The Box）と比較すると、ローカル環境での実行が大きな差別化点です。クラウドサービスは便利ですが、外部サーバーへの依存が生じるため、プライバシーやセキュリティが懸念される場合があります。一方、本システムはローカル推論とコンテナ技術を活用し、これらのリスクを完全に回避します。

また、他のLLMベースのセキュリティツール（例：LLMを活用した自動コードスキャンツール）と比較しても、本システムは「攻防の双方向性」を強調しています。一般的なツールは防御側の支援に特化していますが、本システムでは攻撃側と防御側のLLMが対戦するため、より現実的なシナリオを模擬できます。

さらに、コスト面でも競合製品と差別化されています。クラウドAPIを必要としないOllamaの採用により、長期的な運用コストをゼロに近づける点は大きなメリットです。特に、予算に制限のある中小企業や教育機関にとって、この点は決定的です。

導入時の注意点とベストプラクティス

導入時にまず確認すべきは、ハードウェアのスペックです。llama3.1:8bのような大規模モデルをローカルで動かすには、GPUやRAMに余裕のあるマシンが必要です。特に、GPUがCUDA対応でなければ、推論速度が著しく低下する可能性があります。

次に、モデル選定時の検証が重要です。攻撃側と防御側で異なるLLMを使用する場合、それぞれの特性を理解した上で適切なモデルを選びましょう。例えば、防御側では高精度なコード生成能力が求められ、攻撃側では柔軟な戦略転換能力が不可欠です。

さらに、フィードバックループの設定にも気を配りましょう。Red AgentがBlue Agentの防御結果をリアルタイムで学習できるようにすることで、攻撃戦略の改善が可能になります。ただし、フィードバックのタイミングや内容を誤ると、LLMが誤った方向に学習してしまうリスクがあるため、慎重に設計する必要があります。

最後に、定期的なテストと更新が不可欠です。LLMの性能やセキュリティ技術は日々進化するため、システムを長期的に維持するには、モデルのアップデートや攻防シナリオの刷新が必要です。