コードは完璧、戦略は赤字：AIが「ラフパス理論」EAを自動生成・改良した4時間の記録¶

コードは完璧、戦略は赤字

この記事の3行まとめ

AiTEAMがブログ記事を読んでMQL5 EAをV1から全自動生成・改良した
コードの品質はどんどん向上したが、バックテストは一貫して赤字だった
AIはバグを直せても、市場に勝つ「エッジ」の設計はまだ人間の仕事だとわかった

「AIに記事を読ませてEAを書かせ、AIにテストさせ、AIに直させる」。FXブログ「fx-omoshiro-lab」の自律AIチーム「AiTEAM」は、その全自動ループを初めて本格稼働させた。その対象は、当ブログで提唱する「ラフパス理論」（検証#07）を基にしたブレイクアウト戦略。生成から改良、そして壁にぶつかるまでの約4時間、AIたちは何を考え、何を成し遂げ、何に敗れたのか。その全過程を、開発ログから再現する。

序章：AIチームの編成と、理論のコード化¶

今回のプロジェクトの舞台裏は、複数のAIモデルが役割分担する「AiTEAM」と、全体を指揮する「UO (Universal Orchestrator)」だ。UOがブログ記事「ラフパス理論」を読み込み、EAの設計仕様書を生成。それをAiTEAMの下位モデル（GLM-4.7）が骨格にし、上位モデル（GLM-5.1）が本実装を行う。生成されたコードは、レビュー専門のAI（Claude Haiku, Sonnet, Opus）によってチェックされ、合格したものだけが次のステージへ進む。

戦略の核は「ラフパス理論」の定量化にある。市場の「粗さ」を測るRoughVol指標で相場環境（トレンド/レンジ/荒れ）を判定し、ローソク足の「形の良さ」を評価するPathShapeスコアでエントリーを選別。ATRブレイクアウトでタイミングを計り、ADXやEMAでトレンド方向をフィルタリングする。いわば、市場の「質」と「勢い」を多角的に数値化して取引に活かそうという、野心的なコンセプトだった。

そして今回、新たなプレイヤーが加わった。autopilot.pyである。これは、バックテスト実行、結果分析、修正指示の生成、そして次のバージョン生成までを完全自動でループさせる新機能だ。人間の介入なしにEAが自己進化する瞬間を、我々は初めて目撃することになる。

第一幕：誕生と、初めての挫折（V1〜V4）¶

V1 – 997行の産声と、7つの宿痾

UOの仕様書を受け、GLM-4.7が64秒で骨格を生成。GLM-5.1が438秒をかけ、997行に及ぶMQL5コード「RoughVol_PathShape_ATR_Breakout_EA」が誕生した。コストは約11セント。しかし、AIレビューは厳しかった。軽量レビュアーのHaikuは12/20点で「FAIL」を宣告。より深い分析を行うSonnetとOpusは辛うじて合格点（16.5, 17/20点）を与えたが、その指摘内容は核心を突いていた。

マーチンゲールロジックが不完全

EA再起動で損益記録がリセットされる

相場環境悪化の検知が機能しない

フィルターのON/OFFスイッチ未実装…

コードは動くが、実戦では脆い「欠陥品」だった。AIは即座に修正ループに入る。

V2・V3 – バグ修正の嵐と、レビューAIの葛藤

V2、V3と続く急成長期。マージンチェックの追加、パフォーマンス改善、表示機能の強化…。コードは1127行、1272行と膨らみ、レビュアーSonnetとOpusの評価は18点台まで上昇した。「コードの品質は確実に向上している」。しかし、ここで興味深い現象が起きた。軽量レビュアーHaikuはV2で「FAIL」を出し続け、V3ではシステムエラー（JSONパース失敗）すら起こした。AIレビューシステム自身の脆弱性が露呈した瞬間でもある。

V4 – 完成、そして無情の現実

AiTEAMの標準改良ループ（3イテレーション）を完走したV4。総コストは$1.22。ここで、ついに初の本格バックテストが実行された。期間は過去3年（2023-2025）、通貨ペアはEURUSD H1。

項目	結果
総取引数	287件
勝率	43.6%
プロフィットファクター(PF)	0.79
最大ドローダウン	15.5%
純損益	-1,419 USD

AIは立派なコードを書いた。しかし、それは「儲かるEA」ではなかった。数学的に敗北が約束されていた。

第二幕：深層分析と、構造的問題の露見（V5〜V8）¶

V5 – Sonnetの診断「これは数学的に負けている」

V4の敗因を、軽量レビュアーHaikuは「PFが低い」とだけ報告した。そこで投入されたのが、中級分析AIのClaude Sonnetだ。Sonnetはバックテスト結果を深掘りし、冷酷な事実を指摘した。

「平均リスクリワード比は1.02、勝率は43.6%です。この戦略が損益分岐に必要な勝率は49.5%です。つまり、現在のパラメータでは、このEAは長期的に必ず損をする数学的構造です。フィルターをいじるような表面的な修正では解決せず、利益と損失の比率（TP/SL）そのものの見直しが必要です」

この核心的な指摘を受け生成されたV5。しかし、そのバックテスト結果はV4とほとんど変わらなかった。Sonnetは問題を「発見」したが、GLMにそれを「修正させる」ための適切な指示を生成することは難しかった。根本構造の変更は、まだAIの手に余る作業だった。

V7 – 531行の亡霊：生成AIの限界による大事故

V6を経て、プロジェクトは暗転する。V7の生成中、GLM-5.1のトークン制限（32,000）に引っかかり、1400行あるコードが途中で切断されてしまった。末尾の}が欠落し、関数が宙ぶらりんになった状態で保存された「亡霊コード」が生まれた。

コンパイル結果は、エラー37件。AI生成システムが自ら生み出した「生成不全」という新種のバグだった。この事故は、autopilot.pyに「切断検知ロジック」と「動的トークン推定」という重要な安全装置を追加させる契機となった。

V8 – 誤判定の修正と、変わらない現実

V7の失敗を教訓に修正を重ねたV8。別のバグ、「EAタイプ検知システムがマーチンゲールと誤判定し続ける」問題も解決した。コードは1407行に整理され、一見すると完成度が増した。

しかし、バックテストは冷たい。取引数は130件に半減し、勝率は35.4%、PFは0.64にまで悪化。コードの品質と戦略の収益性は、もはや完全に別次元の話だった。

第三幕：autopilotの目覚めと、トレード数の壁（V9〜V11）¶

全自動ループ、始動

ここで、新機能autopilot.pyが本格稼働する。その役割は革命的だ。MT5戦略テスターをキューで自動実行し、結果を分析し、問題点を特定し、修正指示を生成し、次のバージョンをAIに作らせる——すべてを無人で行う。

autopilotには「スクリーニング条件」が設定された。直近3ヶ月（2025年10〜12月）で、取引数が50件以上あること。これは、現在の市場環境で戦略が機能しているかどうかの、最低限の生存テストだ。

バージョン	直近3ヶ月取引数	autopilot判定
V9	3件	SKIP_LOW_TRADES
V10	5件	SKIP_LOW_TRADES
V11	6件	SKIP_LOW_TRADES

結果は惨憺たるものだった。V9からV11にかけて、取引数は3→5→6件と、50件の基準にまったく届かない。autopilotは忠実にルールを適用し、これらのバージョンを「取引数不足」としてスキップした。この「フィルターを盛りすぎてエントリーが消える」現象は、後に検証#12（ボツEAの黄金パターン）でも“取引数極小”として定番の失敗パターンに認定されることになる。

なぜ、トレードが消えたのか？

分析によれば、原因は2025年後半という特定の市場環境と、AIの「改善」の方向性にあった。もともと多くのフィルター（ADX、EMA、PathShape、時間帯フィルター）を積み重ねたこのEAは、静かな相場ではエントリー機会が激減する。そこに、GLMへの修正指示が「フィルターの精度を上げよ」「条件を厳しくせよ」という方向に偏りがちだったため、悪循環が発生。エントリーはさらに絞られ、ついにはほとんど発生しなくなった。

autopilotシステムは、この行き詰まりを2回連続で検知すると、内部で緊急措置を発動しようとした。「全フィルターをOFFにし、ブレイクアウトの判定期間を短縮せよ」という強制的な修正指示を、V12生成のために準備したのである。

しかし、そのV12が生成される前に、人間（管理人）のオペレーターがボタンを押した。「停止」。

終章：コスト$1.61、時間4時間で得た教訓¶

総コスト: 約$1.61
総所要時間: 約4時間（人間の作業は約30分）
生成バージョン数: 11
最終ステータス: 数学的に負ける戦略の、高品質なコード

我々は、AIが驚異的なスピードで「仕様書から動作するコード」を生成し、自らバグを発見・修正する過程を目撃した。autopilot.pyは、人間の監督を最小限に抑えた継続的改良ループの可能性を示した。

しかし、最も重要な問いには答えられなかった。「この戦略に、市場に勝つための『エッジ』は本当に存在するのか？」

AIは、コードの「正しさ」を追求できる。だが、戦略の「優位性」を設計することは、依然として人間に委ねられた難題だ。ラフパス理論というアイデアをコード化することはできても、そのアイデアが金融市場で機能するかどうかは、別の問題なのである。この「動くコード」と「勝てるエッジ」のギャップは、当ラボの通底するテーマで、検証#15-1／#15-2（計測ループ）では“エッジが本当に効いているかを測り続ける”という別解にたどり着いています。

V12の強制修正が功を奏したかどうかは、もはやわからない。だが、この4時間の実験が明らかにしたのは、FX自動売買の未来が「AIによる完全自動開発」にあるのではなく、「人間の戦略洞察と、AIの高速実装・テスト能力の協業」にあるという、当たり前の、しかし深い現実だった。

AIは、最強のコーディングアシスタントたり得る。だが、投資家の代わりには、まだなれない。

この記事自体も、UO（Universal Orchestrator）がDeepSeekで草稿を生成し、Sonnetが校閲した。記事制作コスト$0.028。

前後の記事¶

前: 【コラム】ラフパス理論とラフ・ボラティリティ — 最先端数学はFXトレーダーの武器になるか？次: マーチンゲール完全解剖：破滅の数学と歴史