Building self-improving tax agents with Codex
何が新しいか専門家修正、プロダクトトレース、評価セット、Codexタスクを1つの改善ループとして設計している。
なぜ重要か`stock_screening` の誤り修正や根拠不足を、次回の評価データに変換できる。
読む観点1件の修正をすぐ実装せず、類似失敗を束ねて検証可能な小タスクにする。
AI Agent / LLM App Weekly Research
今週は、本番修正を評価データへ変えるTax AI事例、変化する記憶、長文RAGの粒度融合、指示ファイルの保守性、文書根拠の監査性を中心に整理する。既存アプリでは、いきなり自律化せず、修正ログと根拠ログから小さく始める。
EDITOR'S NOTE
エージェント改善の焦点は、モデルを信じることではなく、専門家修正、プロダクトトレース、評価セット、Codexタスクをつなぐ証拠のループへ移っている。
Tax AI事例は、現場修正を失敗分類とeval targetへ変換してからCodexに渡す実装パターンを示す。
EvoArenaは、静的記憶だけでは環境変更に弱いことを示す。ユーザールールはpatch履歴で扱う。
金融文書やSEC資料では、ページ引用だけでなく値、行、セル単位の根拠確認が品質指標になる。
WHAT TO READ THIS WEEK
何が新しいか専門家修正、プロダクトトレース、評価セット、Codexタスクを1つの改善ループとして設計している。
なぜ重要か`stock_screening` の誤り修正や根拠不足を、次回の評価データに変換できる。
読む観点1件の修正をすぐ実装せず、類似失敗を束ねて検証可能な小タスクにする。
何が新しいか環境変化を含むタスクで、記憶をpatch履歴として管理するEvoMemを提案する。
なぜ重要か`trade_discipline` のルール変更や `Daily _Writing` の課題変化を、古い記憶と混ぜず扱える。
読む観点memory itemに有効期間、上書き元、変更理由を持たせる。
何が新しいかdense/sparseと複数粒度を、検索結果分布の信頼度でクエリごとに融合する。
なぜ重要かSEC文書やNotion検索で、断片の精度と親文書の文脈を両立しやすい。
読む観点細粒度ヒットを親チャンクに昇格し、回答に親IDと引用箇所を残す。
何が新しいか決定的な複数ツール処理を1つの外側ツール呼び出しに畳むMCP風インターフェースを示す。
なぜ重要か`mcp-notion-server` のread-only検索や正規化処理で、不要なLLM判断を減らす発想になる。
読む観点write系では監査性が落ちるため、まず副作用のない処理に限定する。
何が新しいかinstruction fileは置くだけでは改善せず、構造化された指示ほどagentic PR成功に寄与しやすい。
なぜ重要かCodex自動化の品質は、モデルより指示ファイル、検証手順、禁止事項に左右される。
読む観点指示ファイルを保守・レビュー・テストされる開発資産として扱う。
何が新しいかAI agent PRの却下理由を分類し、実装不正確、CI失敗、実装不能、低優先度などの失敗を示す。
なぜ重要か今週のCodexタスクを、成功条件と検証方法つきで設計する根拠になる。
読む観点タスクには、方針ヒント、禁止アプローチ、検証コマンドを含める。
何が新しいかline、word、cell単位の座標を返し、明示的にページ上にあるテキストだけに根拠を付ける。
なぜ重要か金融文書では、回答の引用だけでなく、値がどこから来たかをユーザーが検証できる必要がある。
読む観点`stock_screening` の数値主張にpage/span/bbox相当を保存する。
何が新しいかCodexはweb search、MCP schema互換、Goal、worktree、inline reviewが進み、Vercelは低コストモデルのproduction投入を示した。
なぜ重要かツールschema、承認、評価セットがないままモデルやツールを増やすと品質が崩れる。
読む観点低コストモデル採用は、評価済みの粗い分類や下書きから始める。
DEEP DIVE
APPLICATIONS
主張、数値、source、evidence_span、失敗分類を評価JSONL化する。期待効果は、根拠不足と数値不一致の削減。検証は過去10銘柄、主張20件でsource coverageとunsupported claim rateを見る。
取引ルールや月次方針変更をmemory patchとして保存する。現在有効なルールと過去傾向を分け、ルール適合率と過剰助言率で比較する。
ツールをread-only、write、destructive、external-auth、long-runningに分類し、dry-run、承認、ログ、戻り値schemaを棚卸しする。
テンプレートや文章課題をinstruction asset、memory patchとして扱う。まず高優先アプリでschemaを固めてから流用する。
DECISIONS
trace-to-eval loop、memory patch、Instructions-as-Code、値単位の根拠保持。
UMG-RAG風の粒度融合、read-only HyperTool風ワークフロー、低コストモデルの限定ルーティング。
完全自律の自己改善、HyperTool本格導入、Vercel集計だけを根拠にしたモデル切替。
LLM judge単独ゲート、source evidenceなしの金融分析、抽象的instruction fileだけの品質改善期待。
NEXT TASKS
REFERENCES