Benchmarking LLM-as-a-Judge for Long-Form Output Evaluation
何が新しいか長文評価では、構成、網羅性、深さ、整合性、シナリオ固有基準が絡み、短文QAのjudge評価とは違う不安定性が出る。
なぜ重要か`stock_screening` の長文レポートや `Daily _Writing` の添削を、LLM審査だけで合否判定するのは危険。
読む観点人間ラベル10-20件でjudgeを校正し、採点軸を事実性・根拠・構成・過剰断定に分ける。
AI Agent / LLM App Weekly Research
今週は、LLM-as-a-judgeの限界、エージェント実行トレース評価、MCPの状態レス化、長期記憶RAGを中心に整理する。既存アプリへの応用は、評価セットとツール監査から小さく始める。
EDITOR'S NOTE
LLMアプリ開発の焦点は「どのモデルを使うか」から、「どんな環境で、どんなツールを、どんな承認境界で、どう評価するか」へ移っている。
LLM-as-a-judgeは便利だが、長文や複数ターンでは不安定になる。人間ラベルとの一致確認が先。
最終回答だけでなく、ツール呼び出し、失敗箇所、復旧性を評価対象にする。
状態レス化、Tasks、Apps、認可強化により、承認・監査・長時間処理が中心課題になる。
WHAT TO READ THIS WEEK
何が新しいか長文評価では、構成、網羅性、深さ、整合性、シナリオ固有基準が絡み、短文QAのjudge評価とは違う不安定性が出る。
なぜ重要か`stock_screening` の長文レポートや `Daily _Writing` の添削を、LLM審査だけで合否判定するのは危険。
読む観点人間ラベル10-20件でjudgeを校正し、採点軸を事実性・根拠・構成・過剰断定に分ける。
何が新しいかsystem、trace、nodeの3階層でエージェント行動を説明し、失敗の場所と種類を追える。
なぜ重要かツール連鎖やCodex自動化では、最終出力だけ見ても改善点が分からない。
読む観点実装対象は高度なUIではなく、まずツール名、入力、出力、エラー、失敗分類を保存すること。
何が新しいか複数ターン会話に単一欠陥を注入し、良い会話と悪い会話のペアを作る。
なぜ重要か`trade_discipline` の助言や `Daily _Writing` の応答は、前ターンや履歴との整合が品質を決める。
読む観点欠陥タイプを、ルール違反見逃し、過剰助言、根拠不足、前ターン無視に限定して始める。
何が新しいかユーザー発話の類似検索ではなく、ゴールをサブゴールに分けて必要な記憶を逆向きに探す。
なぜ重要か長期利用アプリでは、似た文章より「今の判断に必要な過去の課題」を拾う必要がある。
読む観点毎回使わず、複雑な相談や過去パターン参照が必要な場面だけで検証する。
何が新しいか子チャンク検索と親文書単位の証拠集約を組み合わせ、multi-turn RAGの根拠忠実性を扱う。
なぜ重要かSEC文書やNotionでは、断片だけを拾うと文脈を誤る。
読む観点チャンクと親文書IDを保存し、回答に使った親単位の根拠を残す。
何が新しいか状態レスコア、Extensions、Tasks、MCP Apps、認可強化、JSON Schema 2020-12が入るRC。
なぜ重要か`mcp-notion-server` は、ツール公開だけでなく、状態依存、承認、ログ、長時間処理を設計する必要がある。
読む観点正式仕様前なので実装移行は保留し、互換性・安全性監査を先に行う。
何が新しいかAgent Skills、scheduled tasks、Think Workflows、durable chat recovery、MCP transport改善が追加。
なぜ重要か週次自動化や長時間タスクでは、途中切断、再実行、復旧可能性が品質になる。
読む観点製品移行ではなく、スキル遅延読み込みとdurable executionの設計を抽出する。
何が新しいかCodexがプラグイン、Sites、annotationsで知識作業に広がる。
なぜ重要かこの週次レポート生成、Web化、配信はCodexを知識作業自動化に使う例に近い。
読む観点memory、成果物パス、配信チェックリストを固定し、継続運用の再現性を上げる。
何が新しいか承認疲れだけでは守れず、環境、モデル、外部コンテンツの3層で被害範囲を制限する。
なぜ重要かNotion、Slack、Gmail、ローカルファイルへ触るエージェントは、write権限とread権限を同列に扱えない。
読む観点write系ツールにはdry-run、確認、ログ、ネットワーク境界を用意する。
何が新しいか測りたい行動を直接測る小さなevalを、タグ付きで運用する実務パターン。
なぜ重要か既存アプリは多様でも、失敗を再現して直したか確認する仕組みは共通で必要。
読む観点まず評価対象行動を3つ決め、JSONLとローカルスクリプトから始める。
TRENDS
APPLICATIONS
根拠引用、データ時点、過剰断定、仮説の反証可能性、計算再現性を分けて測る。期待効果は根拠不足の検出。実測は過去20件で人間ラベルとの一致率を見る。
ルール違反見逃し、FOMO_REENTRY、早期利確、恐怖売り、過剰助言を欠陥タイプにする。相談後取引の成績とは分け、助言プロセス品質を測る。
構成、指示遵守、再利用性、手修正量で測る。今週は優先タスクから外し、ルーブリック候補として保留。
今回の文章改善に必要な過去課題をサブゴール検索する。教育的品質、過干渉、幻覚、次の一歩の具体性を評価する。
read-only、write、destructive、external-auth、long-runningに分類し、dry-run、承認、ログ、入力・出力スキーマを棚卸しする。
DECISIONS
失敗分類つき実行ログ、長文・複数ターン評価の校正セット、MCPツールリスク分類。
Goal-Mem風サブゴール検索、H-RAG親単位集約、durable executionチェックリスト。
MCP RCへの実装移行、Cloudflare/OpenAI Agents SDKへの基盤移行、Agent Skills本格導入。
LLM judge単独ゲート、write系MCPツールの無承認公開、大規模ファインチューニング。
SMALL EXPERIMENTS
REFERENCES