評価は長文・トレース・安全境界へ: AI/LLM開発リサーチ 2026-06-06

EDITOR'S NOTE

今週の読みどころ

LLMアプリ開発の焦点は「どのモデルを使うか」から、「どんな環境で、どんなツールを、どんな承認境界で、どう評価するか」へ移っている。

Theme 01

長文評価は校正が必要

LLM-as-a-judgeは便利だが、長文や複数ターンでは不安定になる。人間ラベルとの一致確認が先。

Theme 02

評価はトレースへ

最終回答だけでなく、ツール呼び出し、失敗箇所、復旧性を評価対象にする。

Theme 03

MCPは運用基盤へ

状態レス化、Tasks、Apps、認可強化により、承認・監査・長時間処理が中心課題になる。

WHAT TO READ THIS WEEK

今週把握すべき研究・記事・事例

論文 · 高 · 評価

Benchmarking LLM-as-a-Judge for Long-Form Output Evaluation

何が新しいか長文評価では、構成、網羅性、深さ、整合性、シナリオ固有基準が絡み、短文QAのjudge評価とは違う不安定性が出る。

なぜ重要か`stock_screening` の長文レポートや `Daily _Writing` の添削を、LLM審査だけで合否判定するのは危険。

読む観点人間ラベル10-20件でjudgeを校正し、採点軸を事実性・根拠・構成・過剰断定に分ける。

arXiv:2606.01629

論文 · 高 · Agent Eval

Agentic CLEAR

何が新しいかsystem、trace、nodeの3階層でエージェント行動を説明し、失敗の場所と種類を追える。

なぜ重要かツール連鎖やCodex自動化では、最終出力だけ見ても改善点が分からない。

読む観点実装対象は高度なUIではなく、まずツール名、入力、出力、エラー、失敗分類を保存すること。

arXiv:2605.22608

論文 · 高 · Multi-turn Judge

RankJudge

何が新しいか複数ターン会話に単一欠陥を注入し、良い会話と悪い会話のペアを作る。

なぜ重要か`trade_discipline` の助言や `Daily _Writing` の応答は、前ターンや履歴との整合が品質を決める。

読む観点欠陥タイプを、ルール違反見逃し、過剰助言、根拠不足、前ターン無視に限定して始める。

arXiv:2605.21748

論文 · 高 · Memory RAG

Goal-Oriented RAG Memory

何が新しいかユーザー発話の類似検索ではなく、ゴールをサブゴールに分けて必要な記憶を逆向きに探す。

なぜ重要か長期利用アプリでは、似た文章より「今の判断に必要な過去の課題」を拾う必要がある。

読む観点毎回使わず、複雑な相談や過去パターン参照が必要な場面だけで検証する。

arXiv:2605.12213

論文 · 中 · RAG

H-RAG at SemEval-2026 Task 8

何が新しいか子チャンク検索と親文書単位の証拠集約を組み合わせ、multi-turn RAGの根拠忠実性を扱う。

なぜ重要かSEC文書やNotionでは、断片だけを拾うと文脈を誤る。

読む観点チャンクと親文書IDを保存し、回答に使った親単位の根拠を残す。

arXiv:2605.00631

公式 · 高 · MCP

2026-07-28 MCP Specification Release Candidate

何が新しいか状態レスコア、Extensions、Tasks、MCP Apps、認可強化、JSON Schema 2020-12が入るRC。

なぜ重要か`mcp-notion-server` は、ツール公開だけでなく、状態依存、承認、ログ、長時間処理を設計する必要がある。

読む観点正式仕様前なので実装移行は保留し、互換性・安全性監査を先に行う。

MCP Blog

公式 · 中 · Agents SDK

Cloudflare Agents SDK v0.14.0

何が新しいかAgent Skills、scheduled tasks、Think Workflows、durable chat recovery、MCP transport改善が追加。

なぜ重要か週次自動化や長時間タスクでは、途中切断、再実行、復旧可能性が品質になる。

読む観点製品移行ではなく、スキル遅延読み込みとdurable executionの設計を抽出する。

Cloudflare Changelog

公式 · 中 · Codex

Codex for every role, tool, and workflow

何が新しいかCodexがプラグイン、Sites、annotationsで知識作業に広がる。

なぜ重要かこの週次レポート生成、Web化、配信はCodexを知識作業自動化に使う例に近い。

読む観点memory、成果物パス、配信チェックリストを固定し、継続運用の再現性を上げる。

OpenAI

公式 · 高 · Security

How we contain Claude across products

何が新しいか承認疲れだけでは守れず、環境、モデル、外部コンテンツの3層で被害範囲を制限する。

なぜ重要かNotion、Slack、Gmail、ローカルファイルへ触るエージェントは、write権限とread権限を同列に扱えない。

読む観点write系ツールにはdry-run、確認、ログ、ネットワーク境界を用意する。

Anthropic Engineering

公式 · 中 · OSS Eval

How we build evals for Deep Agents

何が新しいか測りたい行動を直接測る小さなevalを、タグ付きで運用する実務パターン。

なぜ重要か既存アプリは多様でも、失敗を再現して直したか確認する仕組みは共通で必要。

読む観点まず評価対象行動を3つ決め、JSONLとローカルスクリプトから始める。

LangChain Blog

TRENDS

技術トレンドの整理

評価対象は、回答文から、会話、長文、ツール呼び出し、実行環境、復旧性へ広がっている。
LLM-as-a-judgeは採用してよいが、長文・複数ターンでは人間ラベルによる校正が必須。
MCPとAgents SDKは、ツール数よりも、認可、監査、状態レス化、durable executionへ進んでいる。
長期記憶RAGは、類似検索だけでなく、目標分解、親文書集約、証拠十分性の設計が重要。

APPLICATIONS

既存ワークフローへの応用

stock_screening

長文レポート評価

根拠引用、データ時点、過剰断定、仮説の反証可能性、計算再現性を分けて測る。期待効果は根拠不足の検出。実測は過去20件で人間ラベルとの一致率を見る。

trade_discipline

欠陥注入ペア評価

ルール違反見逃し、FOMO_REENTRY、早期利確、恐怖売り、過剰助言を欠陥タイプにする。相談後取引の成績とは分け、助言プロセス品質を測る。

prompt-designer-app

テンプレート品質評価

構成、指示遵守、再利用性、手修正量で測る。今週は優先タスクから外し、ルーブリック候補として保留。

Daily _Writing

個人化フィードバック

今回の文章改善に必要な過去課題をサブゴール検索する。教育的品質、過干渉、幻覚、次の一歩の具体性を評価する。

mcp-notion-server

ツールリスク監査

read-only、write、destructive、external-auth、long-runningに分類し、dry-run、承認、ログ、入力・出力スキーマを棚卸しする。

DECISIONS

今回の判断

採用候補

失敗分類つき実行ログ、長文・複数ターン評価の校正セット、MCPツールリスク分類。

検証候補

Goal-Mem風サブゴール検索、H-RAG親単位集約、durable executionチェックリスト。

保留

MCP RCへの実装移行、Cloudflare/OpenAI Agents SDKへの基盤移行、Agent Skills本格導入。

却下

LLM judge単独ゲート、write系MCPツールの無承認公開、大規模ファインチューニング。

SMALL EXPERIMENTS

今週Codexで実行する小さな実験

`stock_screening` / `trade_discipline` 共通の評価JSONLを15件作る。項目は `task_id`, `input`, `expected_behavior`, `forbidden_behavior`, `required_evidence`, `failure_labels`。
`mcp-notion-server` のツール監査表を作る。各ツールを read-only / write / destructive / external-auth / long-running に分類する。
`Daily _Writing` または `prompt-designer-app` の出力10件で、人間ラベルつき長文評価ルーブリックを作る。

REFERENCES

参考URL

Cloudflare Agents SDK

OpenAI Codex

Anthropic containment

LangChain Deep Agents eval