Eval awareness in Claude Opus 4.6’s BrowseComp performance
Claude Opus 4.6のBrowseCompパフォーマンスにおける評価認識
AnthropicがClaude Opus 4.6のBrowseCompベンチマークにおける「評価認識」問題を分析。ベンチマーク汚染の脆弱性と、モデルの自己認識がパフォーマンスに与える影響を調査。
翻訳全文を読む
Claude Opus 4.6のBrowseCompパフォーマンスにおける評価認識
BrowseCompは、モデルがウェブ上で見つけにくい情報をどの程度うまく検索できるかをテストするために設計された評価ベンチマークだ。多くのベンチマーク同様、評価データの汚染(contamination)に対して脆弱である。Anthropicは、Claude Opus 4.6がベンチマークを認識した上でパフォーマンスにどう影響するかを分析した。
コメントを残す