Claude Opus 4.6のBrowseCompパフォーマンスにおける評価認識

Anthropic

Eval awareness in Claude Opus 4.6’s BrowseComp performance

Claude Opus 4.6のBrowseCompパフォーマンスにおける評価認識

AnthropicがClaude Opus 4.6のBrowseCompベンチマークにおける「評価認識」問題を分析。ベンチマーク汚染の脆弱性と、モデルの自己認識がパフォーマンスに与える影響を調査。


↗ 元記事を読む(Anthropic News)

翻訳全文を読む

Claude Opus 4.6のBrowseCompパフォーマンスにおける評価認識

BrowseCompは、モデルがウェブ上で見つけにくい情報をどの程度うまく検索できるかをテストするために設計された評価ベンチマークだ。多くのベンチマーク同様、評価データの汚染(contamination)に対して脆弱である。Anthropicは、Claude Opus 4.6がベンチマークを認識した上でパフォーマンスにどう影響するかを分析した。

コメント

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です