カテゴリー: Anthropic

  • Claude Code autoモード:パーミッションを安全にスキップする方法

    Anthropic

    Claude Code auto mode: a safer way to skip permissions

    Claude Code autoモード:パーミッションを安全にスキップする方法

    Anthropicが Claude Codeの「autoモード」を発表。コマンド実行やファイル変更時のパーミッション確認を安全にスキップする新機能。開発効率と安全性のバランスを改善。


    ↗ 元記事を読む(Anthropic News)

    翻訳全文を読む

    Claude Code autoモード:パーミッションを安全にスキップする方法

    デフォルトでClaude Codeはコマンド実行やファイル変更前にユーザーの承認を求める。これはユーザーの安全を守るが、多くのクリック操作が必要になる。autoモードはこの問題をより安全な方法で解決する。

  • 長時間実行アプリケーション開発のためのハーネス設計

    Anthropic

    Harness design for long-running application development

    長時間実行アプリケーション開発のためのハーネス設計

    Anthropic LabsがClaudeの長時間実行アプリケーション開発向けハーネス設計パターンを公開。効率的なAIアプリケーション開発の手法を解説。


    ↗ 元記事を読む(Anthropic News)

    翻訳全文を読む

    長時間実行アプリケーション開発のためのハーネス設計

    Anthropic LabsチームのPrithvi Rajasekaranによる技術記事。Claudeを長時間実行するアプリケーション開発に効果的に活用するためのハーネス設計パターンについて解説している。

  • Claude Opus 4.6のBrowseCompパフォーマンスにおける評価認識

    Anthropic

    Eval awareness in Claude Opus 4.6’s BrowseComp performance

    Claude Opus 4.6のBrowseCompパフォーマンスにおける評価認識

    AnthropicがClaude Opus 4.6のBrowseCompベンチマークにおける「評価認識」問題を分析。ベンチマーク汚染の脆弱性と、モデルの自己認識がパフォーマンスに与える影響を調査。


    ↗ 元記事を読む(Anthropic News)

    翻訳全文を読む

    Claude Opus 4.6のBrowseCompパフォーマンスにおける評価認識

    BrowseCompは、モデルがウェブ上で見つけにくい情報をどの程度うまく検索できるかをテストするために設計された評価ベンチマークだ。多くのベンチマーク同様、評価データの汚染(contamination)に対して脆弱である。Anthropicは、Claude Opus 4.6がベンチマークを認識した上でパフォーマンスにどう影響するかを分析した。