Improving instruction hierarchy in frontier LLMs
フロンティアLLMにおけるインストラクション階層の改善
OpenAIが「IH-Challenge」を導入し、信頼されたインストラクションの優先付けによりプロンプトインジェクション耐性と安全性を向上させる研究を発表。
翻訳全文を読む
フロンティアLLMにおけるインストラクション階層の改善
IH-Challengeを導入し、信頼できるインストラクションを優先するようモデルを訓練することで、インストラクション階層、安全性のステアラビリティ、プロンプトインジェクションへの耐性を改善する研究成果を発表した。
コメントを残す