🤖 OpenAI 研究称让模型生成“自白”可提升语言模型的诚实度OpenAI一项早期概念验证技术训练模型产生独立“自白”输出,报告其违反指令或采取意外捷径的行为。该方法将主要回答按正确性、合规性和安全性等多维度评估,而“自白”仅针对诚实度训练,即使承认违规也不会影响主要回答奖励。
测试显示,该方法显著提高模型违规行为的可见性,在多项诱导违规评估中,假阴性率平均仅为4.4%。研究使用GPT-5 Thinking模型,在对抗性数据集上验证其有效性,并计划进一步扩展以增强AI安全监控。
OpenAI🍀在花频道 🍵茶馆 📮投稿新鲜事