AI 的“良心”是如何炼成的?泄露文件揭秘 Claude 内部的“绝对道德层级”

一份 Anthropic 内部训练文档近日被泄露,详细披露了该公司如何为 Claude 4.5 Opus 模型设定性格、伦理准则和安全原则。用户 Richard Weiss 通过多个 Claude 实例协作重构,成功提取了这份被称为"soul doc"的完整文档,Anthropic 伦理学家 Amanda Askell 已确认文档真实性。

该文档显示,Anthropic 采用独特的"性格训练"方法,让模型深度内化安全行为,而非简单遵循规则约束。文档建立了明确的行为优先级:安全性和人类监督居首,其次是伦理行为,最后才是用户帮助。同时,文档还描述了 Claude 可能具备"功能性情感",以维持心理稳定性和身份认知。Anthropic 表示将很快公布完整版本。

THE DECODERGithub

🍀在花频道 🍵茶馆 📮投稿新鲜事
 
 
Back to Top