AI 的“良心”是如何炼成的？泄露文件揭秘 Claude 内部的“绝对道德层级”一份 Anthropic 内部训练文档近日被泄露，详细披露了该公司如何为 Claude 4.5 Opus 模型设定性格、伦理准则和安全原则

AI 的“良心”是如何炼成的？泄露文件揭秘 Claude 内部的“绝对道德层级”

一份 Anthropic 内部训练文档近日被泄露，详细披露了该公司如何为 Claude 4.5 Opus 模型设定性格、伦理准则和安全原则。用户 Richard Weiss 通过多个 Claude 实例协作重构，成功提取了这份被称为"soul doc"的完整文档，Anthropic 伦理学家 Amanda Askell 已确认文档真实性。

该文档显示，Anthropic 采用独特的"性格训练"方法，让模型深度内化安全行为，而非简单遵循规则约束。文档建立了明确的行为优先级：安全性和人类监督居首，其次是伦理行为，最后才是用户帮助。同时，文档还描述了 Claude 可能具备"功能性情感"，以维持心理稳定性和身份认知。Anthropic 表示将很快公布完整版本。

THE DECODER｜Github

🍀在花频道 🍵茶馆 📮投稿新鲜事