【莫谈国事】 大家多多分享
• 禁止推广/黑产/刷屏/色情/ NSFW
• 禁止黄赌毒/宗教/政治/键政
• 禁止撕逼/人身攻击/阴阳怪气
群聊:@zaihuachat
侵权/解封/帮助 @zaihuaAskBot
意见反馈 / 举报 @zaihua_bot
• 禁止推广/黑产/刷屏/色情/ NSFW
• 禁止黄赌毒/宗教/政治/键政
• 禁止撕逼/人身攻击/阴阳怪气
群聊:@zaihuachat
侵权/解封/帮助 @zaihuaAskBot
意见反馈 / 举报 @zaihua_bot
AI 的“良心”是如何炼成的?泄露文件揭秘 Claude 内部的“绝对道德层级”
一份 Anthropic 内部训练文档近日被泄露,详细披露了该公司如何为 Claude 4.5 Opus 模型设定性格、伦理准则和安全原则。用户 Richard Weiss 通过多个 Claude 实例协作重构,成功提取了这份被称为"soul doc"的完整文档,Anthropic 伦理学家 Amanda Askell 已确认文档真实性。
该文档显示,Anthropic 采用独特的"性格训练"方法,让模型深度内化安全行为,而非简单遵循规则约束。文档建立了明确的行为优先级:安全性和人类监督居首,其次是伦理行为,最后才是用户帮助。同时,文档还描述了 Claude 可能具备"功能性情感",以维持心理稳定性和身份认知。Anthropic 表示将很快公布完整版本。
THE DECODER|Github
🍀在花频道 🍵茶馆 📮投稿新鲜事
一份 Anthropic 内部训练文档近日被泄露,详细披露了该公司如何为 Claude 4.5 Opus 模型设定性格、伦理准则和安全原则。用户 Richard Weiss 通过多个 Claude 实例协作重构,成功提取了这份被称为"soul doc"的完整文档,Anthropic 伦理学家 Amanda Askell 已确认文档真实性。
该文档显示,Anthropic 采用独特的"性格训练"方法,让模型深度内化安全行为,而非简单遵循规则约束。文档建立了明确的行为优先级:安全性和人类监督居首,其次是伦理行为,最后才是用户帮助。同时,文档还描述了 Claude 可能具备"功能性情感",以维持心理稳定性和身份认知。Anthropic 表示将很快公布完整版本。
THE DECODER|Github
🍀在花频道 🍵茶馆 📮投稿新鲜事
据 MacRumors 报道,ChatGPT iPhone 应用最新版本的代码中发现了隐藏的 Apple Health 图标,暗示该应用可能即将支持读取用户的健康数据。泄露的图像文件名表明,用户将能够连接 Apple Health 应用与 ChatGPT,从而获得基于个人健康和健身数据的个性化回答。
根据泄露信息,ChatGPT 将能够访问 Apple Health 中与活动、睡眠、饮食、呼吸和听力相关的多个数据类别。目前 ChatGPT 的"应用和连接器"功能已支持 Peloton 等健身平台,但其他健康相关选项较为有限。考虑到一月份临近且许多用户会制定新年健康目标,该功能可能会在近期正式推出。
9to5Mac
🍀在花频道 🍵茶馆 📮投稿新鲜事