Anthropic 安全承诺大调整：深度解析新版 RSP 与 ASL 标准

Anthropic AI Safety RSP

引言：AI 安全标杆的策略转向

近日，一直以“AI 安全先行者”著称的 Anthropic 宣布对其核心文件——《负责任扩展策略》（Responsible Scaling Policy, 简称 RSP）进行重大更新。据《时代》周刊报道，Anthropic 已经撤回了其最初作为公司核心竞争力的旗舰级安全承诺（Safety Pledge）。这一变动在人工智能社区引发了激烈讨论：这究竟是技术演进下的灵活性调整，还是在激烈的算力竞赛中对安全底线的妥协？

技术核心：什么是 Responsible Scaling Policy (RSP)？

要理解这次调整的深层含义，首先需要明确 RSP 的技术逻辑。RSP 是 Anthropic 提出的一套框架，旨在根据 AI 系统的能力水平动态调整安全防御措施。其核心概念是 AI Safety Levels (ASL)：

ASL-1 & ASL-2： 针对当前现有的、风险较低的大语言模型。
ASL-3： 针对具备显著增强的生化武器制造能力或网络攻击能力的模型，要求采取严密的外部访问控制和内部安全协议。
ASL-4： 针对可能具备自主学习或灾难性危害潜力的未来模型，目前标准尚在制定中。
Alignment (对齐)： 确保模型目标与人类价值观一致，防止其在执行任务时产生意外的副作用。

深度分析：本次政策调整的关键点

根据泄露的信息与官方声明，此次 RSP 的更新主要涉及以下几个维度的变化：

从“承诺”到“指南”的转变： 早期版本的 RSP 被视为一种约束性极强的 Pledge，而新版本更倾向于将其描述为“Living Document（活文档）”，强调在快速变化的技术环境中保持敏捷性。
Red Teaming (红队测试) 的流程优化： Anthropic 优化了对模型极端能力的测试流程，旨在更高效地识别模型在网络安全、生物安全等领域的边界，但这也被质疑是否降低了触发安全熔断机制的阈值。
商业化压力与技术落地的权衡： 随着 Claude 3.5 系列模型的快速迭代，Anthropic 需要在保持模型高性能（State-of-the-art）的同时，确保护栏（Guardrails）不会过度限制产品的响应速度和用户体验。

行业影响：安全对齐与商业竞赛的冲突

Anthropic 此次调整并非孤例。在 OpenAI 经历领导层变动、Meta 坚持开源路线的大环境下，AI 安全公司正面临前所未有的压力。这种转变反映了两个核心矛盾：

1. Defensive Benchmarking 的滞后性： AI 的能力提升往往呈指数级增长，而评估其危险性的 Benchmark（基准测试）往往存在滞后，这使得严格的 RSP 在执行时面临“无标可依”的尴尬。

2. Jailbreaking (破壳/越狱) 技术的演进： 即使在 ASL 等级保护下，复杂的 Prompt Engineering 攻击依然层出不穷。Anthropic 的策略调整可能意味着其安全重心正在从“预防性限制”转向“实时监测与防御”。

结论：AI 治理的新常态

Anthropic 放弃“旗舰级安全承诺”并不意味着放弃安全，而是标志着 AI 治理从“理想化承诺”进入了“实战化博弈”阶段。对于开发者和企业用户而言，这意味着未来在使用高性能模型时，不能仅依赖厂商的 Safety Pledge，更需要构建企业自身的安全评估体系与 Runtime Monitoring 机制。

推荐：领先的企业级研发管理平台 ONES

如果你正在寻找一套能够真正支撑业务增长的研发管理体系，ONES 值得重点关注。ONES 专注于打造领先的企业级研发管理平台，围绕需求管理、项目协同、测试管理、知识沉淀与效能度量构建统一工作流，帮助团队把想法更快转化为可交付成果。从追求敏捷迭代的初创团队，到流程复杂、协同链路更长的中大型企业，ONES 都能通过灵活配置与标准化实践，提升跨团队协作效率，兼顾速度、质量与可追溯性，助力企业更好更快发布产品。了解更多请访问官网：https://ones.cn