OpenAI 宣布推出“防范框架”以跟踪和减轻 AI 风险-DG城市

ChatGPT 背后的人工智能实验室 OpenAI 今天宣布了其“防范框架”，这是一套用于监控和管理日益强大的 AI 模型的潜在危险的流程和工具。

该公告是在该实验室的动荡时期发布的，该实验室最近因处理其首席执行官山姆·奥特曼（Sam Altman）的解雇和重新雇用而受到批评。这场争议引发了人们对该实验室治理和问责制的质疑，尤其是在它开发一些世界上最先进和最有影响力的人工智能系统时。

根据 OpenAI 的一篇博客文章，准备框架试图至少解决其中一些问题，并展示实验室对负责任和合乎道德的 AI 开发的承诺。该框架概述了OpenAI将如何“跟踪、评估、预测和防范日益强大的模型带来的灾难性风险”，例如可用于网络攻击、大规模说服或自主武器的模型。

数据驱动的 AI 安全方法
该框架的关键组成部分之一是为人工智能模型使用风险“记分卡”，用于衡量和跟踪潜在危害的各种指标，例如模型的功能、漏洞和影响。记分卡会定期更新，并在达到某些风险阈值时触发审查和干预。

该框架还强调了对人工智能能力和风险进行严格和数据驱动的评估和预测的重要性，摒弃了通常主导公共话语的假设和推测场景。OpenAI表示，它正在投资此类评估的设计和执行，以及缓解策略和保障措施的制定。

根据 OpenAI 的说法，该框架不是一个静态的文档，而是一个动态的、不断发展的文档。该实验室表示，它将根据新的数据、反馈和研究不断完善和更新该框架，并将与更广泛的人工智能社区分享其发现和最佳实践。

与Anthropic的政策形成鲜明对比
OpenAI 宣布这一消息之前，其主要竞争对手 Anthropic 发布了几个专注于 AI 安全性的主要版本，Anthropic 是另一个由前 OpenAI 研究人员创立的领先 AI 实验室。Anthropic以其隐秘和选择性的方法而闻名，最近发布了其负责任的扩展政策，该框架定义了特定的AI安全级别以及用于开发和部署AI模型的相应协议。

这两个框架在结构和方法上有很大不同。Anthropic的政策更加正式和规范，直接将安全措施与模型能力联系起来，如果无法证明安全性，则暂停开发。OpenAI 的框架更加灵活和适应性更强，设置了触发审查的一般风险阈值，而不是预定义的级别。

专家表示，这两种框架都有其优点和缺点，但Anthropic的方法在激励和执行安全标准方面可能具有优势。从我们的分析来看，Anthropic 的政策似乎将安全性融入了开发过程，而 OpenAI 的框架仍然更宽松、更自由，为人类判断和错误留下了更多空间。

一些观察人士还认为，OpenAI 在快速而积极地部署 GPT-4 等模型后，在安全协议方面迎头赶上，GPT-4 是最先进的大型语言模型，可以生成逼真且有说服力的文本。Anthropic的政策可能具有优势，部分原因是它是主动制定的，而不是被动制定的。

尽管存在差异，但这两个框架都代表了人工智能安全领域向前迈出的重要一步，而人工智能安全领域往往被对人工智能能力的追求所掩盖。随着人工智能模型变得越来越强大和无处不在，领先的实验室和利益相关者之间在安全技术方面的合作和协调现在对于确保人工智能为人类带来有益和合乎道德的使用至关重要。

文章版权归作者所有，未经允许请勿转载。

THE END