新闻中心
Anthropic安全负责人:在超级AI「毁灭」人类之前,我们可以做这些准备
2025 年,anthropic 发布了负责任扩展策略(responsible scaling policy,rsp),这是一系列技术和组织协议,anthropic 将采用这些协议来帮助他们管理开发功能日益强大的 ai 系统。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜


- ASL-1: 不构成重大灾难风险的系统(例如 2018 年的 LLM 或只会下棋的 AI 系统)
- ASL-2: 显示出危险能力早期迹象的系统(例如能够给出如何制造生物武器的指令),但这些信息由于可靠性不足或无法超越搜索引擎能提供的信息而没有太多用处。当前 LLM(包括 Claude)似乎是 ASL-2。
- ASL-3: 与非 AI 基线(例如搜索引擎或教科书)相比,大大增加了灾难性滥用风险的系统,或显示出低级自主能力的系统。
- ASL-4 及更高版本(ASL-5+): 尚未定义,因为它与现有系统相差太远,但可能会涉及灾难性滥用潜力和自主性的质的升级。
Anthropic 的 AI 安全工作
Anthropic 一直致力于 AI 安全研究,以探索“如何进行非常强大的人工智能的开发,使其顺利进行”。

在开始讨论超级人工智能的风险之前,我有一些前提需要声明:
- 人工智能有望达到与人类相当的水平。这个阶段,我称之为变革性人工智能(TAI)。TAI 将有能力在所有适合远程工作的职业中替代人类,包括 AI 研发。
- TAI 并不是人工智能能力的上限,未来可能会出现远超人类能力的系统,它们将对世界产生深远影响。在未来十年内,我们很有可能见证 TAI 的诞生,而那时的商业、政策和文化背景预计与当前相比不会有太大变化。
- TAI 一旦实现,它将极大地加速人工智能的研发进程,可能在 TAI 出现后的几个月或几年内,我们就能看到远超人类能力的系统被开发出来。
- 如果部署不当,超级人工智能系统可能会极具破坏性。它可能带来新风险,也可能使现有矛盾变得更加尖锐,比如武器滥用,以及破坏道路监控或网络安全等。
- 想要让 TAI 以及更强大的 AI 系统在现实世界中「三观正常」地正确行事,这对人工智能安全提出了更高要求。确保人工智能系统的行为与开发者的意图一致,即所谓的「对齐」,需要我们投入巨大的努力。而且随着 AI 系统的能力越来越强,这一任务也变得更加艰巨。
我将从三个阶段展开。
一、准备
此时,AI 还未进阶成 TAI,以 Anthropic 的 RSP 评级(风险敏感性评估)来看,他们处于安全等级 2(ASL-2)、ASL-3,或者可能是 ASL-4 的早期阶段。我们大部分的干预和准备工作将在这一时期进行,为尚未完全出现的高风险问题做准备。
易标AI
告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项
135
查看详情
- 密切关注技术前沿
AI 有多安全,很大程度上取决于我们的工作能力,而这又与我们获取前沿技术的能力紧密相关。如果我们无法获得充足的计算资源,或者在关键的预训练阶段出现重大失误,或者错过了带来变革的范式转变(哪怕是方法中的一些小改进),我们就会丧失大量做贡献的机会。而负责 AI 安全工作,需要遵守严格的规定和限制。因此,持续跟进新技术,是在此阶段的首要任务。
- 在初始阶段基本解决 TAI 的对齐微调问题
当 AI 系统已经智能到可以自主做研究,特别是 AI 安全研究时,我们需要寻找一种方法,让 AI 系统在帮助我们完成大量工作的同时,避免出现偏差。同时,我们必须确保 AI 的能力至少与人类专家相当,甚至更优,以确保它们能有效地协助我们。
此时,AI 并不需要完全「对齐」—— 我们可以接受一定程度的风险。因为人类不会将最关键的决策权交给 AI。同时,我们也有信心能在 AI 的对齐问题演变*球性灾难之前,及时发现并纠正。
我们的目标是构建高效且通用的 AI 系统。构建能完全「对齐」的 AI 助理,仅供公司内部使用,并进行严格的专家监控,这种方法可行,但问题是,有过多限制或需要专家持续监督的 AI 系统很难大规模推广,这样一来,Anthropic 的业务也难以持续发展。
在我看来,解决问题的关键在于可拓展的监督,这要求我们训练出能胜任完成复杂的开放式任务的负责任的 AI 智能体。为此,需要解决的主要挑战包括:「Reward hacking」、应对人类注意力的有限性,以及识别和抵御各种欺诈行为。
- 确保初始形态的 TAI 安全无害
如果「对齐」问题能完美解决,我们只需下达命令,模型就能不做坏事。但这似乎不可能做到。因此,我们必须构建额外的防御措施,比如对模型输出自动进行监控、抽查、红队测试,压力测试等。

以上就是Anthropic安全负责人:在超级AI「毁灭」人类之前,我们可以做这些准备的详细内容,更多请关注其它相关文章!
# ai 安全
# 产业
# 能在
# 会在
# 就能
# 这一
# 神技
# 我们可以
# claude
# 变革性人工智能
# 金坛餐厅网站建设
# 外贸b2b营销推广策略
# 直播运营推广网站
# 浮梁seo快速排名
# 柳州线上推广网络营销
# 唐山营销推广引流平台
# 辽宁个人网站建设包括
# 兰州站外推广网站哪家好
# 泸水网络推广招聘网站
# 网站建设概算
# 南极
# 高风险
# 更高
# 基础设施
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
阿里云手机云盘怎么用_阿里云盘苹果手机怎么用教程
域名解析后为什么要进行域名备案
油电混动车仪表盘上的power是什么意思
固态硬盘损坏如何修复
如何打开命令提示符
win10windows资源管理器在哪里打开
苹果手机16有哪些功能
typescript中如何定义json
linux如何切换到命令行模式
得物上怎么样申请退换货 得物上退换货详细指南(包含海外)
j*a整形怎么转数组
折叠屏手机选择哪个好
春运车票啥时候可以抢票
j*a map数组怎么取值
春运抢票最多能抢几趟车
萝卜快跑的收费标准是什么
开机如何运行dos命令提示符
如何查询固态硬盘寿命
j*a怎么用数组缓存
ai文件里无法找到链接文件怎么解决
如何用dos命令分区
5g手机怎么没视频通话功能
一分钟等于多少秒
旧固态硬盘如何卖出
电动车充电器上的power是什么意思
openwrt有哪些功能
春运抢票哪个平台好一点
.asm如何在命令行运行
如何注释typescript
怎么用typescript 写js
固态硬盘如何检查
power在坐标轴中是什么意思
油烟机上的power是什么意思
如何打开管理员命令提示符
j*a怎么复制数组中
win7怎么取消360显示的壁纸
学typescript需要什么基础么
喇叭上POWER4欧是什么意思
直接gmV是什么意思?直接GMV:定义和概念
夸克内测有什么好处
个人征信不好如何恢复 个人征信不良的全面修复指南
更换固态硬盘如何检查
npm如何声明命令
excel中datediff函数怎么用
春运哪天抢票最好预约
春运抢票准备什么
5G类似微信的聊天软件有哪些
固态硬盘如何启动
如何4k对齐固态硬盘
为什么进行域名解析


2024-09-09
浏览次数:次
返回列表