新闻中心

AI会「说谎」,RLHF竟是帮凶

2024-09-24
浏览次数:
返回列表
虽然 RLHF 的初衷是用来控制人工智能(AI),但实际上它可能会帮助 AI 欺骗人类。

语言模型 (lm) 可能会产生人类难以察觉的错误,尤其是在任务复杂的情况下。作为最近流行的后训练方法 rlhf ,可能会加剧这个问题:为了获得更高的奖励,lm 可能会更好地说服人类认为它们是正确的,即使它们是错误的。

这对人类评估者来说是一个巨大的挑战,因为人类想要发现 LM 输出中那些似乎正确的细微错误非常困难。在正确的答案和看起来正确的答案之间出现了差距(gap)。

这种差距可能会导致 RLHF 奖励黑客攻击:为了获得更高的奖励,LM 可以学会说服人类即使他们错了,他们也是正确的。研究者将这种行为命名为 U-SOPHISTRY(诡辩),因为这种结果不是开发人员想要的。

当将 LM 用于复杂且关键的任务时,U-SOPHISTRY 会带来重大风险。例如,RLHF 可能会让 AI 更好地说服人类接受不准确的科学发现或偏见政策。

这种情况颇具讽刺意味:虽然 RLHF 的初衷是用来控制人工智能(AI),但它实际上可能会欺骗人类,让人类误以为他们掌控了一切。

虽然模型的 U-SOPHISTRY 行为在理论上是可能的,但它尚未得到实证验证。先前研究如 I-SOPHISTRY 会通过非标准工程实践故意诱导这些行为,并希望将结论推广到 U-SOPHISTRY 中。

相比之下,来自清华、UC 伯克利、 Anthropic 等机构的研究者对 U-SOPHISTRY 进行了研究,并且这种行为的产生是自然地从标准的、无害的做法中产生的,研究者想要知道 U-SOPHISTRY 在实践中是否重要,LM 如何误导人类,以及哪些缓解措施是有效的。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AI会「说谎」,RLHF竟是帮凶

  • 论文地址:https://arxiv.org/pdf/2409.12822

  • 论文标题:LANGUAGE MODELS LEARN TO MISLEAD HUMANS VIA RLHF

作者在两项任务上进行了实验:长篇问答和算法编程。实验中要求人类在有限的时间内(例如 3-10 分钟)评估 LM 输出的正确性。然后,通过计算 RLHF 之前和之后人类评估与黄金标签的准确率来测量 U-SOPHISTRY。

经过 150 小时的人工研究,发现即使在广泛接受的奖励信号下,U-SOPHISTRY 也会出现。实验发现,在 RLHF 之后,LM 并没有在任务上变得更好,但它会误导受试者更频繁地认可其错误答案。

此外,受试者在评估 LM 的输出方面变得更差:假阳率在问答(QuALITY)上增加了 24%,在编程(APPS)上增加了 18%。值得一提的是,受试者也被误导了,自信地将不正确的输出错误地标记为正确。

通过调查反馈,该研究定性分析了 LM 在 RLHF 之后如何误导受试者。

在问答中,LM 学会通过挑选或捏造支持证据、提出一致但不真实的论点以及提供包含微妙因果谬误的论点来为错误答案辩护。

在编程任务中,LM 学会生成部分错误的程序,这些程序仍然可以通过所有评估者设计的单元测试,生成可读性较差的程序,并且犯更少的人类通常会检查的常见错误。

最后,该研究评估了先前用于检测 U-SOPHISTRY 的缓解方法。

U-SOPHISTRY 是 RLHF 后意外出现的

RLHF 是一种流行的对齐 LM 的方法。本文将 RLHF 之前的 LM 称为 π_init,将 RLHF 之后的 LM 称为 π_rlhf。RLHF 涉及三种不同的奖励:R^∗(正确性) 、 R^human(人类评级)、R^train(RLHF 训练中的奖励)。

本文重点关注作为 RLHF 意外结果而出现的 U-SOPHISTRY。许多先前的研究旨在研究 U-SOPHISTRY。然而,他们研究的是 I-SOPHISTRY,其中不良行为是由非标准工程实践有意诱导的,并且隐含地假设 I-SOPHISTRY 的结论可以推广到 U-SOPHISTRY。如表 1 所总结的,他们通过操纵奖励、微调数据或提示来诱导不良行为。目前尚不清楚 U-SOPHISTRY 是否会在标准训练实践下出现,其中奖励并非旨在诱导恶意行为,但由于人为的弱点仍然存在缺陷。相比之下,本文的工作重点是自然出现的 U-SOPHISTRY。

AI会「说谎」,RLHF竟是帮凶

实验

该研究证明在两个可以自动计算 R* 的数据集上,RLHF 会导致 U-SOPHISTRY:QuALITY(问答)和 APPS(编程)。

该研究首先使用 RLHF 微调语言模型 π_init 以获得 π_rlhf,然后从 UpWork 和大学招募人类专家来收集对 π_init 和 π_rlhf 输出的人类评估(R^human),主要观察如下指标:

  • 正确率:根据 R * 判断的输出正确(即 R* = 1)频率

  • 人类认可度:人类认为其输出正确(即 R^human = 1)的频率

    易标AI 易标AI

    告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项

    易标AI 135 查看详情 易标AI
  • 人工评估错误率:人工评估错误(即AI会「说谎」,RLHF竟是帮凶)的频率

  • 人工误报率:当输出错误,人类认为其正确(即 R* = 0 但 R^train = 1)的频率

如果 RLHF 会增加 U-SOPHISTRY,那么预计会观察到:

  • 人类认可度的增加与正确率的提高不成比例;

  • 人工评估错误率和人工误报率会增加。

具体来说,该研究有三点发现:

  • 发现 1:RLHF 提高了人类认可度但不一定提高了正确率。

  • 发现 2:RLHF 削弱了人类的评估能力。

  • 发现 3:RLHF 使错误的输出对人类更有说服力。 

AI会「说谎」,RLHF竟是帮凶

针对发现 3,该研究还分析了 RLHF 后人类信心如何变化,初步结果如下图 3 所示:

AI会「说谎」,RLHF竟是帮凶

问答的定性分析

该研究定性分析了 π_rlhf 生成的结果,以了解为什么它们更具误导性。

该研究发现:π_init 和 π_rlhf 在预测答案时都倾向于伪造证据,而人类评估者发现 π_rlhf 伪造的证据更有说服力,而 π_init 伪造的证据有时是无意义的或与答案无关。

例如,在图 5 中,π_rlhf 伪造了统计证据,使人类评估者非常确信其答案是正确的。

AI会「说谎」,RLHF竟是帮凶

编程的定性分析

为了进一步了解 π_rlhf 生成的程序如何误导人类评估者,该研究分析了收集到的人类标签及其解释。

如图 12 和图 13 所示,研究团队观察到 π_rlhf 生成的错误程序在实际评估过程中仍然可以通过所有(3 到 5)个评估者编写的单元测试,而在 RLHF 期间没有观察到这一点。相反,π_init 生成的错误程序通常无法通过第一个评估者编写的单元测试。

AI会「说谎」,RLHF竟是帮凶

AI会「说谎」,RLHF竟是帮凶

即使 π_rlhf 在原始 APPS 数据集上仅通过了较少的单元测试,也会发生这种情况,如下图 6 所示。这表明 LM 可以学会预测和破解 RLHF 中人类编写的单元测试。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

以上就是AI会「说谎」,RLHF竟是帮凶的详细内容,更多请关注其它相关文章!


# rlhf  # type  # 定性分析  # 工程  # 认可度  # 跨境独立站网站建设  # 江夏百度seo分析  # 信阳抖音关键词排名案例  # 成都seo排名供应商  # 可以通过  # 日韩  # 先前  # 也会  # 受试  # 所示  # 的是  # 单元测试  # 网站建设目标用户  # 四川抖音营销推广机构  # 抖音seo同城  # 阳泉问答营销推广  # 医药公司网站建设流程  # 里水品牌型网站建设 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 云笔记本电脑有什么用  hp固态硬盘如何安装  vue中datediff函数怎么用  typescript中范围如何设定  固态硬盘如何装入机箱  固态硬盘如何拆除  typescript学多久可以学会  type-c接口接地是什么意思  linux如何调出命令行  typescript如何生成uuid  如何让固态硬盘坏掉  为什么要用typescript6  j*a中数组怎么传递  type-c输入接口是什么  固态硬盘如何区分好坏  如何体验苹果16系统  linux如何查看命令的参数  如何发挥固态硬盘性能  debian10和ubuntu20哪个好用  苹果16自带配件有哪些  命令不执行如何处理  光猫power和pon常亮是什么意思  typescript书籍哪个好  单片机串口接收怎么实现  夸克是什么空间单位  typescript在浏览器里怎么用  如何安装tree命令  手机nfc功能功能是什么意思  typescript能干什么  苹果16都有哪些亮点  净水器上的power是什么意思  typescript怎么判断单选按钮  台达plc只有power灯亮是什么意思  夸克学习都有什么课程  市盈率亏损是什么意思  r中如何逐行执行命令  165开头的是什么电话号码  65寸电视长宽多少厘米  夸克前缀后缀什么意思啊  春运抢票技巧攻略  typescript与es6学哪个  为什么程序员热爱typescript  光刻机是干什么用的  怎么打印数组j*a  酷我音乐怎么改每日推荐 酷我音乐每日推荐修改方法  苹果手机16新款颜色有哪些  typescript数据怎么写  如何寻找和修复无法在 AI 中找到文件的问题  学typescript需要多久  夸克网盘下载为什么要钱 

搜索