新闻中心

ICLR 2025|大模型也需要好奇心,TeleAI 提出探索驱动的对齐方法,8B越级胜70B

2025-01-30
浏览次数:
返回列表

基于探索驱动的大模型对齐方法copo:赋予llm探索能力,突破性能边界

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

AIxiv专栏持续报道全球顶尖AI研究成果。 如果您有优秀的研究成果,欢迎投稿至liyazhou@jiqizhixin.com或zhaoyunfeng@jiqizhixin.com。

自然界生物的探索精神驱动着进化,人类亦是如此。 在人工智能领域,尤其大型语言模型(LLM)的研究中,赋予LLM类似的探索能力,是突破其现有能力边界,提升性能和安全性的关键。

中国电信人工智能研究院(TeleAI)院长李学龙教授团队,联合清华大学、香港城市大学等机构,基于全模态星辰大模型体系,提出了一种新型探索驱动的大模型对齐方法——Count-based Online Preference Optimization (COPO)。 COPO将人类的探索本能融入LLM的后训练(Post-Training)阶段,引导模型在人类反馈强化学习(RLHF)框架下主动探索未知知识,有效解决了现有对齐框架受限于偏好数据集覆盖范围的问题。 该研究为智传网(AI Flow)“基于连接与交互的智能涌现”提供了重要技术支撑,使模型在动态交互中持续学习和进步。 相关论文已被ICLR 2025录用,TeleAI研究科学家白辰甲为第一作者。

图片

  • 论文标题: Online Preference Alignment for Language Models via Count-based Exploration
  • 论文地址: https://www.php.cn/link/8295ef3608eee6550ef7ef27d4000177
  • 开源代码: https://www.php.cn/link/db90e948252c7d1753efe6fc9612dabe

研究背景与挑战

尽管LLM在多种语言任务中表现出色,但其与人类价值观和意图的对齐仍面临挑战。 现有的RLHF框架依赖预先收集的偏好数据集,其性能受限于数据集对提示-回复(Prompt-Response)的覆盖范围。 收集高质量偏好数据集成本高昂,且难以覆盖所有可能情况。

因此,研究人员开始探索在线RLHF,让LLM在与语言环境交互中持续学习。 COPO旨在解决在线RLHF中的核心问题:如何高效探索语言空间,以扩大偏好数据覆盖范围。

COPO方法

COPO通过结合基于计数的探索和直接偏好优化(DPO)框架,利用轻量级伪计数模块平衡探索和优化。 该方法在理论上对线性奖励函数和离散状态空间进行了分析,并提供了误差界限和置信集合。

Reachout.ai Reachout.ai

一个AI驱动的视频开发平台,专为忙碌的企业家和销售团队打造

Reachout.ai 142 查看详情 Reachout.ai

COPO的核心在于其探索机制,它通过增加对较少产生的提示-回复组合的对数似然,鼓励模型生成新的回复,从而解决探索-利用权衡问题。 研究证明,COPO算法的在线学习范式能够将总后悔值限制在O(√T)量级。

算法细节

COPO算法框架基于DPO,将乐观探索项转化为基于状态-动作计数的学习目标。 由于语言空间的无限性,COPO使用Coin Flipping Network (CFN)来估计“伪计数”,该网络通过一个简单的回归问题来预测基于计数的探索奖励。 CFN利用Rademacher试验来模拟计数,并接受LLM提取的提示-回复对的最后隐藏状态作为输入,输出与状态“伪计数”成反比的预测值。

实验结果与结论

实验在Zephyr-7B和Llama3-8B模型上进行,使用了UltraFeedback 60K偏好数据集和PairRM 0.4B奖励模型。 结果显示,COPO在AlpacaEval 2.0和MT-Bench基准测试中显著提升了模型性能,超越了其他在线对齐方法,并以8B的模型容量超越了许多大体量模型的性能。 这证明了COPO在提升LLM探索能力、扩大数据覆盖范围和优化策略方面的有效性。

团队介绍

李学龙教授,中国电信集团CTO、首席科学家、TeleAI院长,主要关注大模型、智能光电、临地安防和智传网(AI Flow)。

图片

以上就是ICLR 2025|大模型也需要好奇心,TeleAI 提出探索驱动的对齐方法,8B越级胜70B的详细内容,更多请关注其它相关文章!


# copo  # 工程  # 句话  # 网易  # 开源  # 中国电信  # 神技  # LLaMA  # 2025  # ai  # git  # seo工资上海  # 闵行区官方网站优化费用  # 通化seo排名技巧  # 玉环seo优化网站  # 水杯的网店营销推广方案  # 营销推广公司只信n火19星  # 营销策略的推广意义  # 雅虎seo虾哥网络  # 合川区网站建设电话  # seo公司技术  # 如果您  # 新玩法  # 写歌  # 如何应对  # 你该 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 怎么把手机里爱奇艺的视频下载到u盘里  linux如何切换到命令行模式  命令指示符如何打开盘符  苹果16哪些型号好  春运预约抢票能抢到吗  cmd如何定时执行命令  笔记本如何使用固态硬盘  j*a怎么存放数组中  typescript全局配置放哪里  市盈率为负值是什么意思  ao3镜像网站永久地址入口  51单片机怎么用flash  如何加装固态硬盘  电脑显示器上power是什么意思  苹果16讲解有哪些功能  春运车站抢票和网上抢票  远程桌面如何发送命令  如何用命令行连接本地数据库  dos命令 如何将变量 作为路径的一部分  iphone拍电子屏有横条如何解决  j*a怎么求数组均值  域名解析后为什么要进行域名备案  苹果16如何预购  meet是什么意思  轩逸e-power挡位b是什么意思  ai如何重复使用上一命令  bored是什么意思  NoSQL数据库有哪些特点  万能表上的power是什么意思  平板键盘nfc功能是什么意思  typescript怎么理解的  win10锁屏壁纸怎么换360锁屏壁纸吗  typescript 如何解决 null  华为5g手机怎么用4g网络  openwrt有哪些功能  学typescript有什么用  虽千万人吾往矣什么意思  学typescript要求什么  苹果16配置参数有哪些  hp固态硬盘如何安装  春运抢票软件哪个好  三星固态硬盘如何安装  开机如何进入命令行模式  typescript文件怎么打开  基金市盈率是什么意思  如何看固态硬盘信息  win7如何打开命令行窗口  在遥控器中power是什么意思  linux如何打开命令窗口  苹果16哪些功能好用 

搜索