新闻中心
ICLR 2025|大模型也需要好奇心,TeleAI 提出探索驱动的对齐方法,8B越级胜70B
基于探索驱动的大模型对齐方法copo:赋予llm探索能力,突破性能边界
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AIxiv专栏持续报道全球顶尖AI研究成果。 如果您有优秀的研究成果,欢迎投稿至liyazhou@jiqizhixin.com或zhaoyunfeng@jiqizhixin.com。
自然界生物的探索精神驱动着进化,人类亦是如此。 在人工智能领域,尤其大型语言模型(LLM)的研究中,赋予LLM类似的探索能力,是突破其现有能力边界,提升性能和安全性的关键。
中国电信人工智能研究院(TeleAI)院长李学龙教授团队,联合清华大学、香港城市大学等机构,基于全模态星辰大模型体系,提出了一种新型探索驱动的大模型对齐方法——Count-based Online Preference Optimization (COPO)。 COPO将人类的探索本能融入LLM的后训练(Post-Training)阶段,引导模型在人类反馈强化学习(RLHF)框架下主动探索未知知识,有效解决了现有对齐框架受限于偏好数据集覆盖范围的问题。 该研究为智传网(AI Flow)“基于连接与交互的智能涌现”提供了重要技术支撑,使模型在动态交互中持续学习和进步。 相关论文已被ICLR 2025录用,TeleAI研究科学家白辰甲为第一作者。

- 论文标题: Online Preference Alignment for Language Models via Count-based Exploration
- 论文地址: https://www.php.cn/link/8295ef3608eee6550ef7ef27d4000177
- 开源代码: https://www.php.cn/link/db90e948252c7d1753efe6fc9612dabe
研究背景与挑战
尽管LLM在多种语言任务中表现出色,但其与人类价值观和意图的对齐仍面临挑战。 现有的RLHF框架依赖预先收集的偏好数据集,其性能受限于数据集对提示-回复(Prompt-Response)的覆盖范围。 收集高质量偏好数据集成本高昂,且难以覆盖所有可能情况。
因此,研究人员开始探索在线RLHF,让LLM在与语言环境交互中持续学习。 COPO旨在解决在线RLHF中的核心问题:如何高效探索语言空间,以扩大偏好数据覆盖范围。
COPO方法
COPO通过结合基于计数的探索和直接偏好优化(DPO)框架,利用轻量级伪计数模块平衡探索和优化。 该方法在理论上对线性奖励函数和离散状态空间进行了分析,并提供了误差界限和置信集合。
Reachout.ai
一个AI驱动的视频开发平台,专为忙碌的企业家和销售团队打造
142
查看详情
COPO的核心在于其探索机制,它通过增加对较少产生的提示-回复组合的对数似然,鼓励模型生成新的回复,从而解决探索-利用权衡问题。 研究证明,COPO算法的在线学习范式能够将总后悔值限制在O(√T)量级。
算法细节
COPO算法框架基于DPO,将乐观探索项转化为基于状态-动作计数的学习目标。 由于语言空间的无限性,COPO使用Coin Flipping Network (CFN)来估计“伪计数”,该网络通过一个简单的回归问题来预测基于计数的探索奖励。 CFN利用Rademacher试验来模拟计数,并接受LLM提取的提示-回复对的最后隐藏状态作为输入,输出与状态“伪计数”成反比的预测值。
实验结果与结论
实验在Zephyr-7B和Llama3-8B模型上进行,使用了UltraFeedback 60K偏好数据集和PairRM 0.4B奖励模型。 结果显示,COPO在AlpacaEval 2.0和MT-Bench基准测试中显著提升了模型性能,超越了其他在线对齐方法,并以8B的模型容量超越了许多大体量模型的性能。 这证明了COPO在提升LLM探索能力、扩大数据覆盖范围和优化策略方面的有效性。
团队介绍
李学龙教授,中国电信集团CTO、首席科学家、TeleAI院长,主要关注大模型、智能光电、临地安防和智传网(AI Flow)。

以上就是ICLR 2025|大模型也
需要好奇心,TeleAI 提出探索驱动的对齐方法,8B越级胜70B的详细内容,更多请关注其它相关文章!
# copo
# 工程
# 句话
# 网易
# 开源
# 中国电信
# 神技
# LLaMA
# 2025
# ai
# git
# seo工资上海
# 闵行区官方网站优化费用
# 通化seo排名技巧
# 玉环seo优化网站
# 水杯的网店营销推广方案
# 营销推广公司只信n火19星
# 营销策略的推广意义
# 雅虎seo虾哥网络
# 合川区网站建设电话
# seo公司技术
# 如果您
# 新玩法
# 写歌
# 如何应对
# 你该
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
怎么把手机里爱奇艺的视频下载到u盘里
linux如何切换到命令行模式
命令指示符如何打开盘符
苹果16哪些型号好
春运预约抢票能抢到吗
cmd如何定时执行命令
笔记本如何使用固态硬盘
j*a怎么存放数组中
typescript全局配置放哪里
市盈率为负值是什么意思
ao3镜像网站永久地址入口
51单片机怎么用flash
如何加装固态硬盘
电脑显示器上power是什么意思
苹果16讲解有哪些功能
春运车站抢票和网上抢票
远程桌面如何发送命令
如何用命令行连接本地数据库
dos命令 如何将变量 作为路径的一部分
iphone拍电子屏有横条如何解决
j*a怎么求数组均值
域名解析后为什么要进行域名备案
苹果16如何预购
meet是什么意思
轩逸e-power挡位b是什么意思
ai如何重复使用上一命令
bored是什么意思
NoSQL数据库有哪些特点
万能表上的power是什么意思
平板键盘nfc功能是什么意思
typescript怎么理解的
win10锁屏壁纸怎么换360锁屏壁纸吗
typescript 如何解决 null
华为5g手机怎么用4g网络
openwrt有哪些功能
学typescript有什么用
虽千万人吾往矣什么意思
学typescript要求什么
苹果16配置参数有哪些
hp固态硬盘如何安装
春运抢票软件哪个好
三星固态硬盘如何安装
开机如何进入命令行模式
typescript文件怎么打开
基金市盈率是什么意思
如何看固态硬盘信息
win7如何打开命令行窗口
在遥控器中power是什么意思
linux如何打开命令窗口
苹果16哪些功能好用


2025-01-30
浏览次数:次
返回列表