新闻中心

推动大模型自我进化,北理工推出「流星雨计划」

2024-12-05
浏览次数:
返回列表

北京理工大学计算机科学与技术学院的direct lab启动了“流星雨”研究计划,旨在探索大模型的自我进化理论与方法。该计划的核心思想源于人类个体能力提升的模式:在掌握基本技能后,通过与环境及自身的交互,不断学习和改进。 本文将重点介绍该计划在代码大模型和垂域大模型进化方面的成果。

SRA-MCTS:赋能代码大模型自我进化

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

  • 论文标题: SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation
  • 论文地址: https://www.php.cn/link/a598e7d200bf02558d5534839884b7a3
  • 代码开源: https://www.php.cn/link/c9de64b0aa92114521bfc07918df7b47
  • 8B 模型数据开源: https://www.php.cn/link/b23f2a9eddbae15529dc68d16d4d4c9c

为提升代码大模型的性能,研究人员提出了SRA-MCTS方法。该方法的核心在于让模型无需外部监督信号,自主生成推理路径并转化为代码。通过自我迭代,模型能够生成更高质量的推理路径,从而提升处理复杂问题的成功率。 实验结果表明,即使是小规模模型,SRA-MCTS也能显著提升其性能,尤其在处理多样化和复杂问题方面。

SRA-MCTS 的主要贡献:

  • 无监督学习: 无需人工标注数据或额外监督。
  • 持续自我提升: 通过自我训练形成正反馈循环,持续改进性能。
  • 增强复杂问题解决能力: 在不同规模模型上均取得显著性能提升。
  • 小模型自我合成潜力: 小模型(2B, 8B, 14B)自我合成数据训练效果超越大模型数据蒸馏。

SRA-MCTS 的工作机制:

SRA-MCTS 通过结合推理过程和数据生成,引导模型自主生成推理路径。该方法包含四个阶段:选择、扩展、评估与反思、反向传播。 通过反复迭代,模型不断完善其推理能力。

示例:拓扑排序代码生成

(此处保留原文中关于拓扑排序的示例代码和解释)

流星雨计划:垂域大模型的自我进化框架

千鹿Pr助手 千鹿Pr助手

智能Pr插件,融入众多AI功能和海量素材

千鹿Pr助手 128 查看详情 千鹿Pr助手

图片

  • 论文: https://www.php.cn/link/5cbd8331fac120a295879dc62b0d10ed
  • Github: https://www.php.cn/link/94bd3f4d79c60af8831740e58a68dd6e

“流星雨”计划提出一个“弱到强”的进化框架,包含三个阶段:

  1. 导师监督学习: 利用知识蒸馏,但采用“弱到强”的策略,让强模型根据弱模型的指导生成领域数据,从而减少认知偏差。

  2. 自我评估能力习得: 借鉴StaR方法,利用更强的模型(如GPT-4)提供反馈,迭代训练模型,提升其自我纠错能力。

  3. 自我提升训练: 通过对比学习(例如,beam search vs. greedy search),让模型向更高效的推理策略靠拢,实现完全的自我进化。

性能分析及未来展望:

实验结果表明,应用Meteor进化方法后,LLaMA3-8B-Instruct和Qwen2-7B-Instruct在准确性、完整性等方面均有提升。 未来,研究团队将继续改进各个阶段的进化方法,并拓展Meteor的应用场景。 DIRECT LAB 欢迎更多研究者参与合作,共同推动大模型自我进化领域的发展。(代码和数据已公开:https://www.php.cn/link/201ecef3255bae210a1b2c0ae4a21c7a)

以上就是推动大模型自我进化,北理工推出「流星雨计划」的详细内容,更多请关注其它相关文章!


# git  # 工程  # 第四次  # 编辑器  # 之争  # 迭代  # 腾讯  # 华纳  # 保时捷  # llama  # qwen  # 土豆网的网站推广策略  # 百度地图店铺关键词排名  # 盛大网站建设文案策划  # 网络营销推广关键词分析  # 推广不合规营销信息什么意思  # 石家庄网站排名优化报价  # 节假日推广营销方案策划  # 平台线上营销推广方案  # 营销推广体系图  # 天猫SEO信息  # 掌门人  # 开源  # 一键 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: arp命令如何使用  sausage是什么意思  HTML5如何引用typescript  typescript有什么作用  如何设置从固态硬盘启动  自己如何加装固态硬盘  vi命令如何使用方法  春运抢票软件哪个最好用  如何通过命令检测u盘启动  怎么自学typescript  sqlite中datediff函数怎么用 SQLite中DATEDIFF()函数的用法分享  typescript学会要多久  8英寸等于多少厘米  typescript如何使用  笔记本如何使用固态硬盘  市盈率高是什么意思  苹果16主打颜色有哪些  得物上怎么样申请退换货 得物上退换货详细指南(包含海外)  命令行如何运行j*a  汽车排量是什么意思  苹果16要升级哪些功能  夸克为什么会变小  win10锁屏壁纸怎么换360锁屏壁纸吗  tft单片机怎么写彩屏  折叠屏手机好不好,耐不耐用  哪些编程软件需用typescript  如何设置sql命令  hen是什么意思  hp固态硬盘如何安装  单片机加法程序怎么写  固态硬盘如何外接  破太岁是什么意思  单片机怎么读取电流值  linux如何查看命令的参数  如何引用typescript中的方法  如何检测固态硬盘温度  j*a里数组怎么赋值  ip dhcp是什么意思  openwrt有什么用  硬盘和固态硬盘如何区分  智能锁type-c接口是什么  网络光刻机是干什么用的  微信最多可以加多少好友  如何使用ping命令  虽千万人吾往矣什么意思  干股是什么意思  命令行如何运行c  推特是什么软件国内可以使用吗  如何修改cad中的命令  征信信誉不好如何恢复 如何修复不良征信方法 

搜索