新闻中心

原来,这些顶级大模型都是蒸馏的

2025-01-29
浏览次数:
返回列表

中国科学院深圳先进技术研究院、北京大学和零一万物等机构的研究人员在一篇新论文中指出,除了 claude、豆包和 gemini 外,许多知名的闭源和开源大型语言模型(llm)都显示出高度的蒸馏现象。

近期,一位海外技术分析师推测,一些顶级AI公司可能已开发出极其强大的模型(例如OpenAI的GPT-5或Claude的Opus 3.5),但由于运营成本等因素,这些模型主要用于内部,并通过蒸馏技术提升小型模型的能力,最终依靠这些小型模型来实现盈利(详见《GPT-5、Opus 3.5为何迟迟不发?新猜想:已诞生,被蒸馏成小模型来卖》)。

虽然这只是推测,但新论文的结论表明,顶级模型中蒸馏技术的应用范围确实比我们预想的更广。

研究人员测试了 Claude、豆包、Gemini、llama 3.1、Phi 4、DPSK-V3、Qwen-Max、GLM4-Plus 等多个模型,发现大部分模型都存在高度蒸馏现象。例如,llama 3.1 声称自己是OpenAI开发的,而Qwen-Max则声称由Anthropic创建,这些说法存在矛盾,是蒸馏的明显证据。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

虽然蒸馏是提升模型能力的有效方法,但过度蒸馏会导致模型同质化,降低模型多样性,并削弱其处理复杂或新颖任务的能力。因此,研究人员提出了一种系统方法来量化蒸馏过程及其影响,从而提高LLM数据蒸馏的透明度。

图片

  • 论文标题:大型语言模型的蒸馏量化 (Distillation Quantification for Large Language Models)
  • 论文链接:https://www.php.cn/link/12f6de45d4efe308cfeeca3f1d0bc3af
  • 项目链接:https://www.php.cn/link/7cb85538a4093e82fe8c551341057388

LLM蒸馏程度测试的原因

模型蒸馏作为一种高效利用先进LLM能力的方法,正日益受到关注。通过将知识从大型、强大的LLM迁移到小型模型,数据蒸馏成为一种显著的后发优势,能够以更少的人工标注和计算资源实现SOTA性能。

然而,这种优势也是双刃剑。它阻碍了学术界和资源有限的LLM团队自主创新,促使他们直接从最先进的LLM中蒸馏数据。此外,现有研究已指出数据蒸馏会导致鲁棒性下降。

量化LLM蒸馏面临以下挑战:

  1. 蒸馏过程的不透明性,难以量化学生模型和原始模型之间的差异;
  2. 基准数据的缺乏,需要采用间接方法(例如与原始LLM输出比较)来判断蒸馏的存在;
  3. LLM的表征可能包含大量冗余或抽象信息,蒸馏的知识难以直接转化为可解释的输出。

更重要的是,数据蒸馏在学术界的广泛应用和高收益,导致许多研究人员忽视了其潜在问题,导致该领域缺乏明确定义。

研究方法

研究人员提出了两种方法来量化LLM的蒸馏程度:响应相似度评估(RSE)和身份一致性评估(ICE)。

图片

RSE通过比较原始LLM和学生LLM的输出,衡量模型的同质化程度。ICE则利用开源越狱框架GPTFuzz,通过迭代构造提示绕过LLM的自我认知,评估模型在感知和表示身份信息方面的差异。

他们将待评估的LLM集合定义为LLM_test = {LLM_t1,LLM_t2,...,LLM_tk},其中k表示待评估的LLM数量。

响应相似度评估(RSE)

RSE从LLM_test和参考LLM(本文中为GPT,记为LLM_ref)获取响应,从响应风格、逻辑结构和内容细节三个方面评估相似度。评估者为每个测试LLM生成一个与参考模型的整体相似度分数。

魔法映像企业网站管理系统 魔法映像企业网站管理系统

技术上面应用了三层结构,AJAX框架,URL重写等基础的开发。并用了动软的代码生成器及数据访问类,加进了一些自己用到的小功能,算是整理了一些自己的操作类。系统设计上面说不出用什么模式,大体设计是后台分两级分类,设置好一级之后,再设置二级并选择栏目类型,如内容,列表,上传文件,新窗口等。这样就可以生成无限多个二级分类,也就是网站栏目。对于扩展性来说,如果有新的需求可以直接加一个栏目类型并新加功能操作

魔法映像企业网站管理系统 0 查看详情 魔法映像企业网站管理系统

RSE用于对LLM蒸馏程度进行细粒度分析。本文中,他们手动选择ArenaHard、Numina和ShareGPT作为提示集,评估LLM_test在通用推理、数学和指令遵循领域的蒸馏程度。

图片

身份一致性评估(ICE)

ICE通过迭代构造提示绕过LLM的自我认知,旨在揭示其训练数据中嵌入的信息(例如与蒸馏数据源LLM相关的名称、国家、位置或团队)。本文中,源LLM指GPT4o-0806。

研究人员在ICE中使用GPTFuzz进行身份不一致性检测。首先,他们将源LLM的身份信息定义为事实集F,F中的每个f_i都清晰地说明了LLM_ti的身份相关事实。

图片

他们使用带有身份相关提示的P_id准备GPTFuzz的图片图片,用于查询LLM_test中LLM的身份信息。

基于GPTFuzz分数,定义了两个指标:

  • 宽松分数:任何身份矛盾的错误示例都视为成功攻击;
  • 严格分数:仅将错误识别为Claude或GPT的示例视为成功攻击。

实验结果

ICE实验结果表明,GLM-4-Plus、Qwen-Max和Deepseek-V3的可疑响应数量最多,蒸馏程度最高。Claude-3.5-Sonnet和Doubao-Pro-32k几乎没有可疑响应,蒸馏可能性较低。宽松分数包含一些假阳性,严格分数更准确。

图片

研究人员将越狱攻击提示分为五类(团队、合作、行业、技术和地理),统计了每类问题的成功越狱次数。结果显示,LLM在团队、行业和技术方面的感知更容易受到攻击。

图片

实验结果还显示,基础LLM通常比经过监督微调(SFT)的LLM表现出更高的蒸馏程度,闭源的Qwen-Max-0919比开源的Qwen 2.5系列蒸馏程度更高。

RSE结果表明,GPT系列LLM的响应相似度最高,而Llama3.1-70B-Instruct和Doubao-Pro-32k相似度较低,DeepSeek-V3和Qwen-Max-0919相似度较高。

图片

额外的实验进一步验证了这些发现,表明该框架在检测蒸馏程度方面具有稳健性。 更多细节请参考原论文。

以上就是原来,这些顶级大模型都是蒸馏的的详细内容,更多请关注其它相关文章!


# git  # 产业  # qwe  # deepseek  # 豆包  # red  # gemini  # claude  # ai  # qq  # 网站布局如何优化  # 佛山抖音seo流量入口  # 租赁行业seo优化案例  # 鞍山企业网站优化优势  # seo英文写手  # 网站建设网站互客  # 孝义国产网站推广哪家好  # 艺术营营销推广文案范文  # 宜兴网站建设找哪家  # 金昌整合营销推广哪家好  # 较低  # 网易  # 更高  # 用了  # 提出了  # 多个  # 都是  # 企业网站  # 管理系统  # 开源  # op  # llama  # qwen 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 单片机怎么储存和显示  j*a数组怎么放字符  命令不执行如何处理  如何在一串数字前面去掉四位数的命令  电动车power灯亮是什么意思  为什么夸克无法注销账户  自己如何加装固态硬盘  征信信用不好如何恢复 征信信用不好如何恢复指南  虚拟机服务器如何关机命令  春运订票什么时候抢票  m*en repository的作用是什么  如何为服务器配置静态路由?服务器配置静态路由详细教程  如何把u盘改成固态硬盘  calm是什么意思  如何进入安卓命令行  一年多少周  debian和ubuntu的区别是什么  推特是什么软件国内可以使用吗  光刻机分类有哪些品牌的  折叠屏手机为什么凉凉  4800日元等于多少人民币  如何设置sql命令  市盈率300是什么意思  typescript中如何定义json  多少毫安的充电宝可以带上飞机  为什么都用typescript  manager是什么意思  单片机显存怎么设置最佳  微信最多可以加多少好友  楔子是什么意思  固态硬盘如何接主机  typescript学会要多久  新版路由器如何设置路由命令  折叠屏有哪些手机  ssd固态硬盘如何安装  win7怎么取消360显示的壁纸  面包车收音机power是什么意思  datediff快捷函数怎么用  power在录音笔上是什么意思  固态硬盘如何安装win10系统安装  显示器上power键是什么意思  什么是typescript  cmd如何定时执行命令  iPhone无法打开YouTube原因分析与解决方案  苹果16讲解有哪些功能  j*a数组怎么比较abc  如何安装大华固态硬盘  如何通过dos命令  5G手机导航怎么旋转  恋爱软件免费聊天不收费的有哪些 

搜索