新闻中心

选择GPT-3.5、还是微调Llama 2等开源模型?综合比较后答案有了

2023-10-16
浏览次数:
返回列表

众所周知,对 GPT-3.5 进行微调是非常昂贵的。本文通过实验来验证手动微调模型是否可以接近 GPT-3.5 的性能,而成本只是 GPT-3.5 的一小部分。有趣的是,本文确实做到了。

在 SQL 任务和 functional representation 任务上的结果对比,本文发现:

  • GPT-3.5 在两个数据集(Spider 数据集的子集以及 Viggo functional representation 数据集)上都比经过 Lora 微调的 Code Llama 34B 表现略微好一点。
  • GPT-3.5 的训练成本高出 4-6 倍,部署成本也更高。

本实验的结论之一是微调 GPT-3.5 适用于初始验证工作,但在那之后,像 Llama 2 这样的模型可能是最佳选择,简单总结一下:

  • 如果你想验证微调是解决特定任务 / 数据集的正确方法,又或者想要一个完全托管的环境,那么微调 GPT-3.5。
  • 如果想省钱、想从数据集中获取最大性能、想要在训练和部署基础设施方面具有更大的灵活性、又或者想要保留一些私有数据,那么就微调类似 Llama 2 的这种开源模型。

接下来我们看看,本文是如何实现的。

下图为 Code Llama 34B 和 GPT-3.5 在 SQL 任务和 functional representation 任务上训练至收敛的性能。结果表明,GPT-3.5 在这两个任务上都取得了更好的准确率。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

选择GPT-3.5、还是微调Llama 2等开源模型?综合比较后答案有了

在硬件使用上,实验使用的是 A40 GPU,每小时约 0.475 美元。

选择GPT-3.5、还是微调Llama 2等开源模型?综合比较后答案有了

此外,实验选取了两个非常适合进行微调的数据集,Spider 数据集的子集以及 Viggo functional representation 数据集。

为了与 GPT-3.5 模型进行公平的比较,实验对 Llama 进行了最少超参数微调。

本文实验的两个关键选择是使用 Code Llama 34B 和 Lora 微调,而不是全参数微调。

实验在很大程度上遵循了有关 Lora 超参数微调的规则,Lora 适配器配置如下:

选择GPT-3.5、还是微调Llama 2等开源模型?综合比较后答案有了

SQL 提示示例如下:

选择GPT-3.5、还是微调Llama 2等开源模型?综合比较后答案有了

SQL 提示部分展示,完整提示请查看原博客

实验没有使用完整的 Spider 数据集,具体形式如下

department : Department_ID [ INT ] primary_key Name [ TEXT ] Creation [ TEXT ] Ranking [ INT ] Budget_in_Billions [ INT ] Num_Employees [ INT ] head : head_ID [ INT ] primary_key name [ TEXT ] born_state [ TEXT ] age [ INT ] management : department_ID [ INT ] primary_key management.department_ID = department.Department_ID head_ID [ INT ] management.head_ID = head.head_ID temporary_acting [ TEXT ]

实验选择使用 sql-create-context 数据集和 Spider 数据集的交集。为模型提供的上下文是一个 SQL 创建命令,如下所示:

CREATE TABLE table_name_12 (class VARCHAR, frequency_mhz VARCHAR, city_of_license VARCHAR)

sql 任务的代码和数据地址:https://github.com/samlhuillier/spider-sql-finetune

functional representation 提示的示例如下所示:

选择GPT-3.5、还是微调Llama 2等开源模型?综合比较后答案有了

functional representation 提示部分展示,完整提示请查看原博客

输出如下所示:

verify_attribute(name[Little Big Adventure], rating[*erage], has_multiplayer[no], platforms[PlayStation])

评估阶段,两个实验很快就收敛了:

选择GPT-3.5、还是微调Llama 2等开源模型?综合比较后答案有了

functional representation 任务代码和数据地址:https://github.com/samlhuillier/viggo-finetune

Glean Glean

Glean是一个专为企业团队设计的AI搜索和知识发现工具

Glean 210 查看详情 Glean

了解更多内容,请查看原博客。

以上就是选择GPT-3.5、还是微调Llama 2等开源模型?综合比较后答案有了的详细内容,更多请关注其它相关文章!


# 别再  # 凌源搜索关键词排名  # 北京抖音seo原理  # seo博客攻略留痕  # qq名片赞免费平台推广网站便宜  # 哈尔滨网站建设工作  # 东营网站建设与推广公司  # 建设企业查询网站  # 白酒推广营销话术大全  # 实体商家营销推广公司  # 单页的网站该怎样优化  # 博客  # 数据  # 句话  # 腾讯  # 请查看  # 是一个  # 所示  # 的是  # 开源  # 关键词  # llama  # ai 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 光猫power灯一直闪是什么意思  r中如何逐行执行命令  HTML5如何引用typescript  bc是什么意思  typescript怎么拼接  分销是什么意思  得物怎样不扣手续费 如何通过得物不支付手续费  如何辨别固态硬盘坏块  为什么夸克无法注销账户  折叠屏手机哪个牌子性价比高  typescript怎么使用map  苹果16系统多了哪些  显卡上面TYPE-C是什么接口  j*a怎么讲数组打印  typescript变量是什么  固态硬盘如何启动  如何查询固态硬盘寿命  路由器上的power按钮是什么意思  access中如何使用常用宏命令  热水器没热水显示power是什么意思  课程伴侣电脑怎么登录  折叠屏手机为什么凉凉  如何使用ping命令  联想手机如何输入命令行  vs怎么编写typescript  苹果16更新了哪些功能  如何更新固态硬盘固件  如何选择启用固态硬盘  固态硬盘如何安装win10系统安装  typescript多久能学会  固态硬盘电脑如何设置  为什么用typescript  如何提高import命令的性能  单片机怎么进行排序操作  远程桌面如何发送命令  typescript怎么用  typescript能开发什么  忐忑不安是什么意思  三星固态硬盘如何保修  如何判断固态硬盘  固态硬盘如何打开软件  typescript为什么现在才火  typescript能干什么  数组和J*A怎么打  dos命令 如何将变量 作为路径的一部分  怎么更新typescript  j*a怎么读取char数组  2025年哪个局域网聊天软件好用  typescript数据怎么写  如何弄坏固态硬盘 

搜索