新闻中心

小而强大的模型盛火兴起:TinyLlama和LiteLlama成为热门选择

2024-01-14
浏览次数:
返回列表

当前,研究者开始关注小巧且高性能的小模型,尽管大家都在研究参数规模达到百亿甚至千亿级别的大模型。

小模型在边缘设备上有广泛应用,如智能手机、物联网设备和嵌入式系统。这些设备通常计算能力和存储空间有限,无法有效运行大型语言模型。因此,研究小型模型变得尤为重要。

接下来我们要介绍的这两项研究,可能满足你对小模型的需求。

TinyLlama-1.1B

新加坡科技设计大学(SUTD)的研究者最近发布了TinyLlama,这是一个参数量为11亿的语言模型,经过在大约3万亿个token上的预训练。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了


  • 论文地址:https://arxiv.org/pdf/2401.02385.pdf
  • 项目地址:https://github.com/jzhang38/TinyLlama/blob/main/README_zh-CN.md

TinyLlama是基于Llama 2架构和分词器的,这使得它可以轻松地与许多使用Llama的开源项目集成。此外,TinyLlama只有11亿个参数,体积小巧,非常适合那些需要限制计算和内存占用的应用程序。

该研究表示仅需 16 块 A100-40G 的 GPU,便可在 90 天内完成 TinyLlama 的训练。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

该项目从上线开始,持续受到关注,目前星标量达到 4.7K。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

TinyLlama 模型架构详细信息如下所示:

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

训练细节如下:

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

研究者表示,这项研究旨在挖掘使用较大数据集训练较小模型的潜力。他们重点探究在用远大于扩展定律(scaling law)建议的 token 数量进行训练时,较小模型的行为表现。

具体来说,该研究使用大约 3 万亿个 token 训练具有 1.1B 个参数的 Transformer (仅解码器)模型。据了解,这是第一次尝试使用如此大量的数据来训练具有 1B 参数的模型。

尽管规模相对较小,但 TinyLlama 在一系列下游任务中表现相当出色,它的性能显著优于同等大小的现有开源语言模型。具体来说,TinyLlama 在各种下游任务中都超越了 OPT-1.3B 和 Pythia1.4B 。

此外,TinyLlama 还用到了各种优化方法,如 flash attention 2、FSDP( Fully Sharded Data Parallel )、 xFormers 等。

在这些技术的加持下,TinyLlama 训练吞吐量达到了每 A100-40G GPU 每秒 24000 个 token。例如,TinyLlama-1.1B 模型对于 300B token 仅需要 3,456 A100 GPU 小时,而 Pythia 为 4,830 小时,MPT 为 7,920 小时。这显示了该研究优化的有效性以及在大规模模型训练中节省大量时间和资源的潜力。

TinyLlama 实现了 24k tokens / 秒 / A100 的训练速度,这个速度好比用户可以在 8 个 A100 上用 32 小时训练一个具有 11 亿参数、220 亿 token 的 chinchilla-optimial 的模型。同时,这些优化也大大减少了显存占用,用户可以把 11 亿参数的模型塞入 40GB 的 GPU 里面还能同时维持 16k tokens 的 per-gpu batch size。只需要把 batch size 改小一点, 你就可以在 RTX 3090/4090 上面训练 TinyLlama。 

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

VALL-E VALL-E

VALL-E是一种用于文本到语音生成 (TTS) 的语言建模方法

VALL-E 134 查看详情 VALL-E

实验中,该研究主要关注具有纯解码器架构的语言模型,包含大约 10 亿个参数。具体来说,该研究将 TinyLlama 与 OPT-1.3B、Pythia-1.0B 和 Pythia-1.4B 进行了比较。

TinyLlama 在常识推理任务上的性能如下所示,可以看出 TinyLlama 在许多任务上都优于基线,并获得了最高的平均分数。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

此外,研究者在预训练期间跟踪了 TinyLlama 在常识推理基准上的准确率,如图 2 所示,TinyLlama 的性能随着计算资源的增加而提高,在大多数基准中超过了 Pythia-1.4B 的准确率。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

表 3 表明,与现有模型相比,TinyLlama 表现出了更好的问题解决能力。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

手快的网友已经开始整活了:运行效果出奇得好,在 GTX3060 上运行,能以 136 tok / 秒的速度运行。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

「确实是快!」

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了


小模型 LiteLlama

由于 TinyLlama 的发布,SLM(小型语言模型)开始引起广泛关注。德克萨斯工农大学的 Xiaotian Han 发布了 SLM-LiteLlama。它有 460M 参数,由 1T token 进行训练。这是对 Meta AI 的 LLaMa 2 的开源复刻版本,但模型规模显著缩小。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

项目地址:https://huggingface.co/ahxt/LiteLlama-460M-1T

LiteLlama-460M-1T 在 RedPajama 数据集上进行训练,并使用 GPT2Tokenizer 对文本进行 token 化。作者在 MMLU 任务上对该模型进行评估,结果如下图所示,在参数量大幅减少的情况下,LiteLlama-460M-1T 仍能取得与其他模型相媲美或更好的成绩。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

以下为该模型的性能表现,更详细内容请参阅:

https://www.php.cn/link/05ec1d748d9e3bbc975a057f7cd02fb6

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

面对规模大幅缩小的 LiteLlama,有网友好奇,它是否能够在 4GB 的内存上运行。如果你也想知道,不如亲自试试看吧。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了


以上就是小而强大的模型盛火兴起:TinyLlama和LiteLlama成为热门选择的详细内容,更多请关注其它相关文章!


# ai  # llama  # follow  # 起来了  # 所示  # 较小  # 模型  # 用户可以  # 公司网站自开发怎么推广  # 网络推广怎么做营销的  # 沁阳个人网站建设  # 服装设计教案网站推广  # 宿州百度营销推广  # 首款  # 将于  # 嵌入式系统  # 三大  # 开源  # 这是  # 创业营销如何宣传推广  # 网站优化营销哪家好  # 济南seo优化师培训  # 东阳商贸网站建设招标  # 璧山正规seo优化公司 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: debian和ubuntu的区别是什么  怎么更新typescript  linux如何使用db2命令  ping命令如何看问题  单片机的速度怎么求  如何体验苹果16系统  linux命令行如何使用中文输入法  金色cmyk色值是多少  单片机是怎么复位的  typescript为什么能运行  手机拍电脑屏幕有条纹怎么解决  个人征信不好如何恢复 个人征信不良的全面修复指南  油电混动车仪表盘上的power是什么意思  电脑5G怎么上传手机  什么叫typescript  单片机引脚怎么改成上拉  win10系统如何打开cmd命令  哪些编程软件需要typescript  苹果16哪些型号好  市盈率中的19a是什么意思  什么是域名解析 域名解析中采用了什么  如何判断固态硬盘端口  5g手机怎么没视频通话功能  typescript是什么时候出来的  华为5g手机掉了怎么定位找回  固态硬盘如何测试  1kb等于多少字节  一天多少分钟  typescript怎么加号  市盈率300是什么意思  单片机怎么读取电流值  苹果16有哪些款式的  如何寻找和修复无法在 AI 中找到文件的问题  j*a 怎么清空数组元素  电脑type-c接口是什么意思  单片机怎么计算0xf0  三星相机里power是什么意思  如果公司ttm市盈率为负数是什么意思  play的三人称单数和过去式  typescript如何遍历map  win10电脑如何使用命令提示符  跨境电商gmv是什么意思?跨境电商GMV:理解其含义、计算方法和影响因素  市盈率是负数是什么意思  酷狗音乐pc版的每日推荐在哪 酷狗音乐PC版每日推荐查找指南  苹果16日发售哪些机型  苹果16系统有哪些改变  typescript书籍哪个好  j*a怎么用json数组  j*a怎么清除数组  苹果手机16新款颜色有哪些 

搜索