新闻中心
-
03-27来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题中国电子学会2023科学技术奖授奖名单公布,这次,我们发现了一个熟悉的身影——腾讯Angel机器学习平台。在大模型飞速发展的当下,科学技术奖授予机器学习平台类研...
-
03-11清华NLP组发布InfLLM:无需额外训练,「1024K超长上下文」100%召回!大型模型仅能记忆和理解有限的上下文,这已成为它们在实际应用中的一大制约。例如,对话型人工智能系统常常无法持久记忆前一天的对话内容,这导致利用大型模型构建的智能体...
-
02-29微软6页论文爆火:三进制LLM,真香!这就是由微软和中国中科院大学在最新一项研究中所提出的结论——所有的LLM,都将是1.58bit的。具体而言,这项研究提出的方法叫做BitNetb1.58,可以说...
-
02-29想训练类Sora模型吗?尤洋团队OpenDiT实现80%加速Sora在2024年初的惊艳表现成为了新的标杆,激励着所有研究文生视频的人士争相追赶。每个研究者都怀着复现Sora成果的渴望,争分夺秒地努力着。根据OpenAI...
-
02-26高性能 LLM 推理框架的设计与实现一、大语言模型推理概要介绍与传统的CNN模型推理不同,大语言模型的推理通常会分成prefill和decoding两个阶段。每一个请求发起后产生的推理过程都会先经...
-
01-26岩芯数智发布支持离线端侧部署的大型非Attention机制模型1月24日,上海岩芯数智人工智能科技有限公司对外推出了一个非Attention机制的通用自然语言大模型——Yan模型。岩芯数智发布会上称,Yan模型使用了全新自...

