新闻中心
GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
7 月 13 日消息,外媒 Semianalysis 近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型(Mixture of Experts)等具体的参数和信息。

▲ 图源 Semianalysis
外媒表示,GPT-4 在 120 层中总共包含了 1.8 万亿参数,而 GPT-3 只有约 1750 亿个参数。而为了保持合理的成本,OpenAI 采用混合专家模型来进行构建。
IT之家注:混合专家模型(Mixture of Experts)是一种神经网络,该系统根据数据进行分离训练多个模型,在各模型输出后,系统将这些模型整合输出为一个单独的任务。

▲ 图源 Semianalysis
据悉,GPT-4 使用了 16 个混合专家模型 (mixture of experts),每个有 1
110 亿个参数,每次前向传递路由经过两个专家模型。
此外,它有 550 亿个共享注意力参数,使用了包含 13 万亿 tokens 的数据集训练,tokens 不是唯一的,根据迭代次数计算为更多的 tokens。
GPT-4 预训练阶段的上下文长度为 8k,32k 版本是对 8k 微调的结果,训练成本相当高,外媒表示,8x H100 也无法以每秒 33.33 个 Token 的速度提供所需的密集参数模型,因此训练该模型需要导致极高的推理成本,以 H100 物理机每小时 1 美元计算,那么一次的训练成本就高达 6300 万美元(约 4.51 亿元人民币)。
对此,OpenAI 选择使用云端的 A100 GPU 训练模型,将最终训练成本降至 2150 万美元(约 1.54 亿元人民币)左右,用稍微更长的时间,降低了训练成本。
以上就是GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型的详细内容,更多请关注其它相关文章!
# OpenAI
# 多项
# 万元
# 亿元
# 将在
# GPT-4
# 使用了
# 汕尾广告网站推广方案
# 洪梅抖音seo服务
# seo叫什么区别
# 查seo排名
# 贵阳网络营销推广专员
# 河北推广营销策划怎么样
# 手机网站优化电话咨询
# 实盘
# 美股
# 新进展
# 上海
# 亚洲
# 推广产品文案网站
# 各地推广神曲的网站叫什么
# 盐城营销型网站建设服务
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
typescript中文怎么读
如何提高固态硬盘速度
阿里云盘扩容工具怎么用
如何查看bash内置的命令
如何修改cad命令
液位传感器power是什么意思
4800日元等于多少人民币
vue项目如何用typescript
单片机怎么做组合
meet是什么意思
win7如何打开命令行窗口
三星固态硬盘如何保修
交管12123协议头不完整是什么原因
win10如何打开dos命令窗口大小
typescript文件怎么打开
美食音乐每日推荐怎么写
5g手机怎么没视频通话功能
typescript变量是什么
animal是什么意思
春运抢票技巧攻略
j*a怎么用数组缓存
华硕k20ce怎么装win7
市盈率负值是什么意思
怎么在typescript写原型链
如何正确使用固态硬盘
j*a怎么存放数组中
市盈率高是什么意思
j*a数组求和怎么算
反向春运抢票方式
openwrt有哪些功能
如何提高固态硬盘性能
苹果16更新了哪些版本
市盈率回落是什么意思
苹果16系统有哪些改变
angluar如何命令删除dist
春运抢票多久能知道成功
react怎么使用 typescript
typescript性能如何
typescript怎么判断单选按钮
统计学中power值是什么意思
苹果16系统有哪些系列
充电器上的power是什么意思
春运抢票哪个平台好一点
固态硬盘 如何分区
如何用命令提示符显示隐藏分区
怎么用win7系统盘重装系统
春运大巴上抢票怎么抢票
单身聊天app有哪些软件 2025最靠谱的单身交友软件推荐
j*a整形怎么转数组
8800日元等于多少人民币


2023-07-16
浏览次数:次
返回列表