国产开源模型DeepSeek-V3逼近行业顶尖并火到海外

来源:爱集微 #AI大模型#
3.1w

近日,AI公司深度求索(DeepSeek)正式上线全新系列模型DeepSeek-V3首个版本并同步开源。官方数据显示,该模型在多项评测集上超越了阿里Qwen2.5-72B、Meta的Llama-3.1-405B等其他头部开源模型,并逼近GPT-4o、Claude-3.5-Sonnet等顶尖闭源模型,甚至不分伯仲。

据官方技术论文披露,DeepSeek-V3是一个具有6710亿总参数的MoE(混合专家)模型,在14.8万亿token上进行了预训练。v3模型的总训练成本为557.6万美元,GPT-4o等模型的训练成本约为1亿美元。DeepSeek-V3定价为每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens 8元,并享有45天的优惠价格体验期。

显然,高性价比是DeepSeek大模型的关键特色之一。今年5月,DeepSeek发布的V2开源模型,将推理成本降到每百万token仅1元人民币,随后字节跳动、腾讯、百度、阿里等大厂纷纷降价,大模型价格战由此一触即发。

在DeepSeek-V3上线后,海外社交媒体平台X迅速对其“刷屏”,其中的焦点在于这一模型能力对标头部模型,但训练的预算却非常低,“2048个GPU、2个月、近600万美元”,而GPT-4o等模型除了训练成本约为1亿美元,还需至少在万个GPU量级的计算集群上训练。

责编: 张轶群
来源:爱集微 #AI大模型#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

陈兴华

微信:1121040800

邮箱:chenxh@ijiwei.com

微信:1121040800 邮箱:chenxh@ijiwei.com 浩渺无极,芯潮澎湃。


1064文章总数
3199.2w总浏览量
最新资讯
关闭
加载

PDF 加载中...