​“百万Token一分钱”,曦望发布推理GPU芯片启望S3

来源:爱集微 #曦望# #GPU#
7883

谁才是“推理性价比之王”?1月27日,国产GPU厂商曦望(Sunrise)在杭州发布新一代推理GPU芯片启望S3,并推出面向大模型推理的超节点方案及推理云计划。当下,这套“组合拳”正刷新国产推理GPU性价比纪录,有望以普惠化的算力服务,助力各行业轻松迈入大模型规模化应用新阶段。

行业新基准落地,“百万Token一分钱”

此前不久,曦望宣布在一年内顺利完成近30亿元战略融资,所筹资金将专项用于下一代推理 GPU 的核心技术研发、规模化量产及生态共建,持续夯实在推理算力赛道的核心竞争力。作为国产全栈自研人工智能算力芯片企业,曦望拥有超300人规模的团队,研发人员来自英伟达、AMD、昆仑芯、商汤等,核心技术骨干平均有15年的行业经验。在历经数年技术攻关与20亿元研发投入后,其构建起覆盖全场景需求的三代芯片产品矩阵,全面覆盖从视觉推理到大模型全场景推理的多元应用需求。

“曦望是国内首家all in推理的GPU芯片公司,使命只有一个,就是把大模型推理这件事做到极致,让AI推理真正变得便宜稳定,而且到处可用,”在曦望2026 SGS产品发布会上,曦望董事长徐冰提出,从S3开始,企业要和产业一起,依靠专用的推理GPU和系统架构把成本再压一个数量级,把“百万Token一分钱”变成行业新基准。

中国工程院院士、浙江大学信息学部主任吴汉明在致辞中指出,推理算力价值的实现离不开协同,需要芯片设计、系统集成、软件开发到产业应用的全链条协作。曦望科技作为一个专注AI推理的一个基础设施的创新者,正是协同创新途径的积极推行者和践行者,将与产业链伙伴共同推动国产算力的发展。

集微网了解,2018年开始,曦望即着手研发第一代S1推理芯片,并在2020年量产,取得上万片的场景落地。2020年,曦望启动启望S2高性能的GPGU架构芯片,并于次年流片,取得了非常好的产品化的路径。而依托all in推理理念推出的启望S3,目前内部研发已经基本完成,将于今年年中流片年底回片量产。

按照“量产一代发布一代预研一代”的节奏,接下来的两年,曦望还会推出高性能启望S4推理GPU,以及安全可控启望S5-GPU芯片。

不再“拼峰值”,推理重塑GPU设计目标

过去数年,GPU的核心竞争指标始终围绕峰值算力、通用性和训练效率展开。但随着大模型进入规模化应用阶段,算力消耗的重心正在从训练转向推理。

但此次,曦望在S3上选择了一条相对“反常识”的路线,其并不追求峰值训练性能,而是All-in推理效率与单位成本。正如曦望联席CEO王勇在发布会上指出,训练更像一次性、高资本消耗的技术登高,而推理则是长期、持续的算力交付过程。“当推理成为主要算力消耗场景后,GPU的商业价值不再取决于参数指标,而是单位Token的真实成本。”

这一判断直接决定了启望S3的设计方向。其作为一款面向大模型推理深度定制的GPGPU芯片,设计围绕真实推理负载,对算力结构、存储体系和互联方式进行了系统级重构。

在算力层面,S3支持从FP16到FP4的多精度灵活切换,使模型在保证效果的前提下,最大化释放低精度推理效率。这种设计更贴合当前MoE和长上下文模型在推理阶段的实际需求。在存储层面,S3采用LPDDR6显存方案,成为国内首款采用该方案的芯片——相比HBM路线,LPDDR6更强调容量与能效比。官方数据显示,S3的显存容量较上一代产品提升4倍,有效缓解大模型推理中普遍存在的显存驻留与访存瓶颈。</p><p>在DeepSeek V3 / R1满血版等主流大模型推理场景中,S3单位Token推理成本较上一代产品下降约90%。曦望官方指出,这一指标已具备工程可复现性,而非单点实验室数据。

集微网观察,“S3家族”至少还包括——智望、辰望、寰望、熙望等系列产品,以全链满足推理需求。此次,曦望围绕S3同步发布了面向大模型推理的寰望SC3超节点解决方案,从一开始即面向千亿、万亿级参数多模态 MoE 推理的真实部署需求进行设计。该方案支持单域256卡一级互联,可高效支撑PD分离架构与大EP(Expert Parallelism)规模化部署,显著提升推理阶段的系统利用率与稳定性,适配长上下文、多并发、多专家并行等复杂推理场景。

在交付形态上,寰望SC3采用全液冷设计,具备极致PUE表现,并支持模块化交付与快速部署。曦望官方表示,在同等推理能力量级下,该方案可将整体系统交付成本从行业常见的亿元级,降低至千万元级,实现一个数量级的下降。这一“算得过账”的系统级能力,被视为万亿参数模型规模化应用的重要前提。

在软件层面,曦望构建了与CUDA兼容的基础软件体系,覆盖驱动、运行时 API、开发工具链、算子库和通信库,降低推理应用的迁移门槛。目前,该体系已适配ModelScope平台90%以上主流大模型形态,包括DeepSeek、通义千问等。

推理算力如何更好用?谁是“最后一公里”

过去一年,我国人工智能产业浪潮翻涌,机遇与挑战同频共振。一方面,全球AI推理需求爆发,日均Token消耗量实现百倍增长,开源模型百花齐放、性能持续迭代;另一方面,自主可控和国产化要求不断提升,为国产芯片企业开辟了广阔蓝海。产业生态正向下扎根,从芯片到模型、从架构协同到场景落地,全链路融合成为核心趋势。与此同时,行业竞争逻辑也在发生变化——从单点性能比拼,转向软硬协同、0成本迁移、推理性价比的系统级竞争。

因此,在S3回答了“推理算力如何更便宜”的问题后,锚定“极致推理GPU芯片”赛道的曦望,更与商汤科技、第四范式等生态伙伴探索推理云平台,则试图解决“推理算力如何更好用”。

集微网观察,通过GPU池化与弹性调度,曦望将底层算力整合为统一的推理算力池,同时以MaaS(Model as a Service)作为核心入口,使企业无需关注底层硬件配置与集群运维,即可按需调用大模型推理能力。这一体系也成为“百万Token一分钱”推理成本合作的重要技术基础。

“当前,曦望致力于做好3件事——让算力更便宜,让部署更简单,让生态更开放。在推理时代,曦望要做让算力变得便宜、稳定、随处可用的核心底座。”徐冰强调,推理时代的核心不是“把芯片卖出去”,而是能否持续、稳定地把算力转化为可交付的生产力。谁能持续降低推理成本,谁就掌握了AI产业的成本曲线。据悉,曦望2025年推理GPU芯片交付量已突破10000片,标志着其推理GPU路线完成从工程验证到规模化交付的关键跨越。

在国产GPU行业从“拼参数”走向“拼单位经济成本”的拐点上,曦望选择以推理为切口,尝试重构GPU的产品形态与算力交付方式,其坚定的All-in推理路径,正成为观察我国推理算力商业化进程的重要样本。

责编: 爱集微
来源:爱集微 #曦望# #GPU#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...