【适配】三大国产AI芯片,适配DeepSeek-V4

来源:爱集微 #半导体# #AI#
1359

1.寒武纪完成DeepSeek-V4“Day 0”适配

2.海光DCU完成DeepSeek-V4“Day 0”适配,国产算力与大模型生态协同再进阶

3.摩尔线程S5000 + 智源FlagOS:基于原生FP8引擎,Day-0适配DeepSeek-V4

4.光莆股份2025年由盈转亏,转向光电集成封测与全球布局

5.景嘉微2025年实现营收7.2亿元,同比增长54.41%


1.寒武纪完成DeepSeek-V4“Day 0”适配

4月24日,寒武纪宣布,基于自研NeuWare软件生态与vLLM推理框架,已完成对深度求索公司最新开源大模型DeepSeek-V4的“Day 0”适配,适配代码已同步开源至GitHub社区。这是寒武纪连续第二次在DeepSeek新模型发布首日便推出国产芯片适配方案。

此次适配针对DeepSeek-V4的全新模型结构,寒武纪通过自研高性能融合算子库Torch-MLU-Ops,对模型中的Compressor、mHC等模块进行了专项加速;并运用BangC编程语言编写了稀疏/压缩Attention、GroupGemm等热点算子的极致优化Kernel,以充分释放其MLU系列芯片的硬件底层潜力。此前,双方通过持续的软硬件协同优化,已在DeepSeek系列模型的部署中实现了业界领先的算力利用率水平。

深度求索于同日正式发布并开源了DeepSeek-V4预览版。该模型拥有百万字(约100万Token)的超长上下文处理能力,在Agent能力、世界知识和推理性能上均实现了国内与开源领域的领先。模型按规模分为两个版本:面向高性能的DeepSeek-V4-Pro(总参数1.6T)和主打高性价比的DeepSeek-V4-Flash(总参数284B)。

寒武纪表示,DeepSeek-V4能够原生运行于寒武纪芯片,对中国AI产业具有里程碑意义。这一成就得益于其长期构建的NeuWare软件栈,该平台全面拥抱开源生态,原生支持PyTorch、vLLM、Diffusers等主流AI框架,并与众智FlagOS生态深度合作,旨在降低模型在不同架构芯片间的迁移成本。

2.海光DCU完成DeepSeek-V4“Day 0”适配,国产算力与大模型生态协同再进阶

4月24日,海光信息宣布,其海光DCU已同步完成对DeepSeek-V4的“Day 0”极速适配,实现了“模型发布—芯片适配—产业落地”的高效闭环,为全球开发者与企业客户提供即取即用的部署方案。

海光信息表示,其DCU团队长期致力于“国产大模型+国产算力”的联合创新。本次适配过程中,依托自研的DTK(异构计算平台)与DAS(人工智能基础软件系统),海光DCU对DeepSeek-V4模型实现了深度调优,再次达成业界领先的计算效率。DTK以完整成熟的计算库覆盖训练、推理、AI for Science等全场景,为模型提供完整的软件生态支撑。DAS则集成了超2000个算子,支持PyTorch、TensorFlow、vLLM、SGLang等超过100个主流AI框架组件,通过算子调优、编译优化、通算融合等多重技术,极致释放DCU算力,大幅提升模型的微调与推理性能。

海光信息是国内领先的通用处理器与协处理器供应商。海光DCU凭借其通用架构与全精度优势,已构建起庞大的开发者与应用生态。据公司公开信息,依托自研AI软件栈与开放生态协同优势,海光DCU现已完成超过400个国内外主流大模型的联合优化,覆盖全球99%的非闭源大模型,包括DeepSeek、Qwen、智谱GLM等均已实现“发布即适配、上线即可用”。

3.摩尔线程S5000 + 智源FlagOS:基于原生FP8引擎,Day-0适配DeepSeek-V4

4月24日,摩尔线程携手智源众智FlagOS社区,在旗舰级AI训推一体全功能GPU MTT S5000上,率先实现对新一代大模型DeepSeek-V4-Flash的Day-0极速适配,并完成了全量核心算子的深度优化与部署支持。

DeepSeek-V4-Flash 采用混合专家(MoE)架构,总参数量高达284B,激活参数13B,支持百万token上下文长度。其预训练数据超32Ttoken,在最大推理力度模式(Flash-Max)下推理能力逼近Pro版本。值得关注的是,V4模型首次采用“FP4+FP8”混合精度策略,而当前国内主流 AI 芯片仍普遍以BF16为主。而摩尔线程凭借独特的原生FP8支持优势,能够更高效承载 DeepSeek-V4 的前沿精度设计,为模型部署与推理优化提供了坚实的算力底座。

作为国内率先原生支持FP8精度的全功能GPU,MTT S5000配置了强大的硬件级FP8 Tensor Core 加速单元。相比传统的BF16/FP16,FP8能够将数据位宽直接减半,使显存带宽压力降低 50%,理论计算吞吐量实现翻倍。

为充分发挥MTT S5000在FP8计算上的内核优势,FlagOS对DeepSeek V4模型进行了FP8量化。通过系统级分析,双方技术团队将本次适配的攻坚重点锁定在FP8算子与Sparse Attention算子。针对这两个决定长上下文效率与极致推理性能的关键算子,团队从“编译优化”与“自动调优”两个核心方向取得了重大突破:

▼ 方向一:深入利用摩尔线程 FlagTree编译器能力,提升底层执行效率。通过精细化的 shape 对齐策略,使 FP8 和 Sparse Attention 的计算 shape 更好地满足摩尔线程张量访存与计算引擎(TME/TCE)的要求;同时结合 MUSA_ENABLE_SQMMA,进一步加速 tl.dot 矩阵计算。

▼ 方向二:借助 FlagOS-Tune,自动搜索最优 Triton 内核配置。FlagOS-Tune 能够扩展算子的搜索空间,基于模型真实 shape 离线搜索 FP8 和 Sparse Attention 算子的最优内核配置,效果优于手工调参。

在离线优化之外,FlagOS-Tune还支持在线内核配置搜索能力。用户只需开启环境变量 USE_FLAGTUNE=1,经过一段时间的 warmup 后,系统基于实际运行过程持续搜索并应用最佳配置。其中,TTFT 时延降低 16.5%,ITL 时延降低 39.7%,Throughput 提升 65.7%。

当前,摩尔线程与FlagOS社区正持续推进拥有1.6T旗舰模型(1.86万亿参数)的DeepSeek-V4-Pro在MTT S5000上的迁移适配工作。未来,摩尔线程将继续以MUSA架构与全功能GPU的全栈技术优势,为国产大模型生态提供更高效、更自主可控的算力基石。

开发者可下载镜像进行开箱体验:

DeepSeek-V4-Flash

▼魔塔平台

https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-mthreads-FlagOS 

▼ HuggingFace 平台

https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-mthreads-FlagOS

(摩尔线程)

4.光莆股份2025年由盈转亏,转向光电集成封测与全球布局

4月24日,光莆电子正式发布2025年年度报告。报告期内,公司实现营业收入8.05亿元,同比微增0.35%;但归属于上市公司股东的净利润为-1274.88万元,同比由盈转亏,下降124.42%;扣非后净利润为-6248.66万元,同比下降453.67%。

对于业绩亏损的主要原因,公司在年报中归结为战略聚焦投入与外部环境变化的双重影响。战略层面,公司持续加大对光电集成封测、光电智能传感器等业务的拓展,提前储备核心技术研发与高端人才,相关投入增加。同时,募投项目“光电传感器件集成封测研发及产业化项目”已完成关键技术攻关并获客户验证,正持续导入行业龙头客户,研发、制造等固定成本上升。另一募投项目“海外智能制造基地(马来西亚二厂)扩建项目”也处于筹建投入期。外部环境方面,报告期内人民币兑美元汇率升值导致海外订单汇兑损失,同时金、银、铜、钢铁等大宗商品价格高位运行,推高了制造成本。

尽管业绩阶段性承压,公司强调其主营业务、所处行业政策及核心竞争力等业务基础未发生实质性不利变化,经营性现金流持续为正,具备良好的持续经营能力。报告期内,公司战略聚焦“光电集成封测+光电智能传感器”业务,在机器人、智能驾驶等高成长领域重点拓展。其光电集成传感器封测业务实现翻倍增长,并已在移动终端、智能装备等多个细分市场实现向知名客户的批量交付。

为改善经营,公司计划持续技术创新,加速下一代传感技术产业化,并深度植入AI技术,打造“感算一体”的高精准光电智能传感器等核心器件。同时,公司将通过全球化运营提效和严控成本费用来提升盈利能力。

此外,公司董事会审议通过了2025年度利润分配预案,拟向全体股东每10股派发现金红利1元(含税),合计派发现金红利约2944.05万元。

3.景嘉微2025年实现营收7.2亿元,同比增长54.41%

4月24日,长沙景嘉微电子股份有限公司正式发布2025年年度报告。年报显示,2025年景嘉微实现营业总收入7.2亿元,同比增长54.41%;归属于上市公司股东的净利润-1.65亿元,同比减亏0.3%;归属于上市公司股东的扣除非经常性损益的净利润-1.9亿元,同比减亏7.15%。

业务结构方面,图形显控领域产品实现收入4.51亿元,同比增长83.9%,占总营收62.56%;小型专用化雷达领域产品实现收入1.26亿元,同比增长108.25%;芯片领域产品实现收入1.31亿元。公司收入全部来自境内,采用直接销售模式。

研发创新层面,2025年公司研发投入4.28亿元,占营业收入比例59.39%。研发人员1060人,占员工总数67.86%。截至报告期末,公司累计拥有专利239项(发明专利204项)、软件著作权165项、集成电路布图6项。JM11系列GPU芯片实现小批量交付,CH37系列边端侧AISoC芯片进入小批量量产阶段。

市场与运营方面,公司前五名客户销售额占比64.53%,前五名供应商采购额占比32.91%。2025年产品销售量70.2万台/套/片,生产量61.09万台/套/片,库存量70.21万台/套/片。


责编: 爱集微
来源:爱集微 #半导体# #AI#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...