【适配】三大国产AI芯片，适配DeepSeek-V4

作者：爱集微 2小时前

相关舆情 AI解读生成海报

来源：爱集微 #半导体# #AI#

1359

1.寒武纪完成DeepSeek-V4“Day 0”适配

2.海光DCU完成DeepSeek-V4“Day 0”适配，国产算力与大模型生态协同再进阶

3.摩尔线程S5000 + 智源FlagOS：基于原生FP8引擎，Day-0适配DeepSeek-V4

4.光莆股份2025年由盈转亏，转向光电集成封测与全球布局

5.景嘉微2025年实现营收7.2亿元，同比增长54.41%

1.寒武纪完成DeepSeek-V4“Day 0”适配

4月24日，寒武纪宣布，基于自研NeuWare软件生态与vLLM推理框架，已完成对深度求索公司最新开源大模型DeepSeek-V4的“Day 0”适配，适配代码已同步开源至GitHub社区。这是寒武纪连续第二次在DeepSeek新模型发布首日便推出国产芯片适配方案。

此次适配针对DeepSeek-V4的全新模型结构，寒武纪通过自研高性能融合算子库Torch-MLU-Ops，对模型中的Compressor、mHC等模块进行了专项加速；并运用BangC编程语言编写了稀疏/压缩Attention、GroupGemm等热点算子的极致优化Kernel，以充分释放其MLU系列芯片的硬件底层潜力。此前，双方通过持续的软硬件协同优化，已在DeepSeek系列模型的部署中实现了业界领先的算力利用率水平。

深度求索于同日正式发布并开源了DeepSeek-V4预览版。该模型拥有百万字（约100万Token）的超长上下文处理能力，在Agent能力、世界知识和推理性能上均实现了国内与开源领域的领先。模型按规模分为两个版本：面向高性能的DeepSeek-V4-Pro（总参数1.6T）和主打高性价比的DeepSeek-V4-Flash（总参数284B）。

寒武纪表示，DeepSeek-V4能够原生运行于寒武纪芯片，对中国AI产业具有里程碑意义。这一成就得益于其长期构建的NeuWare软件栈，该平台全面拥抱开源生态，原生支持PyTorch、vLLM、Diffusers等主流AI框架，并与众智FlagOS生态深度合作，旨在降低模型在不同架构芯片间的迁移成本。

2.海光DCU完成DeepSeek-V4“Day 0”适配，国产算力与大模型生态协同再进阶

4月24日，海光信息宣布，其海光DCU已同步完成对DeepSeek-V4的“Day 0”极速适配，实现了“模型发布—芯片适配—产业落地”的高效闭环，为全球开发者与企业客户提供即取即用的部署方案。

海光信息表示，其DCU团队长期致力于“国产大模型+国产算力”的联合创新。本次适配过程中，依托自研的DTK（异构计算平台）与DAS（人工智能基础软件系统），海光DCU对DeepSeek-V4模型实现了深度调优，再次达成业界领先的计算效率。DTK以完整成熟的计算库覆盖训练、推理、AI for Science等全场景，为模型提供完整的软件生态支撑。DAS则集成了超2000个算子，支持PyTorch、TensorFlow、vLLM、SGLang等超过100个主流AI框架组件，通过算子调优、编译优化、通算融合等多重技术，极致释放DCU算力，大幅提升模型的微调与推理性能。

海光信息是国内领先的通用处理器与协处理器供应商。海光DCU凭借其通用架构与全精度优势，已构建起庞大的开发者与应用生态。据公司公开信息，依托自研AI软件栈与开放生态协同优势，海光DCU现已完成超过400个国内外主流大模型的联合优化，覆盖全球99%的非闭源大模型，包括DeepSeek、Qwen、智谱GLM等均已实现“发布即适配、上线即可用”。

3.摩尔线程S5000 + 智源FlagOS：基于原生FP8引擎，Day-0适配DeepSeek-V4

4月24日，摩尔线程携手智源众智FlagOS社区，在旗舰级AI训推一体全功能GPU MTT S5000上，率先实现对新一代大模型DeepSeek-V4-Flash的Day-0极速适配，并完成了全量核心算子的深度优化与部署支持。

DeepSeek-V4-Flash 采用混合专家（MoE）架构，总参数量高达284B，激活参数13B，支持百万token上下文长度。其预训练数据超32Ttoken，在最大推理力度模式（Flash-Max）下推理能力逼近Pro版本。值得关注的是，V4模型首次采用“FP4+FP8”混合精度策略，而当前国内主流 AI 芯片仍普遍以BF16为主。而摩尔线程凭借独特的原生FP8支持优势，能够更高效承载 DeepSeek-V4 的前沿精度设计，为模型部署与推理优化提供了坚实的算力底座。

作为国内率先原生支持FP8精度的全功能GPU，MTT S5000配置了强大的硬件级FP8 Tensor Core 加速单元。相比传统的BF16/FP16，FP8能够将数据位宽直接减半，使显存带宽压力降低 50%，理论计算吞吐量实现翻倍。

为充分发挥MTT S5000在FP8计算上的内核优势，FlagOS对DeepSeek V4模型进行了FP8量化。通过系统级分析，双方技术团队将本次适配的攻坚重点锁定在FP8算子与Sparse Attention算子。针对这两个决定长上下文效率与极致推理性能的关键算子，团队从“编译优化”与“自动调优”两个核心方向取得了重大突破：

▼ 方向一：深入利用摩尔线程 FlagTree编译器能力，提升底层执行效率。通过精细化的 shape 对齐策略，使 FP8 和 Sparse Attention 的计算 shape 更好地满足摩尔线程张量访存与计算引擎（TME/TCE）的要求；同时结合 MUSA_ENABLE_SQMMA，进一步加速 tl.dot 矩阵计算。

▼ 方向二：借助 FlagOS-Tune，自动搜索最优 Triton 内核配置。FlagOS-Tune 能够扩展算子的搜索空间，基于模型真实 shape 离线搜索 FP8 和 Sparse Attention 算子的最优内核配置，效果优于手工调参。

在离线优化之外，FlagOS-Tune还支持在线内核配置搜索能力。用户只需开启环境变量 USE_FLAGTUNE=1，经过一段时间的 warmup 后，系统基于实际运行过程持续搜索并应用最佳配置。其中，TTFT 时延降低 16.5%，ITL 时延降低 39.7%，Throughput 提升 65.7%。

当前，摩尔线程与FlagOS社区正持续推进拥有1.6T旗舰模型（1.86万亿参数）的DeepSeek-V4-Pro在MTT S5000上的迁移适配工作。未来，摩尔线程将继续以MUSA架构与全功能GPU的全栈技术优势，为国产大模型生态提供更高效、更自主可控的算力基石。

开发者可下载镜像进行开箱体验：

DeepSeek-V4-Flash

▼魔塔平台

https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-mthreads-FlagOS

▼ HuggingFace 平台

https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-mthreads-FlagOS

（摩尔线程）

4.光莆股份2025年由盈转亏，转向光电集成封测与全球布局

4月24日，光莆电子正式发布2025年年度报告。报告期内，公司实现营业收入8.05亿元，同比微增0.35%；但归属于上市公司股东的净利润为-1274.88万元，同比由盈转亏，下降124.42%；扣非后净利润为-6248.66万元，同比下降453.67%。

对于业绩亏损的主要原因，公司在年报中归结为战略聚焦投入与外部环境变化的双重影响。战略层面，公司持续加大对光电集成封测、光电智能传感器等业务的拓展，提前储备核心技术研发与高端人才，相关投入增加。同时，募投项目“光电传感器件集成封测研发及产业化项目”已完成关键技术攻关并获客户验证，正持续导入行业龙头客户，研发、制造等固定成本上升。另一募投项目“海外智能制造基地（马来西亚二厂）扩建项目”也处于筹建投入期。外部环境方面，报告期内人民币兑美元汇率升值导致海外订单汇兑损失，同时金、银、铜、钢铁等大宗商品价格高位运行，推高了制造成本。

尽管业绩阶段性承压，公司强调其主营业务、所处行业政策及核心竞争力等业务基础未发生实质性不利变化，经营性现金流持续为正，具备良好的持续经营能力。报告期内，公司战略聚焦“光电集成封测+光电智能传感器”业务，在机器人、智能驾驶等高成长领域重点拓展。其光电集成传感器封测业务实现翻倍增长，并已在移动终端、智能装备等多个细分市场实现向知名客户的批量交付。

为改善经营，公司计划持续技术创新，加速下一代传感技术产业化，并深度植入AI技术，打造“感算一体”的高精准光电智能传感器等核心器件。同时，公司将通过全球化运营提效和严控成本费用来提升盈利能力。

此外，公司董事会审议通过了2025年度利润分配预案，拟向全体股东每10股派发现金红利1元（含税），合计派发现金红利约2944.05万元。

3.景嘉微2025年实现营收7.2亿元，同比增长54.41%

4月24日，长沙景嘉微电子股份有限公司正式发布2025年年度报告。年报显示，2025年景嘉微实现营业总收入7.2亿元，同比增长54.41%；归属于上市公司股东的净利润-1.65亿元，同比减亏0.3%；归属于上市公司股东的扣除非经常性损益的净利润-1.9亿元，同比减亏7.15%。

业务结构方面，图形显控领域产品实现收入4.51亿元，同比增长83.9%，占总营收62.56%；小型专用化雷达领域产品实现收入1.26亿元，同比增长108.25%；芯片领域产品实现收入1.31亿元。公司收入全部来自境内，采用直接销售模式。

研发创新层面，2025年公司研发投入4.28亿元，占营业收入比例59.39%。研发人员1060人，占员工总数67.86%。截至报告期末，公司累计拥有专利239项（发明专利204项）、软件著作权165项、集成电路布图6项。JM11系列GPU芯片实现小批量交付，CH37系列边端侧AISoC芯片进入小批量量产阶段。

市场与运营方面，公司前五名客户销售额占比64.53%，前五名供应商采购额占比32.91%。2025年产品销售量70.2万台/套/片，生产量61.09万台/套/片，库存量70.21万台/套/片。