首家适配｜壁仞科技壁砺™ 166M极速支持MOSS-TTS Family

作者：爱集微 02-10 20:07

来源：壁仞科技BIrentech #壁仞科技#

1.8w

2月10日，由上海创智学院孵化的模思智能及OpenMOSS团队正式发布并开源了MOSS-TTS Family。模型发布后，壁仞科技（06082.HK）旗舰产品壁砺™ 166M率先完成其中语音生成基座MOSS-TTS模型的高性能推理部署。作为国内领军的通用GPU芯片企业，壁仞科技成为首家完成MOSS-TTS模型适配的国产算力厂商。

这一成果充分显示了壁砺™ 166M的强大通用性和全自研BIRENSUPA™软件栈的成熟度。壁仞科技软硬一体解决方案可高效支持开发者适配新模型，显著降低适配成本，为客户日新月异的AI创新业务提供坚实的算力底座。

壁砺™166 M为数据中心大算力训推一体芯片，产品形态为4U OAM V1.1风冷模组，可满足万亿参数模型需求，并广泛应用于大语言模型、多模态AIGC、图像与语音、推荐系统等。

MOSS-TTS Family是一套面向高保真、高表现力与复杂场景生成的语音生成模型家族。它包含五个核心成员，共同构成了一个覆盖“稳定生成、灵活设计、复杂对话、情境补全、实时交互”的声音创作生态闭环。

MOSS-TTS：高保真、高表现力的语音生成基座，多语言、长音频、精确时长控制；
MOSS-TTSD：全面更新1.0版本，面向真实对话场景的多说话人语音合成，不仅播客，支持更多复杂对话场景；
MOSS-VoiceGenerator：复杂文本指令跟随、用于音色与角色设计；
MOSS-SoundEffect：环境音与音效生成模型；
MOSS-TTS-Realtime：面向实时交互的实时流式 TTS 模型；

MOSS-TTS Family是一整套可以使得用户直接进入创作流程、产品系统与交互场景的声音生产工具链。你可以用同一套模型体系完成以下任务：

克隆一个说话人的音色与表达风格，用于纪录片、讲解或新闻播报；
生成具备真实节奏的双人或多人对话，用于播客、综艺或解说；
通过指令设计带有情绪与表演状态的角色声音；
为内容补全环境音与音效；
以及在实时系统中，以流式方式持续输出自然语音。

壁仞科技选取了2个音色文件，分别基于2段台词合成了对应的音频，达到了良好的展示效果。

壁仞科技本次适配的MOSS-TTS模型为高表现力语音生成基座，是整个MOSS-TTS Family的基础模型，也是所有声音能力得以成立的前提。它的核心目标是在真实内容与复杂场景中，稳定地复现一个说话者的声音特征、表达方式与语言习惯，并稳定地生成长语音片段。此次，壁仞科技与模思智能的软硬协同，大幅降低各行业的应用门槛，让中小制作团队、内容创作者也能便捷使用高表现力的语音生成技术，未来将充分释放语音内容创作的生产力，进一步拓展了语音合成技术在内容创作领域的应用边界。