首家适配|壁仞科技壁砺™ 166M极速支持MOSS-TTS Family

来源:壁仞科技BIrentech #壁仞科技#
2243

2月10日,由上海创智学院孵化的模思智能及OpenMOSS团队正式发布并开源了MOSS-TTS Family。模型发布后,壁仞科技(06082.HK)旗舰产品壁砺™ 166M率先完成其中语音生成基座MOSS-TTS模型的高性能推理部署。作为国内领军的通用GPU芯片企业,壁仞科技成为首家完成MOSS-TTS模型适配的国产算力厂商。

这一成果充分显示了壁砺™ 166M的强大通用性和全自研BIRENSUPA™软件栈的成熟度。壁仞科技软硬一体解决方案可高效支持开发者适配新模型,显著降低适配成本,为客户日新月异的AI创新业务提供坚实的算力底座。

壁砺™166 M为数据中心大算力训推一体芯片,产品形态为4U OAM V1.1风冷模组,可满足万亿参数模型需求,并广泛应用于大语言模型、多模态AIGC、图像与语音、推荐系统等。

MOSS-TTS Family是一套面向高保真、高表现力与复杂场景生成的语音生成模型家族。它包含五个核心成员,共同构成了一个覆盖“稳定生成、灵活设计、复杂对话、情境补全、实时交互”的声音创作生态闭环。

  • MOSS-TTS:高保真、高表现力的语音生成基座,多语言、长音频、精确时长控制;

  • MOSS-TTSD:全面更新1.0版本,面向真实对话场景的多说话人语音合成,不仅播客,支持更多复杂对话场景;

  • MOSS-VoiceGenerator:复杂文本指令跟随、用于音色与角色设计;

  • MOSS-SoundEffect:环境音与音效生成模型;

  • MOSS-TTS-Realtime:面向实时交互的实时流式 TTS 模型;

MOSS-TTS Family是一整套可以使得用户直接进入创作流程、产品系统与交互场景的声音生产工具链。你可以用同一套模型体系完成以下任务:

  • 克隆一个说话人的音色与表达风格,用于纪录片、讲解或新闻播报;

  • 生成具备真实节奏的双人或多人对话,用于播客、综艺或解说;

  • 通过指令设计带有情绪与表演状态的角色声音;

  • 为内容补全环境音与音效;

  • 以及在实时系统中,以流式方式持续输出自然语音。

壁仞科技选取了2个音色文件,分别基于2段台词合成了对应的音频,达到了良好的展示效果。

壁仞科技本次适配的MOSS-TTS模型为高表现力语音生成基座,是整个MOSS-TTS Family的基础模型,也是所有声音能力得以成立的前提。它的核心目标是在真实内容与复杂场景中,稳定地复现一个说话者的声音特征、表达方式与语言习惯,并稳定地生成长语音片段。此次,壁仞科技与模思智能的软硬协同,大幅降低各行业的应用门槛,让中小制作团队、内容创作者也能便捷使用高表现力的语音生成技术,未来将充分释放语音内容创作的生产力,进一步拓展了语音合成技术在内容创作领域的应用边界。

责编: 爱集微
来源:壁仞科技BIrentech #壁仞科技#
THE END
关闭
加载

PDF 加载中...