6月24日,2023年度国家科学技术奖在京揭晓。
其中,科大讯飞作为第一完成单位的《多语种智能语音关键技术及产业化》项目获得国家科学技术进步奖一等奖。
该项目是科大讯飞联合清华大学、中国科大、中国移动等共同完成。
据科大讯飞消息,这是深度学习引发全球人工智能浪潮以来,过去十年人工智能领域首个国家科学技术进步奖一等奖。这也是科大讯飞继2002年和2011年分别获得国家科学技术进步奖二等奖之后,首次获得国家科学技术进步奖一等奖。
据介绍,该项目关键技术实现四大突破。该项目攻克多个技术难题,提出四个方面的技术创新:复杂语音信号解耦建模关键技术突破,多语种共享建模关键技术突破,语音语义联合建模关键技术突破,国产异构硬件平台训练及推理加速关键技术突破。
为解决语音识别研究中最具挑战的远场、噪声、多人语音混叠等现象导致的“鸡尾酒会”效应典型难题,科大讯飞提出了多通道语音信号时空分离建模方法和多维度语音属性解耦表征方法,实现语音信号中内容、噪声等高度耦合的多维属性特征解耦,使得复杂场景下语音识别准确率得到重大突破。
为应对多语种技术卡脖子问题,科大讯飞设计了全新的多语种通用音素体系和基本语言单元,实现多语种统一音素韵律体系的构建,又通过基于元学习的多语种预训练和基于语族分组的多语种共享建模——通俗地说,就是将不同的小语种进行分类,找到同类语种的共同规律,进行分析建模和训练——最终,显著提升了小语种语音系统性能。
同时,为解决复杂应用场景下语音交互、语音翻译面临的深层次语义理解困难、专业性不足等问题,科大讯飞提出语音语义互增强的鲁棒口语理解技术,有效提升语音交互、语音翻译等复杂场景的语义理解准确率;提出多源知识增强的可信文本生成技术,提升专有词汇及领域知识引用的准确率。
为解决使用国产芯片开展智能语音算法模型训练和推理面临的性能低、适配难等问题,科大讯飞提出硬件亲和的变长输入算子融合和联合统一量化感知训练技术,通过软硬件协同优化的动态张量算子自动融合方法,实现对语音等变长输入的训练性能优化达到国际主流芯片同等水平;通过多硬件联合的量化计算模拟,达到模型单次训练后可在不同硬件平台上一键部署,解决了智能语音技术硬件平台的“卡脖子”问题。