普通话有口音？没问题！

14.12.2015 09:46

本文来源: 人民网

原标题：普通话有口音？没问题！（创新故事）

试想有一天，人只需对着手机说几句话，它便会自动精准识别你的需求，“一站式”轻松解决吃穿住行等问题。这并非幻想，“虚拟助理”正在进入人们生活。

最近，百度公司在汉语语音识别方面获得重大突破——能够做到在安静环境下，汉语普通话语音识别的准确率接近97%。

“百度研发出了基于多层单向LSTM的汉语声韵母整体建模技术，并成功把连接时序分类（CTC）训练技术嵌入到传统的语音识别建模框架中，再结合语音识别领域的决策树聚类、跨词解码和区分度训练等技术，大幅度提升线上语音识别产品性能。”

百度语音技术部负责人贾磊进一步解释说，通俗地讲，就是这个技术成功攻克了语音识别领域十多年来的一个困局，使语音识别相对错误率比现有水平降低15%以上，在安静的环境中，汉语普通话语音识别的识别率接近97%。

有了这个技术，对用户来讲，意味着识别准确率的提高和识别速度的提升。同时，对口音、方言、噪音环境、远距离讲话的识别率也会更好。

贾磊说，这项技术之所以被认为是重大突破，其中一个原因是降低了语音识别的成本消耗，有助于实现语音识别大规模产业化应用。“如果未来50%的搜索都使用语音的话，这个服务所消耗的后台服务器数目是惊人的。而百度的这项研究可以让后台消耗大大降低。”

据了解，百度将把这项技术应用于百度语音搜索等产品上，未来也会向各行各业开放基于此项技术的语言识别能力。开发者们能够使用这项基于新技术的语音识别能力来开发APP等各种应用。

未来，语音识别技术发展将很快进入10万小时训练阶段，以此覆盖千差万别的用户口音差异。语音识别的深度学习，也将进入数百GPU（图形处理器）并行训练的状态，计算能力和算法创新将围绕数据量展开。同时，语音识别技术会和语意理解、交互技术等形成整套解决方案，让机器更加智能。

在贾磊看来，“因为人使用语音的目的不是把语音转成文字，而是使用语音去和计算机或智能机器进行交互，获得所需的服务。这是未来的工业发展趋势，单纯地脱离服务、平台和计算能力去做语音技术的时代已经过去了。百度有场景、有内容、有需求，语音一定会做得越来越好”。

本文来源: 人民网

14.12.2015 09:46