博一建材讯:近日,中国人机语音交互领域最权威的学术会议——全国人机语音通讯学术会议(NCMMSC2015)在天津举办。会上,百度语音技术部负责人贾磊分享了百度近期在汉语语音识别方面获得的重大突破。该技术能够使机器的语音识别相对错误率降低15%以上,识别准确率接近97%。此项技术将在百度语音搜索产品上上线。
(百度语音技术部负责人贾磊在NCMMSC2015上介绍百度语音技术取得的重大突破)
一次框架性的创新
百度研发出了基于多层单向LSTM的汉语声韵母整体建模技术,并成功把连接时序分类(CTC)训练技术嵌入到传统的语音识别建模框架中,再结合语音识别领域的决策树聚类、跨词解码和区分度训练等技术,大幅度提升线上语音识别产品性能。
值得注意的是,该技术创新是“打造基于多层单向LSTM的汉语声韵母整体建模技术”、“引入CTC技术”、“与语音识别领域的传统技术相结合”三大方面共同作用的结晶,是一项框架性的创新。该技术的诞生使百度语音识别系统成为目前世界上最先进的汉语语音识别技术。
三大因素助力攻克十年技术困局
LSTM与CTC技术虽已存在很长时间。但二者结合一直没有在语音工业领域成功应用。此次,百度依靠三大因素——大数据机器学习和语音识别传统理论结合、创新的算法以及强大的计算能力,经过短短4个月的不断探索与试验,在世界范围内率先克服了汉语领域使用CTC技术训练单向LSTM的高精度建模难题,成功突破了这十多年的技术困局。
贾磊介绍说:“早在4个月前,百度便开展了对语音技术的创新探索。我们详细地研究和分析了多种汉语建模单元,并深入探索了不同建模单元的CTC训练的价值和作用。在尝试了音节、声韵母和状态等不同长度的建模单元之后,最后探索出最适合汉语的声韵母整体建模。CTC的空白吸收机制和动态边界尖峰学习能力,可以动态自适应地形成‘target delay’,从而解决单向LSTM模型的右边信息不完整的问题。”最终,把上述成果一起应用到语音识别的传统技术框架中,实现了汉语语音识别工业产品技术的实质性提升。
据了解,百度研发出的全新训练算法,更接近工业大数据的产品实践。对比谷歌2015年9月份于Interspeech 发表的在英文领域的类似研究成果,百度的训练数据是谷歌的4-5倍,模型训练参数规模是谷歌的10-20倍。
更深刻的变革正在来临
如今,百度已经开始使用上万小时的样本进行模型训练。未来,训练语料量可能会突破100万小时。语音识别领域的深度学习将进入数百GPU并行训练的状态,理论创新和算法技术创新都将围绕大数据展开。随着CTC建模技术的普及及专业硬件的大量涌现,语音识别成本大大降低。贾磊表示,此次技术创新只是开始,百度将在语音识别领域继续发力,语音识别技术必将发生深刻的变革。
博一网是深圳市博一建材有限公司运营的一个集建材网站建设、建材SEO优化、建材SEM营销和线上线下互动营销与传播的一个家居建材+互联网+家装的应用场景,详情敬请登陆http://m.bo-yi.com/
打赏