服务器、存储产品购买热线:400-860-6708 ERP、管理软件购买热线:400-658-6000云服务产品销售热线:400-607-6657
语音识别人工智能解决方案
摘要:

  语音识别人工智能解决方案

背景介绍:

  语音识别技术,也被称为自动语音识别(Automatic Speech Recognition ,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

  语音识别系统一般分训练和解码两阶段。训练,即通过大量标注的语音数据训练声学模型;解码,即通过声学模型和语言模型将训练集外的语音数据识别成文字,训练的声学模型好坏直接影响识别的精度。

  

  

  语音识别技术已经发展了几十年,直到2009年,Hinton把人工智能深度学习解决方案引入语音识别中,语音识别才取得了巨大突破。本质上是把传统的混合高斯模型(GMM)替换成了深度神经网络(DNN)模型,传统GMM提取语音特征(如左下图所示)经过多个过程,而DNN模型提取语音特征(如右下图所示)可以精简不少工作,不需要对语音数据分布进行假设,不需要切分成stream来分段拟合;DNN的输入可以将相邻语音帧拼接成包含时序结构信息的矢量,在帧层次利用更多的上下文信息,相对识别错误率一下降低20%多,这个改进幅度超过了过去很多年的总和。这里的关键是把原来模型中通过GMM建模的手工特征换成了通过DNN进行更加复杂的特征学习。在此之后,在深度学习框架下,人们还在不断利用更好的模型,如RNN,LSTM和更多的训练数据进一步改进结果,深度学习使得语音识别的准确率能达到99%,足以在实验测试以外的实际场景中应用,并且被广泛商用。

解决方案介绍:

  语音识别技术已经发展了几十年,直到2009年,Hinton把人工智能深度学习解决方案引入语音识别中,语音识别才 取得了巨大突破。本质上是把传统的混合高斯模型(GMM)替换成了深度神经网络(DNN)模型,传统GMM提取语音 特征(如左下图所示)经过多个过程,而DNN模型提取语音特征(如右下图所示)可以精简不少工作,不需要对语音数据分布进行假设,不需要切分成stream来分段拟合;DNN的输入可以将相邻语音帧拼接成包含时序结构信息的矢量,在帧层次利用更多的上下文信息,相对识别错误率一下降低20%多,这个改进幅度超过了过去很多年的总和。这里的关键是 把原来模型中通过GMM建模的手工特征换成了通过DNN进行更加复杂的特征学习。在此之后,在深度学习框架下,人 们还在不断利用更好的模型,如RNN,LSTM和更多的训练数据进一步改进结果,深度学习使得语音识别的准确率能达到 99%,足以在实验测试以外的实际场景中应用,并且被广泛商用。目前所有的商用语音识别算法没有一个不是基于深度学 习的,采用深度学习进行语音识别整个处理过程如下图所示。

语音识别解决方案

客户收益:

相关产品:

关于浪潮

集团简介 文化理念 资质荣誉 董事长致辞 新闻与公告

探索浪潮

关键应用主机 通用服务器 浪潮云 浪潮云ERP 大数据资源与交易 智慧城市

支持服务

产品资料下载 查询服务进度 获取帮助 安全通告

联系浪潮

招聘 营销网络地图 联系我们

快速链接

ERP支持与服务 浪潮电子采购平台 投资者关系 投行项目 道德遵从

在社交媒体上关注我们

©1996 - 2018 INSPUR Co., Ltd. 鲁ICP备05019369号

鲁公网安备 37010202001184号

inspur logo

拨打咨询电话