【分分五分快三走势】从不温不火到炙手可热:语音识别技术简史

  • 时间:
  • 浏览:2

声明:本文来自于微信公众号  AI科技大本营(ID:rgznai30),作者:陈孝良,冯大航,李智勇,授权站长之家转载发布。

【导读】分分五分快三走势语音识别自半个世纪前诞生以来,时不时所处不温不火的情况汇报,直到 309 年宽度学习技分分五分快三走势术的长足发展才使得语音识别的精度大大提高,确实还无法进行无限制领域、无限制人群的应用,但也在大多数场景中提供了有一种便利高效的沟通最好的办法。本篇文章将从技术和产业有有二个宽度来回顾一下语音识别发展的历程和现状,并分析某些未来趋势,希望能帮助更多年轻技术人员了解语音行业,不想 产生兴趣投身于你这人行业。

语音识别,通常称为自动语音识别,英文是Automatic Speech Recognition,缩写为 ASR,主只要将人类语音中的词汇内容转换为计算机可读的输入,一般都是都非要理解的文本内容,都是将会是二进制编码将会字符序列。否则 ,亲戚朋友 一般理解的语音识别确实都是狭义的语音转文字的过程,简称语音转文本识别( Speech To Text, STT )更离米 ,非要 就能与语音合成(Text To Speech, TTS )对应起来。

语音识别是一项融合多学科知识的前沿技术,覆盖了数学与统计学、声学与语言学、计算机与人工智能等基础学科和前沿学科,是人机自然交互技术中的关键环节。否则 ,语音识别自诞生以来的半个多世纪,时不时非要 在实际应用过程得到普遍认可,一方面这与语音识别的技术不足有关,其识别精度和时延都达非要实际应用的要求;每各自 面,与业界对语音识别的期望不足有关,实际上语音识别与键盘、鼠标或触摸屏等应是融合关系,而非替代关系。

宽度学习技术自 309 年兴起随后 ,将会取得了长足进步。语音识别的精度和时延取决于实际应用环境,但在安静环境、标准口音、常见词汇场景下的语音识别率将会超过 95%,愿因具备了与人类相仿的语言识别能力,而这也是语音识别技术当前发展比较火热的愿因。

随着技术的发展,现在口音、方言、噪声等场景下的语音识别也达到了可用情况汇报,很重是远场语音识别将会随着智能音箱的兴起成为全球消费电子领域应用最为成功的技术之一。将会语音交互提供了更自然、更便利、更高效的沟通形式,语音必定将成为未来最主要的人机互动接口之一。

当然,当前技术还所处什么都有有不足,如对于强噪声、超远场、强干扰、多语种、大词汇等场景下的语音识别还非要很大的提升;另外,多人语音识别和离线语音识别也是当前非要重点外理的疑问。确实语音识别还无法做到无限制领域、无限制人群的应用,否则 离米 从应用实践中亲戚朋友 看得人了某些希望。

本篇文章将从技术和产业有有二个宽度来回顾一下语音识别发展的历程和现状,并分析某些未来趋势,希望能帮助更多年轻技术人员了解语音行业,不想 产生兴趣投身于你这人行业。

语音识别的技术历程

现代语音识别都非要追溯到 1952 年,Davis 等人研制了世界上第有有二个能识别 10 个英文数字发音的实验系统,从此正式开启了语音识别的多线程 。语音识别发展到今天将会有 70 多年,但从技术方向上都非要大体分为有有二个阶段。

下图是从 1993 年到 2017 年在 Switchboard 上语音识别率的进展情况汇报,从图中也都非要看出 1993 年到 309 年,语音识别时不时所处 GMM-HMM 时代,语音识别率提升缓慢,尤其是 30 年到 309 年语音识别率基本所处停滞情况汇报;309 年随着宽度学习技术,很重是 DNN 的兴起,语音识别框架变为 DNN-HMM,语音识别进入了 DNN 时代,语音识别精准率得到了显著提升;2015 年随后 ,将会“端到端”技术兴起,语音识别进入了百花齐放时代,语音界都是训练更深、更多样化的网络,一起利用端到端技术进一步大幅提升了语音识别的性能,直到 2017 年微软在 Swichboard 上达到词错误率 5.1%,从而让语音识别的准确性首次超越了人类,当然这是在一定限定条件下的实验结果,还不具有普遍代表性。

GMM-HMM时代

70 年代,语音识别主要集中在小词汇量、孤立词识别方面,使用的最好的办法也主只要简单的模板匹配最好的办法,即首先提取语音信号的特征构建参数模板,否则 将测试语音与参考模板参数进行一一比较和匹配,取距离最近的样本所对应的词标注为该语音信号的发音。该最好的办法对外理孤立词识别是有效的,但对于大词汇量、非特定人连续语音识别就无能为力。否则 ,进入 30 年代后,研究思路所处了重大变化,从传统的基于模板匹配的技术思路刚开始英文英文转向基于统计模型(HMM)的技术思路。

HMM 的理论基础在 1970 年前后就将会由 Baum 等人建立起来,随后 由 CMU 的 Baker 和 IBM 的 Jelinek 等人将其应用到语音识别当中。HMM 模型假定有有二个音素蕴含 3 到 5 个情况汇报,同一情况汇报的发音相对稳定,不同情况汇报间是都非要按照一定概率进行跳转;某一情况汇报的特征分布都非要用概率模型来描述,使用最广泛的模型是 GMM。否则 GMM-HMM 框架中,HMM 描述的是语音的短时平稳的动态性,GMM 用来描述 HMM 每一情况汇报内部人员的发音特征。

基于 GMM-HMM 框架,研究者提出各种改进最好的办法,如结合上下文信息的动态贝叶斯最好的办法、区分性训练最好的办法、自适应训练最好的办法、HMM/NN 混合模型最好的办法等。哪此最好的办法都对语音识别研究产生了深远影响,并为下一代语音识别技术的产生做好了准备。自上世纪 90 年代语音识别声学模型的区分性训练准则和模型自适应最好的办法被提出随后 ,在很长一段内语音识别的发展比较缓慢,语音识别错误率那条线时不时非要 明显下降。

DNN-HMM时代

306 年,Hinton 提出宽度置信网络(DBN),不利于了宽度神经网络(DNN)研究的复苏。309 年,Hinton 将 DNN 应用于语音的声学建模,在 TIMIT 上获得了当时最好的结果。2011 年底,微软研究院的俞栋、邓力又把 DNN 技术应用在了大词汇量连续语音识别任务上,大大降低了语音识别错误率。从此语音识别进入 DNN-HMM 时代。

DNN-HMM主只要用 DNN 模型代替非要 的 GMM 模型,对每有有二个情况汇报进行建模,DNN 带来的好处是不再非要对语音数据分布进行假设,将相邻的语音帧拼接又蕴含了语音的时序特征信息,使得对于情况汇报的分类概率有了明显提升,一起DNN还具有强大环境学习能力,都非要提升对噪声和口音的鲁棒性。

简单来说,DNN 只要给出输入的一串特征所对应的情况汇报概率。将会语音信号是连续的,不仅各个音素、音节以及词之间非要 明显的边界,各个发音单位都是受到上下文的影响。确实拼帧都非要增添加下文信息,但对于语音来说还是不足。而递归神经网络(RNN)的时不时出先都非要记住更多历史信息,更不不利于对语音信号的上下文信息进行建模。

将会简单的 RNN 所处梯度爆炸和梯度消散疑问,难以训练,无法直接应用于语音信号建模上,否则 学者进一步探索,开发出了什么都有有适合语音建模的 RNN 特征,其中最有名的只要 LSTM 。LSTM 通过输入门、输出门和遗忘门都非要更好的控制信息的流动和传递,具有长短时记忆能力。确实 LSTM 的计算多样化度会比 DNN 增加,但其整体性能比 DNN 有相对 20% 左右稳定提升。

BLSTM 是在 LSTM 基础上做的进一步改进,不仅考虑语音信号的历史信息对当前帧的影响,非要考虑未来信息对当前帧的影响,否则 其网络中沿时间轴所处正向和反向有有二个信息传递过程,非要 该模型都非要更充分考虑上下文对于当前语音帧的影响,不想 极大提高语音情况汇报分类的准确率。BLSTM 考虑未来信息的代价是非要进行说说级更新,模型训练的收敛时延那么,一起也会带来解码的延迟,对于哪此疑问,业届都进行了工程优化与改进,即使现在仍然有什么都有有大公司使用的都是该模型特征。

图像识别中主流的模型只要 CNN,而语音信号的时频图也都非要看作是一幅图像,否则 CNN 也被引入到语音识别中。要想提高语音识别率,就非要克服语音信号所面临的多样性,包括说话人自身、说话人所处的环境、下发设备等,哪此多样性都都非要等价为各种滤波器与语音信号的卷积。而 CNN 离米 设计了一系列具有局部关注特征的滤波器,并通过训练学习得到滤波器的参数,从而从多样性的语音信号中抽取出不变的偏离 ,CNN 本质上也都非要看作是从语音信号中不断抽取特征的有有二个过程。CNN 相比于传统的 DNN 模型,在相同性能情况汇报下,前者的参数量更少。

综上所述,对于建模能力来说,DNN 适合特征映射到独立空间,LSTM 具有长短时记忆能力,CNN 擅长减少语音信号的多样性,否则 有有二个好的语音识别系统是哪此网络的组合。

端到端时代

语音识别的端到端最好的办法主只要代价函数所处了变化,但神经网络的模型特征并非要 不想 变化。总体来说,端到端技术外理了输入序列的长度远大于输出序列长度的疑问。端到端技术主要分成两类:一类是 CTC 最好的办法,另一类是 Sequence-to-Sequence 最好的办法。传统语音识别 DNN-HMM 架构里的声学模型,每一帧输入都对应有有二个标签类别,标签非要反复的迭代来确保对齐更准确。

采用 CTC 作为损失函数的声学模型序列,不非要预先对数据对齐,只非要有有二个输入序列和有有二个输出序列就都非要进行训练。CTC 关心的是预测输出的序列有无和真实的序列相近,而不关心预测输出序列中每个结果在时间点上有无和输入的序列正好对齐。CTC 建模单元是音素将会字,否则 它引入了 Blank。对于一段语音,CTC 最后输出的是尖峰的序列,尖峰的位置对应建模单元的 Label,某些位置都是 Blank。

Sequence-to-Sequence 最好的办法非要 主要应用于机器翻译领域。2017 年,Google 将其应用于语音识别领域,取得了非常好的效果,将词错误率降低至5.6%。如下图所示,Google 提出新系统的框架由有有二个偏离 组成:Encoder 编码器组件,它和标准的声学模型类似,输入的是语音信号的时频特征;经过一系列神经网络,映射成高级特征 henc,否则 传递给 Attention 组件,其使用 henc 特征学习输入 x 和预测子单元之间的对齐最好的办法,子单元都非而是有有二个音素或有有二个字。最后,attention 模块的输出传递给 Decoder,生成一系列假设词的概率分布,类似于传统的语言模型。

端到端技术的突破,不再非要 HMM 来描述音素内部人员情况汇报的变化,只要将语音识别的所有模块统一成神经网络模型,使语音识别朝着更简单、更高效、更准确的方向发展。

语音识别的技术现状

目前,主流语音识别框架还是由 3 个偏离 组成:声学模型、语言模型和解码器,某些框架也包括前端外理和后外理。随着各种宽度神经网络以及端到端技术的兴起,声学模型是近几年非常热门的方向,业界都纷纷发布每各自 新的声学模型特征,刷新各个数据库的识别记录。将会中文语音识别的多样化性,国内在声学模型的研究进展相对调慢某些,主流方向是更深更多样化的神经网络技术融合端到端技术。

2018 年,科大讯飞提出宽度全序列卷积神经网络(DFCNN),DFCNN 使用血块的卷积直接对整句语音信号进行建模,主要借鉴了图像识别的网络配置,每个卷积层使用小卷积核,并在多个卷积层随后 再添加池化层,通过偏离 非常多卷积池化层对,从而都非要看得人更多的历史信息。

2018 年,阿里提出 LFR-DFSMN(Lower Frame Rate-Deep Feedforward Sequential Memory Networks)。该模型将低帧率算法和 DFSMN 算法进行融合,语音识别错误率相比上一代技术降低 20%,解码时延提升 3 倍。FSMN 通过在 FNN 的隐层添加某些可学习的记忆模块,从而都非要有效的对语音的长时相关性进行建模。而 DFSMN 是通过跳转外理宽度网络的梯度消失疑问,都非要训练出更宽度的网络特征。

2019 年,百度提出了流式多级的截断注意力模型 SMLTA,该模型是在 LSTM 和 CTC 的基础上引入了注意力机制来获取更大范围和更有层次的上下文信息。其中流式表示都非要直接对语音进行有有二个小片段有有二个小片段的增量解码;多级表示堆叠多层注意力模型;截断则表示利用 CTC 模型的尖峰信息,把语音切割成有有二个有有二个小片段,注意力模型和解码都非要在哪此小片段上展开。在线语音识别率上,该模型比百度上一代 Deep Peak2 模型提升相对 15% 的性能。

开源语音识别 Kaldi 是业界语音识别框架的基石。Kaldi 的作者 Daniel Povey 时不时推崇的是 Chain 模型。该模型是有一种类似于 CTC 的技术,建模单元相比于传统的情况汇报要更粗颗粒某些,非要有有二个情况汇报,有有二个情况汇报是 CD Phone,非要 是 CD Phone 的空白,训练最好的办法采用的是 Lattice-Free MMI 训练。该模型特征都非要采用低帧率的最好的办法进行解码,解码帧率为传统神经网络声学模型的三分之一,而准确率相比于传统模型有非常显著的提升。

远场语音识别技术主要外理真实场景下舒适距离内人机任务对话和服务的疑问,是 2015 年随后 刚开始英文英文兴起的技术。将会远场语音识别外理了多样化环境下的识别疑问,在智能家居、智能汽车、智能会议、智能安防等实际场景中获得了广泛应用。目前国内远场语音识别的技术框架随后 端信号外理和后端语音识别为主,前端利用麦克风阵列做去混响、波束形成等信号外理,以让语音更清晰,否则 送入后端的语音识别引擎进行识别。

语音识别另外有有二个技术偏离 :语言模型和解码器,目前来看并非要 不想 的技术变化。语言模型主流还是基于传统的 N-Gram 最好的办法,确实目前都是神经网络的语言模型的研究,但在实用中主要还是更多用于后外理纠错。解码器的核心指标是时延,业界大偏离 都是按照静态解码的最好的办法进行,即将声学模型和语言模型构造成 WFST 网络,该网络蕴含了所有将会路径,解码只要在该空间进行搜索的过程。将会该理论相对心智性性成熟 图片 图片 图片 的句子是什么,更多的是工程优化的疑问,什么都有有不论是学术还是产业目前关注的较少。

语音识别的技术趋势

语音识别主要趋于远场化和融合化的方向发展,但在远场可靠性还有什么都有有难点非要 突破,比如多轮交互、多人噪杂等场景还有待突破,还有需求较为迫切的人声分离等技术。新的技术应该彻底外理哪此疑问,让机器听觉远超人类的感知能力。这非要仅仅只要算法的进步,非要整个产业链的一起技术升级,包括更为先进的传感器和算力更强的芯片。

单从远场语音识别技术来看,仍然所处什么都有有挑战,包括:

(1)回声消除技术。将会喇叭非线性失真的所处,单分分五分快三走势纯依靠信号外理手段那么将回声消除干净,这也阻碍了语音交互系统的推广,现有的基于宽度学习的回声消除技术都非要 考虑相位信息,直接求取的是各个频带上的增益,都非要利用宽度学习将非线性失真进行拟合,一起结合信号外理手段将会是有有二个好的方向。

(2)噪声下的语音识别仍有待突破。信号外理擅长外理线性疑问,宽度学习擅长外理非线性疑问,而实际疑问一定是线性和非线性的叠加,否则 一定是两者融合才有将会更好地外理噪声下的语音识别疑问。

(3)上述有有二个疑问的共性是目前的宽度学习仅用到了语音信号各个频带的能量信息,而忽略了语音信号的相位信息,尤其是对于多通道而言,何如让宽度学习更好的利用相位信息将会是未来的有有二个方向。

(4)另外,在较少数据量的情况汇报下,何如通过迁移学习得到有有二个好的声学模型也是研究的热点方向。类似方言识别,若有有有二个比较好的普通话声学模型,何如利用血块的方言数据得到有有二个好的方言声学模型,将会做到这点将极大扩展语音识别的应用范畴。这方面将会取得了某些进展,但更多的是某些训练技巧,距离终极目标还有一定差距。

(5)语音识别的目的是让机器都非要理解人类,否则 转添加文字并都是最终的目的。何如将语音识别和语义理解结合起来将会是未来更为重要的有有二个方向。语音识别里的 LSTM 将会考虑了语音的历史时刻信息,但语义理解非要更多的历史信息不想 有帮助,否则 何如将更多上下文会话信息传递给语音识别引擎是有有二个疑问。

(6)让机器听懂人类语言,仅靠声音信息还不足,“声光电热力磁”哪此物理传感手段,下一步必然都是融合在一起,非要非要 机器不想 感知世界的真实信息,这是机器不想 学习人类知识的前提条件。否则 ,机器必然要超越人类的五官,不想 看得人人类看非要的世界,听到人类听非要的世界。

语音识别的产业历程

语音识别这半个多世纪的产业历程中,其中共有有有二个关键节点,有有二个和技术有关,有有二个和应用有关。第有有二个关键节点是 1988 年的一篇博士论文,开发了第有有二个基于隐马尔科夫模型(HMM)的语音识别系统—— Sphinx,当时实现你这人系统的正是现在的著名投资人李开复。

从 1986 年到 2010 年,确实混合高斯模型效果得到持续改善,而被应用到语音识别中,否则 确实提升了语音识别的效果,但实际上语音识别将会遭遇了技术天花板,识别的准确率那么超过 90%。什么都有他们将会还记得,在 1998 年前后 IBM、微软都非要 推出和语音识别相关的软件,但最终并未取得成功。

第二个关键节点是 309 年宽度学习被系统应用到语音识别领域中。这愿因识别的精度再次大幅提升,最终突破 90%,否则 在标准环境下逼近 98%。有意思的是,尽管技术取得了突破,也涌现出了某些与此相关的产品,比如 Siri、Google Assistant 等,但与其引起的关注度相比,哪此产品实际取得的成绩则要逊色得多。Siri 刚一面世的随后 ,时任 Google CEO 的施密特就高呼,这会对 Google 的搜索业务产生根本性威胁,但事实上直到 Amazon Echo 的面世,你这人根本性威胁才真的有了具体的载体。

第有有二个关键点正是 Amazon Echo 的时不时出先,纯粹从语音识别和自然语言理解的技术乃至功能的视角看这款产品,相对于 Siri 等并未有哪此本质性改变,核心变化只要把近场语音交互变成了远场语音交互。Echo 正式面世于 2015 年 6 月,到 2017 年销量将会超过千万,一起在 Echo 上扮演类似 Siri 角色的 Alexa 渐成生态,其后台的第三方技能将会突破 300 项。借助落地时从近场到远场的突破,亚马逊一举从你这人赛道的落后者变为行业领导者。

但自从远场语音技术规模落地随后 ,语音识别领域的产业竞争将会刚开始英文英文从研发转为应用。研发比的是标准环境下纯粹的算法谁更有优势,而应用比较的是在真实场景下谁的技术更能产生优异的用户体验,而一旦比拼真实场景下的体验,语音识别便离开独立所处的价值,更多作为产品体验的有有二个环节而所处。

什么都有有到 2019 年,语音识别似乎进入了有有二个相对平静期,全球产业界的主要参与者们,包括亚马逊、谷歌、微软、苹果 5、百度、科大讯飞、阿里、腾讯、云知声、思必驰、声智等公司,在一路狂奔随后 纷纷刚开始英文英文反思每各自 的定位和下一步的打法。

语音赛道里的标志产品——智能音箱,以有一种大跃进的姿态时不时出先在大众背后。2016 年随后 ,智能音箱玩家们对这款产品的认识还都等待的图片 在:亚马逊出了一款叫 Echo 的产品,功能和 Siri 类似。先行者科大讯飞叮咚音箱的出师不利,更是加重了其它人的观望心态。真正让众多玩家从观望转为积极参与的转折点是逐步曝光的 Echo 销量,2016 年底,Echo 近千万的美国销量让整个世界震惊。这是智能设备从未达到过的高点,在 Echo 随后 除了 Apple Watch 与手环,像恒温器、摄像头非要 的产品突破百万销量已是惊人表现。你这人销量以及智能音箱的 AI 属性不利于 2016 年下五天,国内各大巨头几乎是一起转变态度,积极打造每各自 的智能音箱。

未来,回看整个发展历程,2019 年是有有二个明确的分界点。在此随后 ,全行业是突飞猛进,但 2019 年随后 则刚开始英文英文进入对细节领域渗透和打磨的阶段,亲戚朋友 关注的焦点只要再是单纯的技术指标,只要回归到体验,回归到有一种“新的交互最好的办法到底能给亲戚朋友 带来哪此价值”非要 更为一般的、纯粹的商业视角。技术到产品再到有无非要与具体的形象进行交互结合,比如人物形象;流程自动化有无要与语音结合;酒店场景应该何如使用你这人技术来提升体验,诸非要 类最终都是一一呈现在从业者背后。而此时行业的主角也会从非要 的产品方过渡到平台提供方,AIoT 纵深过大,非要 任何有有二个公司都非要全线打造所有的产品。

语音识别的产业趋势

当语音产业需求四处开花的一起,行业的发展时延反过来会受限于平台服务商的供给能力。时不时出先具体案例来看,行业下一步发展的本质逻辑是:在具体每个点的投入产出有无达到有有二个普遍接受的界限。

离你这人界限越近,行业就越会接近滚雪球式发展的临界点,否则 整体增速就会相对平缓。不管是家居、酒店、金融、教育将会某些场景,将会外理疑问都是非常高投入否则 长周期的事情,那对此承担成本的一方就会犹豫,这离米 试错成本不足。将会投入后,非要 可感知的新体验将会销量不利于,那对此承担成本的一方也会犹豫,显然这会影响值不值得上的判断。而这有有二个事情,归根结底都非要由平台方外理,产品方将会外理方案方对此无能为力,这是由智能语音交互的基础技术特征所决定。

从核心技术来看,整个语音交互链条有五项单点技术:唤醒、麦克风阵列、语音识别、自然语言外理、语音合成,其它技术点比如声纹识别、哭声检测等数十项技术通用性略弱,但分别时不时出先在不同的场景下,并会在特定场景下成为关键。看起来关联的技术将会相对庞杂,但切换到商业视角亲戚朋友 就会发现,找到哪此技术距离打造一款体验上佳的产品仍然有绝大距离。

所有语音交互产品都是端到端打通的产品,将会每家厂商都从哪此基础技术来打造产品,那就每家都是建立每各自 云服务稳定,确保响应时延,适配每各自 所选用 的硬件平台,逐项整合具体的内容(比如音乐、有声读物)。这从产品方将会外理方案商的视角来看是不可接受的。这随后 就会催生相应的平台服务商,它要一起外理技术、内容接入和工程细节等疑问,最终达成试错成本低、体验却足够好的目标。

平台服务并不非要闭门造车,平台服务的前提是要有能屏蔽产品差异的操作系统,这是 AI+IOT 的特征,也是有所参照的,亚马逊过去近 10 年里是同步着手做两件事:有有二个是持续推出面向终端用户的产品,比如 Echo,Echo Show等;有有二个是把所有产品所内置的系统 Alexa 进行平台化,面向设备端和技能端同步开放SDK和调试发布平台。确实 Google Assistant 号称单点技术更为领先,但从各方面的结果来看 Alexa 是当之无愧的最为领先的系统平台,可惜的是 Alexa 并不支持中文以及相应的后台服务。

国内则不足亚马逊你这人统治力的系统平台提供商,当前的平台提供商分为有有二个阵营:一类是以百度、阿里、讯飞、小米、腾讯为代表的传统互联网将会上市公司;一类是以声智等为代表的新兴人工智能公司。新兴的人工智能公司相比传统公司产品和服务上的历史包分分五分快三走势袱更轻,否则 在平台服务上反倒是都非要主推某些更为面向未来、有特色的基础服务,比如兼容性方面新兴公司做的会更加彻底,你这人兼容性对于一套产品一起覆盖国内国外市场是相当有利的。

比拟过去的 Android,语音交互的平台提供商们确实面临更大的挑战,发展过程将会会更加的曲折。过去时不时被提到的操作系统的概念在智能语音交互背景下事实上正被赋予新的内涵,它日益被分成有有二个不同但非要紧密结合的偏离 。

过去的 Linux 以及各种变种承担的是功能型操作系统的角色,而以 Alexa 为代表的新型系统则承担的则是智能型系统的角色。前者完成删剪的硬件和资源的抽象和管理,后者则让哪此硬件以及资源得到具体的应用,两者相结合不想 输出最终用户可感知的体验。功能型操作系统和智能型操作系统注定是有一种一对多的关系,不同的 AIoT 硬件产品在传感器(宽度摄像头、雷达等)、显示器上(有屏、无屏、小屏、大屏等)具有巨大差异,这会愿因功能型系统的持续分化(都非要和 Linux 的分化相对应)。这反过来也就愿因一套智能型系统,非要一起外理与功能型系统的适配以及对不同后端内容以及场景进行支撑的双重责任。

这两边在操作上,属性具有巨大差异。外理前者非要参与到传统的产品生产制造链条中去,而外理后者则更像应用商店的开发者。这上端蕴含着巨大的挑战和机遇。在过去功能型操作系统的打造过程中,国内的多线程 员们更多的是使用者的角色,但智能型操作系统确实也都非要参照某些,但这次非要每各自 来从头打造删剪的系统。(国外巨头不管在中文相关的技术上还是内容整合上事实上都非常薄弱,不所处侵略国内市场的将会性)

随着平台服务商两边的疑问外理的非要 好,基础的计算模式则会逐渐所处改变,亲戚朋友 的数据消费模式会与今天不同。每各自 的计算设备(当前主只要手机、笔记本、Pad)会根据不同场景进一步分化。比如在车上、我家、酒店、工作场景、路上、业务办理等会根据地点和业务进行分化。但分化的一起背后的服务则是统一的,每各自 都非要自由的根据场景做设备的迁移,背后的服务确实会针对不同的场景进行优化,但在每各自 偏好非要 的点上则是统一的。

人与数字世界的接口,在现在非要 统一于具体的产品特征(比如手机),但随着智能型系统的时不时出先,你这人统一则会非要 统一于系统有一种。作为结果这会带来数据化程度的持续加深,亲戚朋友 非要 接近有有二个百分百数据化的世界。

总结

从技术进展和产业发展来看,语音识别确实还非要外理无限制场景、无限制人群的通用识别疑问,否则 将会不想 在各个真实场景中普遍应用否则 得到规模验证。更进一步的是,技术和产业之间形成了比较好的正向迭代效应,落地场景不想 ,得到的真实数据不想 ,挖掘的用户需求也更准确,这帮助了语音识别技术快速进步,也基本满足了产业需求,外理了什么都有有实际疑问,这也是语音识别相对某些 AI 技术最为明显的优势。

不过,亲戚朋友 也要看得人,语音识别的内涵非要不断扩展,狭义语音识别非要走向广义语音识别,致力于让机器听懂人类语言,这不想 将语音识别研究带到更高维度。亲戚朋友 相信,多技术、多学科、多传感的融合化将是未来人工智能发展的主流趋势。在你这人趋势下,亲戚朋友 还有什么都有有未来的疑问非要探讨,比如键盘、鼠标、触摸屏和语音交互的关系为社 变化?搜索、电商、社交有无再次重构?硬件有无逆袭变得比软件更加重要?产业链中的传感、芯片、操作系统、产品和内容厂商之间的关系又该何如变化?

本文得到众多语音识别领域专家的指导,并引用了某些参考资料的配图,在此表示感谢,本文中的不足之处还请批评指正。

参考资料

[1] W. Minhua, K. Kumatani, S. Sundaram, N. Ström and B. Hoffmeister, "Frequency Domain Multi-channel Acoustic Modeling for Distant Speech Recognition," ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, United Kingdom, 2019, pp. 6640-6644.

[2] Li B, Sainath TN, Narayanan A, Caroselli J, Bacchiani M, Misra A, Shafran I, Sak H, Pundak G, Chin KK, Sim KC. Acoustic Modeling for Google Home. InInterspeech 2017 Aug 20 (pp. 399-403).

[3] Chiu CC, Sainath TN, Wu Y, Prabhavalkar R, Nguyen P, Chen Z, Kannan A, Weiss RJ, Rao K, Gonina E, Jaitly N. State-of-the-art speech recognition with sequence-to-sequence models. In2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2018 Apr 15 (pp. 4774-4778). IEEE.

[4] Li J, Deng L, Gong Y, Haeb-Umbach R. An overview of noise-robust automatic speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2014 Feb 5;22(4):745-77.

[5] 俞栋,邓力. 解析宽度学习:语音识别实践. 电子工业出版社.2016 年.

[6] 韩纪庆,张磊,郑铁然. 语音信号外理. 清华大学出版社.305 年.

[7] 王东. 语音识别技术的现状与未来.2017 年.

[8] https://developer.amazon.com/zh/blogs/alexa/post/92bb9391-e930-464b-8ece-1fd8b476702a/amazon-scientist-outlines-multilayer-system-for-smart-speaker-echo-cancellation-and-voice-enhancement

[9] https://venturebeat.com/2019/04/01/alexa-researchers-develop-2-mic-speech-recognition-system-that-beats-a-7-mic-array/

[10] https://yq.aliyun.com/articles/704173

[11] http://azero.soundai.com

[12] http://research.baidu.com/Blog/index-view?id=109

文章作者介绍:

陈孝良,声智科技创始人、董事长兼CEO,

冯大航,声智科技联合创始人、CTO

李智勇,声智科技战略合伙人、CSO