近两年人工智能快速发展,语音识别开始成为很多设备的标配,以语音识别为技术基础的硬件设备成为新的风口,尤其是智能音箱的出现受到行业及消费者的普遍欢迎。国外微软、苹果、谷歌、nuance,国内的科大讯飞、思必驰等厂商都在研发语音识别新策略新算法,似乎人类与语音的自然交互渐行渐近。
语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术,语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
所谓“语音识别”,就是利用电子计算机等机械装置来识别人讲话的意义和内容。20世纪50代,就有人提出“口授打印机”的设恕。可以说,这是有关语音识别技术最早构想。
语音识别技术经历了语音识别、语音合成以及自然语音合成3个阶段。从原理上讲,似乎让计算机识别人的语言并不难,其实困难还是不少的。例如,不同的人读同一个词所发出的音在声学特征上却不完全相同;即便是同一个人,右不同情况下对同一个字的发音也不相同。加上人们讲话时常有不合语法规律的情况,有时还夹杂些俗语,或省略一些词语,而且语速变化不定。所有这些,在我们听别人讲话时似乎都不成为问题,但让机器理解则很是困难。近年来,由于计算机功能的日益强大,存储技术、语音算法技术和信号处理技术的长足进步,以及软件编程水平的提高,语音识别技术已经取得突破性的进展,使它的广泛应用成为可能。
语音识别技术的应用主要有以下两个方面。一是用于人机交流。目前这方面应用的呼声很高,因为使用键盘、鼠标与电子计算机进行交流的这种方式,使许多非专业人员,特别是不懂英语或不熟悉汉语拼音的人被拒之于门外,影响到电子计算机的进一步普及。语音识别技术的采用,改变了人与计算机的互动模式,人们只需动动口,就能打开或关闭程序,改变工作界面。这种使电脑人性化的结果是使人的双手得到解放,使每个人都能操作和应用计算机。电话仍是目前使用最为普遍的通信工具,通过电话与语音识别系统的协同工作,可以实现语音拨号、电话购物以及通过电话办理银行业务、炒股、上网检索信息或处理电子件等。不久,能按主人口令接通电话、打开收音机,以及通过声纹识别来者身份的安全系统也将获得应用。
语音识别技术的另一方面应用便是语音输入和合成语音输出。现在,已经出现能将口述的文稿输入计算机并按指定格式编排的语音软件,它比通过键盘输入在速度上要提高2~4倍。装有语音软件的电脑还能通过语音合成把计算机里的文件用各种语言“读”出来,这将大大推进远程通信和网络电话的发展。
在现阶段,语音技术主要用于电子商务、客户服务和教育培训等领域,它对于节省人力、时间,提高工作效率将起到明显的作用。能实现自动翻译的语音识别系统目前也正在研究、完善之中。
随着技术不断发展突破,语音识别在国内外市场将获得更大发展空间。拓墣产业研究院研究指出,全球语音辨识产值将呈现高速成长,自2016年的26.13亿美元,至2021年成长为159.79亿美元,年复合成长率达43.64%;国内市场方面,据前瞻产业研究院预计,到2021年,中国生物识别行业的市场规模将突破340亿元,其中语音识别占比将达到22.4%。
因此,语音识别可以说是生物识别领域中技术较成熟、商业化程度较高的细分领域之一,语音识别技术凭借成本与算法复杂程度低,采集方便等优势,在许多行业得到了应用。人工智能时代的语音识别技术也给安防行业带来了“新鲜血液”。
在监控领域,随着平安城市项目建设的推进,音频监控在城市安防系统中的应用越来越多。音频监控作为安防行业近年来迅速发展的一个分支,目前已展现出前所未有的勃勃生机,人们开始从能够看见和听见的需求转向寻求高质量的音视频监控。例如,公检法机构、机场、铁路、银行等领域的安防工程需要清晰、逼真的影音同步监控系统,以弥补视频监控的不足,音频监控的加入就使得监控不再只是上演“无声电影”,工作人员通过音频监控设备“听懂”周围环境,对危险事件和意外事件进行安全防范。搭载语音识别技术的音频监控已经成为安防行业的新亮点。