你知道小冰吗?你呼叫过小度吗?你和小娜互动过吗?你使用过Siri吗?如果都没有,那你就out了。它们都是当下很火爆的智能语音机器人,很多人都和它们聊过天。
日前,美国投资机构Mangrove Capital Partners发布了2019年《语音技术报告》。报告分析了语音助理服务的日益普及,并预测苹果2020年将推出Siri操作系统。那么,究竟什么是语音技术?它有哪些应用?语音操作系统又是什么?为此,记者采访了相关专家。
通过纯语音信息实现与机器交互
与图像识别、机器学习一样,智能语音是人工智能的一个分支。在人工智能异常火热的当下,从Siri到小度,从小冰到小娜,智能语音正在融入人们的生活之中。
所谓智能语音技术,就是研究人与计算机直接以自然语音的方式进行有效沟通的各种理论和方法,涉及语音识别、内容理解、对话问答等。一般来说,智能语音就是利用计算机对语音信息进行自动处理和识别的技术。
“从引擎模块的角度讲,智能语音技术包括语音前端处理(含语音增强)、语音识别、语音合成、语义理解对话管理和声纹识别等模块。其中,语音识别就是将语音信息通过计算机自动处理转化成文字的过程,也叫语音转写,它包括语音分段、端点检测、特征提取、解码以及后处理等过程。”中国科学院声学研究所(以下简称中科院声学所)研究员赵庆卫告诉科技日报记者。
目前,智能语音技术主要应用于智能家居、虚拟助手、可穿戴设备、智能车载、智能客服、智能医疗、陪伴机器人等方面。所谓虚拟助手,就是智能语音助手,它的核心在于人类通过纯语音信息实现与机器的交互,让智能机器“助手”帮忙完成指派的任务。
在赵庆卫看来,语音操作系统是一个比较大胆的设想,基于语音的人机交互有很大的发展潜力,所以不少互联网企业都看好这个方向。目前,亚马逊已经打造了一个智能语音云平台(Alexa),平台上有各种智能语音应用(8万种技能),在这个平台上,用户可以通过语音发出一系列指令,比如购物、搜索、听音乐、讲故事等。
智能语音技术的前世今生
事实上,智能语音技术的研究起源于20世纪50年代。1952年,美国贝尔实验室制造了一台6英尺高的自动数字识别机“Audrey”,它可以识别数字0—9的发音,且准确度高达90%以上。并且它对熟人的精准度高,而对陌生人则偏低。1958年,中科院电子所的声学研究室利用电子管实现了10个元音的识别。“由于那时计算能力很弱,智能语音只能做一些特别简单的字母或数字的识别。”赵庆卫说道。
20世纪60年代到70年代初,语音识别的研究取得了一定进展。“此时,智能语音技术开始形成系统的框架,提出了基于线性预测编码(LPC)技术的特征提取方法和动态时间规整(DTW)技术,并且使用模板匹配的方法做一些简单的语音识别(小词汇量、特定人、孤立词)”。
从20世纪70年代中期到80年代,语音识别的框架有了突破,统计模型逐步取代模板匹配的方法,隐含马尔科夫模型成为语音识别系统的基础模型。同时,也采用高斯混合模型作为声学模型的主要建模方法,连接词识别和中等词汇量连续语音识别得到了较大发展。
“到90年代的时候,基础的神经网络语音识别模型已经提出。但当时神经网络语音识别模型之所以没能取得较大的突破,主要是因为当时服务器的计算能力不够强以及训练语音数据的量不够多。”赵庆卫说,90年代时的神经网络语音识别模型没能替代传统方法,此时智能语音技术还是以隐含马尔科夫模型和高斯混合模型为基本框架。
从20世纪90年代到21世纪初,非特定人、大词汇量、连续语音识别系统的研究成为国际语音界研究方向的主流。1997年,IBM首个听写产品Via Voice问世,用户只要对着话筒说出想要输入的文字,系统就会自动识别并输出文字。
2002年,中科院自动化所推出了“天语”中文语音系列产品——Pattek ASR;2005年,中科院声学所推出国内第一个自主研发的电信级语音识别平台,首次实现了国产语音识别软件的规模应用,在中国移动23个省的增值业务上线应用,占据了国内80%市场份额,使美国公司对中国语音识别市场的垄断成为历史。
深度神经网络框架成为主流
2010年,随着服务器的计算能力大幅提高(受益于GPU的应用)和训练语音数据的大幅度增加(受益于移动互联网和云计算的发展),微软基于深度神经网络的语音识别研究取得较大进展,“识别错误率相对下降20%以上”。此后,深度神经网络的建模优势被许多国际和国内知名语音研究机构所验证,业界开始认识到基于深度神经网络的建模框架比原来的框架识别效果明显要好,“现在大家基本都采用了基于深度神经网络的建模框架。”赵庆卫说道。
最近几年,基于深度神经网络的语音识别技术也进行了持续的迭代,从基础的深度神经网络发展到延时神经网络(TDNN)、双向长短时记忆(BLSTM)以及卷积神经网络(CNN)等;近年来,基于端到端架构(End-to-End)的语音识别系统正在被语音识别的学术界和工业界深入研究,一些系统也已经上线,中科院声学所将其最新研究成果实际应用于中国移动通信集团和中国电信集团的客服热线,智能技术直接服务了数以亿计的客户。
据了解,中科院声学所长期致力于语音识别核心技术研究。针对实时语音识别的需求,研究人员提出一种基于混合神经网络(延时神经网络+输出投影门循环单元)的低延时声学建模技术,可处理长时信息,网络结构简洁,计算速度快,易于并行化训练。该模型结构已作为一种新型的回馈神经网络结构被国际主流语音识别开源软件Kaldi采纳。在非实时语音识别方面,提出基于BLSTM-E(双向长短时记忆扩展)的深度神经网络结构,提升了现有主流BLSTM的性能,并解决了序列化训练条件下LSTM(长短时记忆网络)对不同长度语音输入的鲁棒性差的问题。(陆成宽)
标签:最近更新
- 快看:“天灾加人祸”,特斯拉的好日子到头了?2023-01-09
- 【全球热闻】支付宝2023年“集五福”来了 网友:两块钱的大项目2023-01-09
- 全球今头条!马斯克承诺成空谈!推特被裁员工仅获1个月工资补偿2023-01-09
- 微软Xbox老大斯宾塞盛赞索尼:无障碍手柄是对PS生态很好的补充2023-01-09
- 每日资讯:暴雪网易复合几乎不可能:不会降低标准 正和新代理谈的火热2023-01-09
- 苹果砍单“链条”受过 “果链”上市公司另寻出路2023-01-09
- 天天热资讯!紫辉创投郑刚再呛罗永浩:多次退出锤子科技股东群,用新公司股权要挟投资人放弃基本权利2023-01-07
- 投资人炮轰罗永浩“势利眼”,曾参与锤子科技两轮融资,称其是中国乔布斯|全球通讯2023-01-07
- 天天观点:罗永浩发文回应投资人郑刚2023-01-07
- 罗永浩回应郑刚炮轰:锤子每年都开股东会,新公司已给老股东股权补偿2023-01-07
- 蚂蚁集团股东上层结构调整、马云不再为实控人,继续强化与阿里的隔离_全球新要闻2023-01-07
- 二叠纪大灭绝期间紫外线辐射增加?化石花粉粒中“防晒霜”添证据|全球快资讯2023-01-07
- 湖北西部秭归盆地首次发现侏罗纪中期恐龙足迹化石-环球讯息2023-01-07
- 观察:蚂蚁集团大动作!马云退出实控人位置,股东投票权进一步分散,拟引入第五名独董2023-01-07
- 罗永浩回应投资人“炮轰”:郑刚对我的评论毫无事实基础-环球快报2023-01-07
- 网传马云现身曼谷:吃路边摊看泰拳比赛 还上阵打了一通2023-01-07
- 投资人郑刚炮轰罗永浩 全球快看2023-01-07
- 全球实时:蚂蚁强化与阿里隔离 马云股份表决权变了2023-01-07
- 刚刚,蚂蚁集团发布重要公告!_环球快播2023-01-07
- 锤子手机投资人、紫辉创投创始人郑刚深夜炮轰罗永浩:不懂感恩2023-01-07
- 显卡出货量现20年最大跌幅!华强北背包客做副业等回暖,产线已在加大招工2023-01-07
- 蚂蚁集团完善公司治理 不再存在任何股东单一或共同控制集团的情形 环球观天下2023-01-07
- 新冠病毒变异株会如何进化?多位国内病毒学家解读2023-01-07
- 新一批版号获批传递利好,中国游戏市场将迎新一波龙争虎斗2023-01-07
- TikTok CEO周受资将会见欧盟反垄断主管 讨论个人数据保护_最新资讯2023-01-07
- 暴雪四面楚歌,腾讯推魔兽高仿游戏《塔瑞斯世界》,加入中国玩家争夺战 当前速读2023-01-07
- 【全球快播报】AI内容创作火热 深层次应用场景尚待探索2023-01-07
- 为混乱治理甩锅? 马斯克:雇错律师团队是推特员工的错_焦点要闻2023-01-07
- 每日信息:国泰基金王阳:三大市场中国增速最快2023-01-07
- 2022年12月全球制造业PMI为48.6% 连续7个月环比下降_环球热讯2023-01-07