技术魔幻、市场难测无声语音识别暂难成消费级产品

业界 | 2019-02-18 10:59:34

时间：2019-02-18 10:59:34 / 来源：科技日报 / 点击数：()

世界知识产权组织(WIPO)日前公布了一项微软申请的“无声语音输入”(Silent Voice Input)专利，丰富了“机器听懂人话”的场景。

虽然还很难判断使用者能否接受该专利的另类语音输入方法及该专利的市场前景，但很多看似天马行空的研发往往孕育着巨大的商机，如果它们能找到正确的市场和恰当的推动方法。

验证了语音交互技术的又一种可能

语音识别技术离完美还很远，噪杂的环境、吐字不清的词汇、俚语及方言都会让机器陷入混乱，开发更精准更私密的语言识别技术，仍是包括微软在内的产业和学界的主要科研方向。

通常情况下，语音输入首先要发出声音，其次需要一个相对安静的环境。根据微软这项专利的说明，只要让麦克风等设备靠近嘴巴，该语音输入解决方案就能捕捉到极低的，如同耳语般的声音信号，并过滤掉周围的杂音。除自己之外，别人听不见或听不懂。

当然，说话方式可能需要练习。一般情况下，我们讲话时吐气，微软的解决方案要求使用者在吸气时执行语音输入。

此外，尽管语音输入的性能持续被改善，但除了“调戏”siri，很少有人会在公共场所一本正经的用语音输入，怕打扰别人，也有语音内容私密性的顾虑。在这种情况下，微软的专利不失为一种妥善的解决方案。

而麻省理工学院的研究人员开发的新型人机接口“AlterEgo”则更为魔幻，骨传导耳机环绕用户的耳朵和下巴，计算机系统处理并翻译耳机接收的数据并输出反应，如同人们在阅读时的“默念”。

这个系统有点像“肌电假体”，当你准备作出某种行为时，大脑会告诉肌肉怎么做，同理，当你想着某个词时，大脑会向面部及喉部肌肉发送信号。

主要研究人员Arnav Kapur表示，他们的初衷是将人类和机器以某种方式进行混合，仿佛人类自身认知的内部延伸。

如果这台设备真的能商用，确实意义非凡。但是，当前的无声语音识别都处在技术验证阶段，这究竟是一种无用的“情怀技术”，还是可演变为用于特殊场景的产品，尚待业界探索。

工程师们还在努力弥补语音技术缺陷

语音技术不仅具有典型的“赋能”特征，更是当前人们与人工智能互动的最重要界面，已同焦土战般激烈的“百箱大战”给语音技术市场带来很多幻象。

事实上，现在大多数基于语音技术的硬件产品与智能服务交互体验仍然存在很多缺陷，研究机构与产业公司还在技术研发层面不断努力完善。

微软全球资深技术院士、微软云与人工智能事业部负责人黄学东博士，是微软语音技术的创始人，微软的语音识别、语音合成技术研发团队都由他一手组建。

在黄学东的带领下，2016年10月18日，微软语音团队识别研究团队在 Switchboard语音识别基准测试中刷新自己的纪录，词错率低至5.9%，达到了人类的水平。

306天后，这一纪录再次被微软刷新，词错率降低到 5.1%，超过专业速记员的误差水平，被学术界看作是“人工智能在感知上的一重大里程碑”。

微软全球执行副总裁沈向洋说：“尽管这项语音识别系统还存在一些应用场景的限制，但我相信未来几年内，机器将会完全超越人类的识别水平。”

尽管各类科研机构为了实现语音识别准确率的“人类对等”，奋斗了二十几年，但目前在嘈杂环境下较远的麦克风的语音识别、方言识别、训练数据有限的特定说话风格或较少人使用的语言的语音识别等，都未达到人类水平。

与此同时，Switchboard虽然是全球语音研究人员用了20多年的通用测试数据集，很多技术公司与组织在上面做语音方面的相关研究，它有着全球开发人员多年来的技术积累，但并不意味着测试结果可以“平移”到现实环境中。

如黄学东所说，公开性的测试、发表的学术文章，与现实产品虽然不能完全割裂，但消费级产品与商业场景，需要不一样的评判标准。(刘艳)

标签:

一周热门

每日资讯：暴雪网易复合几乎不可能：不会降低标准正和新代理谈的火热 2019-02-18 10:59:34

京东苏宁“隔空喊话” 京东坚称末位淘汰不动摇 2019-02-18 10:59:34

一不小心微信转错账如何挽回损失呢？ 2019-02-18 10:59:34

网络监管成难题：隐私泄露安全漏洞太多 2019-02-18 10:59:34

外媒报道：作为纸币的发明国中国或将首先停用现金 2019-02-18 10:59:34

爱钱帮宣布完成5亿元B轮融资 A股公司董事长入局 2019-02-18 10:59:34

手机地下“解锁”调查：费用达千元，黑客及“内鬼”提供 2019-02-18 10:59:34

丰田欲在华量产电动车型最早2019年落地 2019-02-18 10:59:34

手机充电两分钟 “偷偷”被装软件四五个 2019-02-18 10:59:34

欧盟27亿美元罚款将重创谷歌二季度业绩利润或腰斩 2019-02-18 10:59:34

技术魔幻、市场难测无声语音识别暂难成消费级产品

最近更新

最新文章

快看：“天灾加人祸”，特斯拉的好日子到头了？

【全球热闻】支付宝2023年“集五福”来了网友：两块钱的大项目

全球今头条！马斯克承诺成空谈！推特被裁员工仅获1个月工资补偿

微软Xbox老大斯宾塞盛赞索尼：无障碍手柄是对PS生态很好的补充

每日资讯：暴雪网易复合几乎不可能：不会降低标准正和新代理谈的火热

天天热资讯！紫辉创投郑刚再呛罗永浩：多次退出锤子科技股东群，用新公司股权要挟投资人放弃基本权利

投资人炮轰罗永浩“势利眼”，曾参与锤子科技两轮融资，称其是中国乔布斯|全球通讯

天天观点：罗永浩发文回应投资人郑刚

罗永浩回应郑刚炮轰：锤子每年都开股东会，新公司已给老股东股权补偿

蚂蚁集团股东上层结构调整、马云不再为实控人，继续强化与阿里的隔离_全球新要闻

一周热门

每日资讯：暴雪网易复合几乎不可能：不会降低标准正和新代理谈的火热

京东苏宁“隔空喊话” 京东坚称末位淘汰不动摇

一不小心微信转错账如何挽回损失呢？

网络监管成难题：隐私泄露安全漏洞太多

外媒报道：作为纸币的发明国中国或将首先停用现金

爱钱帮宣布完成5亿元B轮融资 A股公司董事长入局

手机地下“解锁”调查：费用达千元，黑客及“内鬼”提供

丰田欲在华量产电动车型最早2019年落地

手机充电两分钟 “偷偷”被装软件四五个

欧盟27亿美元罚款将重创谷歌二季度业绩利润或腰斩

技术魔幻、市场难测 无声语音识别暂难成消费级产品

最近更新

最新文章

一周热门

技术魔幻、市场难测无声语音识别暂难成消费级产品