人工智能语音进化史三部曲

关于人工智能诞生没有统一说法, 有部分学者以1950年 '人工智能之父' 马文·明斯基建造世界上第一台神经网络计算机为起点. 且以当年语音交互起始到现在, 大致经历三段演化和推进. 让我们一起回顾整个过程, 来看一下人工智能语音发生的几次技术跃进.

人工智能语音1.0: 一问一答

现在, 工智能语音技术在数码, 电子, 工业制造领域被广泛应用并且成为全民热议的话题, 可是在发展之初它还有很多稚嫩的地方. 关于人工智能时代的讨论有很多, 但在消费层面上, 真正大范围进入用户试用阶段的人工智能语音应用大概在2010年之后. 这个阶段的人工智能语音技术形成了以语音交互为主的感知状态, 我们暂且称之为第一阶段.

这时的人工智能语音应用通过算法的演变和大量数据的输入, 在技术层面实现自然语音识别和语义理解, 针对对话内容进行数据匹配, 然后调取相关话题, 从而实现简单内容的单向一问一答. 第一阶段在自我学习, 逻辑推力方面有很大欠缺, 不能针对同一对话内容展开深入交互, 横向拓展和纵向发展都不能满足用户需求. 例如你问今天天气如何? 他调取今天的天气数据. 接着你问明天的天气如何? 他调取明天的天气预报. 今天天气和明天天气只是各自独立的对答, 不能连接贯通, 形成逻辑.

关于人工智能语音技术的研究, 国外企业投入较早, 且发展也比较全面. 像Nuance, 曾经在语音识别方面功绩卓著, 到现在为止仍然是全球最大的语音技术公司, 专利数量和市场份额都遥遥领先. 之后包括亚马逊, 苹果和谷歌, 都在深度挖掘智能语音, 推出自己的语音助手. 据不完全统计, 目前全球专业做人工智能语音的公司有上千家之多, 后起之秀越来越多, 涉及的领域越来越广. 如总部位于奥地利维也纳的Cortical.io, 主要提供新型自然语言理解(NLU)解决方案. 由艾伦人工智能研究所和亚马逊Alexa基金等机构资助KITT.AI公司, 开发可定制热词检测器(hotword detector)和对话引擎ChatFlow. 旧金山的MindMeld公司可提供对话式人工智能平台等等.

人工智能语音2.0: 有问有答

早在2000年, 比尔盖茨曾经提出 '未来10年是语音的时代' . 我们目前所说的智能语音, 学术界称为 '自然语言处理' (来自百度). 业内人士认为, 智能语音技术将会成为人类主流的人机交互方式之一, 计算机技术与人工智能领域的发展为智能语音交互发展带来了希望.

人工智能语音交互的更深层阶段——对话, 即有问有答, 包含上下文逻辑. 举个例子或许更好理解, 如果一门课程上一年没开设, 对于 '这门课程去年有多少同学没通过' 这样的问题, 机器是回答 '都没通过' 还是 '去年没开这门课' ? 同时机器还需要提前存储 '去年没开这门课' 的信息, 想想我们从小时候啥也不懂到现在懂得的知识和信息, 这是难以想象的数据量. 再比如说 '我想听周杰伦的歌' , 机器只会将周杰伦的歌显示出来, 并不能直接播放. 就是说假如你要做一件事情, 需要给机器一个明确的指令, 否则, 会让人很烦躁, 因为你要一直说下去.

当然, '对话' 层面, 仍然停留在 '人机对话' 阶段, 机器仍然停留在被动接受人类输入大量数据阶段, 相比 '问答' 层面, 只不过信息流, 数据存储量更大, 机器仍然不能更深层次理解人的意思, 无法实现自学习, 自成长, 与机器的语音交流还不能像人一样自然.

人工智能语音3.0: 自然交互

人工智能进入第三阶段, 最大的进展就是交互的进展. 不仅仅有问有答, 不仅仅包含上下文逻辑了, 人工智能硬件能够更多地融合各种环境信息, 作出不同决策或推荐. 也就说, 在交互的过程中, 机器有了更多的主动性, 能够为人提供更多, 更好的帮助, 让人们的生活更便捷, 更安全, 更有趣.

有两个比较典型的应用场景, 一个是智能汽车, 一个是智能家居.

2010年, 谷歌秘密研究的无人汽车项目被《纽约时报》记者曝光, 当时引起了不小的震动. 无人汽车即无人驾驶汽车, 也叫智能汽车, 主要是通过车载传感系统感知道路环境, 并依靠车内的人工智能系统自动规划行车路线, 到达预定目的地.

谷歌无人驾驶汽车在开放道路上行驶时, 会对来往车辆, 行人, 路面环境信息进行识别与分析, 为系统的决策判断提供依据. 系统经过长期的 '学习' 后, 人工智能具备的策略神经元将变得更加熟练高效, 并形成类似于人的 '感觉' , 能及时处理驾驶过程中的突发情况.

2016年1月, 美国国家公路安全交通管理局(NHTSA)在其网站上发布了公开信, 表示根据联邦政府现行法律规定, 谷歌的无人驾驶汽车采用的人工智能系统可以被视为 '司机' . 这被视为是人工智能发展里程碑的事件, 也标志着 '智能' 可以像 '人工' 一样感知, 判断, 推理并做出决策, 可以实现主动控制, 也能更好地人机交互与协同.

在智能家居领域, 人工智能的发展方向同样是人机交互, 操作简单, 通过大数据能够进行自主判断决策. 长虹前不久推出了人工智能电视新品Q5K, 主打语义理解和模糊搜片. 不需要绝对明确的指令, 人工智能电视能识别和理解用户的语义. 比如当用户说 '太暗了' 时, 电视能理解那是什么意思并知道该怎么做, 而不是非得等用户说出 '调高亮度' . 再比如, 最近热播的一部电视剧《那年花开月正圆》, 名字太长很多人记不住, 但只要你说 '我想看花开月圆' , 长虹人工智能电视也能找到这部片. 如果连这几个字都记不住, 说 '我想看陈晓的电视剧' , 它也会根据热播影视数据推荐出这部片来. 甚至于说到 '我想看陈妍希老公的电视剧' , 这台电视也能理解, 你所说的八成就是这部由陈晓主演, 最近热播的《那年花开月正圆》, 并为你播放出来.

这就相当于机器真正有了 '大脑' , 从而可以感知, 交互, 理解和决策. 因此, 也就能够更好地为人类服务了.

天极新媒体 最酷科技资讯
扫码赢大奖
评论
* 网友发言均非本站立场, 本站不在评论栏推荐任何网店, 经销商, 谨防上当受骗!
2016 GoodChinaBrand | ICP: 12011751 | China Exports