1.当物联网遇上AI;
据 SADA Systems 最近对大型 IT 产业专业经理人的市调发现, 2018 年人工智能 (AI) 和物联网 (IoT) , 正成为企业投资新技术的最主要领域.
在接受调查的 500 名 IT 人士中, 有 38% 的受访者提道 AI 为企业投资的主要焦点, 而物联网为 31%, 区块链则是以 10% 上榜. 物联网连接的设备通常会产生庞大的数据, 来训练机器学习 (ML) 模型.
在接受调查的公司中, 物联网的布局却比 AI 多, 因物联网和边缘计算 (edge computing) 行业现阶段较稳定, 而这样的基础稳健才可提高机器学习准确率, 成为 AI 必备的先决条件.
图像辨识能力 / 图: 剑桥大学
企业也希望让 AI 的投资最终可变现, 而非学术单位般的不停研究. 外媒 CIO 也提道, 如何将 AI 投资以正确商业化为导向, 为企业领导的重要任务.
另外, 在现今的时代背景, AI 运行的成本及难易度也大幅缩减. 不仅「平台为服务」(PaaS) 公司向企业们提供了较多可训练计算机的数据, 也使各设备的通用化 (interoperability) 程度提高. 再者, 大量成熟的机器学习图库及 API 更是降低了跨入 AI 的门坎.
随着支持 AI 和物联网的新技术降临, 企业组织必须坚持开发的重点, 已防止时辰范围蔓延导致无限期的开发周期. 为了达到里程碑的时间段, 留住人才变得越来越必要.
机器图像辨识能力 / 图: 剑桥大学
SADA 并呼吁, 围绕新兴技术的新闻, 会引发企业更愿意投资于新科技, 但是安全和隐私往往落后于技术的开发, 而投资新科技必定有资汛安全方面的隐忧, SADA 认为, 企业们如真的想要成为新兴技术的先驱者, 那么就不能忽视新兴科技的安全测试.
在牛津大学 2018 年的一份报告中, 研究人员就提道, AI 技术中只要有一个漏洞, 就可能会破坏机器学习的工作流程效率, 还会危及业务的营运, 若忽视了安全测试的重要性, 恐怕会得不偿失.
区块链早已从去年就吸引了科技媒体的大量关注, 但它在企业投资方面落后于物联网和 AI. 随着越来越多的企业开始分享区块链技和实际应用成功的案例, 未来这块领域的投资, 估计将与物联网和 AI 来相互竞争. 钜亨网
2.AI口译官发展史;
在2018年的博鳌亚洲论坛中, 除了主要议程外, 最引人注目的热点是首次引进了人工智能进行会议中的实时口语翻译. 然而, 人工智能并没有出现原先大肆宣称的「让实时口译业界面对即将失业的威胁」, 相反的, 严重失误的翻译结果, 反倒让实时口译从业人员松了口气, 看来这行饭还可以吃很久.
《圣经. 旧约. 创世纪》第11章记载, 在大洪水退去后, 这世界上的人类都是诺亚的子孙, 说同样的语言. 那时人类开始合作, 建造名为巴别塔的通天之塔. 这个举动惊动了神, 因此神让全世界的人类开始有了不同的语言, 从此人类再也无法齐心合作. 造通天塔的计划以失败告终, 语言差异也成为了人类沟通时最大的障碍. 也许是血液中仍有想要重建巴别塔的梦想, 因此翻译就成为人类在过去千百年历史不断演进的重点文化工程.
语言的隔阂并不是那么容易打破的, 尤其是要跨语言来理解同样的概念. 人类历史上第一次出现跨语言的平行语料, 是制作于公元前196年的罗赛塔石碑(Rosetta Stone), 上面同时使用了古埃及文, 古希腊文以及当地通俗文字, 来记载古埃及国王托勒密五世登基的诏书. 这也是翻译的重大里程碑.
基于规则的机器翻译
至于机器翻译的源头, 可以追溯至1949年, 信息论研究者Warren Weave正式提出了机器翻译的概念. 五年后, 也就是1954年, IBM与美国乔治敦大学合作公布了世界上第一台翻译机IBM-701. 它能够将俄语翻译为英文, 别看它有巨大的身躯, 事实上它里面只内建了6条文法规则, 以及250个单字. 但即使如此, 这仍是技术的重大突破, 那时人类开始觉得应该很快就能将语言的高墙打破.
可能是神察觉有异, 又对人类重建巴别塔的计划泼了一桶冷水. 1964年, 美国科学院成立了语言自动处理咨询委员会(Automatic Language Processing Advisory Committee, ALPAC). 两年后, 在委员会提出的报告中认为机器翻译不值得继续投入, 因为这份报告, 造成接下来的十来年中, 美国的机器翻译研究几乎完全停滞空白.
从IBM的第一台翻译机诞生到20世纪80年代, 那时的技术主流都是基于规则的机器翻译. 最常见的作法就是直接根据词典逐字翻译, 虽然后来也有人倡议加入句法规则来修正. 但是老实说, 翻出来的结果都很令人沮丧, 因为看起来蠢到极点. 因此, 到了80年代这样的作法就销声匿迹了.
为何语言没办法套用规则? 因为语言是极其复杂且模糊的系统, 从字的歧义到各种修辞, 根本不可能穷举出所有规则. 但有趣的是, 不少近期投身于自然语言的新创公司, 仍然企图用穷举规则来解决中文语义, 但这种想法铁定会是以失败告终的.
我在这举个例子来说明为何规则是不可行的. 先别提翻译在两个语言转换的复杂性, 光是从中文来说, 「快递送货很快」这样的概念你能想到多少种讲法? 10种? 还是100种? 在我们之前做过的自然语言统计数据来看, 一共可能会有3600种讲法, 而且这个数字应该还会随时间增加. 光一个概念如此简单的句子就能有那么复杂的规则体系, 若用到翻译恐怕规则量会是个惊人的天文数字, 因此基于规则的机器翻译思路就成为了昨日黄花.
基于实例的机器翻译
在全世界都陷入机器翻译低潮期, 却有一个国家对于机器翻译有着强大的执念, 那就是日本. 日本人的英文能力差举世皆知, 也因此对机器翻译有强烈的刚性需求.
日本京都大学的长尾真教授提出了基于实例的机器翻译, 也就是别再去想让机器从无到有来翻译, 我们只要存上足够多的例句, 即使遇到不完全匹配的句子, 我们也可以比对例句, 只要替换不一样的词的翻译就可以. 这种天真的想法当然没有比基于规则的机器翻译高明多少, 所以并未引起风潮. 但是没多久, 人类重建巴别塔的希望似乎又重见曙光.
基于统计的机器翻译
引爆统计机器翻译热潮的还是IBM, 在1993年发布的《机器翻译的数学理论》论文中提出了由五种以词为单位的统计模型, 称为「IBM模型1」到「IBM模型5 」.
统计模型的思路是把翻译当成机率问题. 原则上是需要利用平行语料, 然后逐字进行统计. 例如, 机器虽然不知道「知识」的英文是什么, 但是在大多数的语料统计后, 会发现只要有知识出现的句子, 对应的英文例句就会出现「Knowledge」这个字. 如此一来, 即使不用人工维护词典与文法规则, 也能让机器理解单词的意思.
这个概念并不新, 因为最早Warren Weave就提出过类似的概念, 只不过那时并没有足够的平行语料以及限于当时计算器的能力太弱, 因此没有付诸实行. 现代的统计机器翻译要从哪里去找来「现代的罗赛塔石碑」呢? 最主要的来源其实是联合国, 因为联合国的决议以及公告都会有各个会员国的语言版本, 但除此之外, 要自己制作平行语料, 以现在人工翻译的成本换算一下就会知道这成本高到惊人.
在过去十来年, 大家所熟悉的Google翻译都是基于统计机器翻译. 听到这, 应该大家就清楚统计翻译模型是无法成就通天塔大业的. 在各位的印像中, 机器翻译还只停留在「堪用」而非是「有用」的程度.
神经网络机器翻译
到了2014年, 机器翻译迎来了史上最革命的改变——「深度学习」来了!
神经网络并不是新东西, 事实上神经网络发明已经距今80多年了, 但是自从2006年Geoffrey Hinton(深度学习三尊大神之首)改善了神经网络优化过于缓慢的致命缺点后, 深度学习就不断地伴随各种奇迹似的成果频繁出现在我们的生活中. 在2015年, 机器首次实现图像识别超越人类; 2016年, Alpha Go战胜世界棋王; 2017年, 语音识别超过人类速记员; 2018年, 机器英文阅读理解首次超越人类. 当然机器翻译这个领域也因为有了深度学习这个超级肥料而开始枝繁叶茂.
深度学习三大神中的Yoshua Bengio在2014年的论文中, 首次奠定了深度学习技术用于机器翻译的基本架构. 他主要是使用基于序列的递归神经网络(RNN), 让机器可以自动捕捉句子间的单词特征, 进而能够自动书写为另一种语言的翻译结果. 此文一出, Google如获至宝. 很快地, 在Google供应充足火药以及大神的加持之下, Google于2016年正式宣布将所有统计机器翻译下架, 神经网络机器翻译上位, 成为现代机器翻译的绝对主流.
Google的神经网络机器翻译最大的特色是加入了注意力机制(Attention), 注意力机制其实就是在仿真人类翻译时, 会先用眼睛扫过一遍, 然后会挑出几个重点字来确认语义的过程(图2). 果然有了注意力机制加持后威力大增. Google宣称, 在「英—法」, 「英—中」, 「英—西」等多个语对中, 错误率跟之前的统计机器翻译系统相比降低了60%.
神经网络虽然可以根据现有的平行语料学习, 理解句中细微的语言特征, 但是它并非完美无缺, 最大的问题来自于需要大量的语料以及它如黑盒子般的难以理解. 也就是说, 就算出了错也无从改起, 只能够供应更多的正确语料来让「深度学习」改正. 也因此同样一个句型, 却可以有截然不同的翻译结果.
2018年2月, 微软(Microsoft)让机器语言理解超越人类后马上又有新举措. 3月14日, 微软亚洲研究院与雷德蒙研究院的研究人员宣布, 其研发的机器翻译系统在通用新闻报导测试集Newstest2017的中英翻译测试集上, 达到了可与人工翻译媲美的水平. 这自然是神经网络机器翻译的一大胜利, 当然在架构上也有了不少创新, 其中最值得注意的是加入了对偶学习(Dual Learning)以及推敲网络(Deliberation Networks).
对偶学习要解决平行语料有限的问题, 一般来说深度学习必须同时要提供给机器答案, 这样机器才能够根据它的翻译结果与答案间的差异持续修正改进. 至于推敲网络也是模仿人类翻译的过程, 通常人工翻译会先做一次粗略的翻译, 然后再将内容调整为精确的二次翻译结果, 其实各位可以发现不管再聪明的神经网络, 最终仍要参考地表上最聪明的生物, 也就是身为人类的我们.
语言无法脱离使用情境
机器翻译的发展并不意味着未来翻译界人士将会没有饭吃了. 可以注意到的是, 微软发表会曾强调「通用新闻报导测试集Newstest2017」的「中英翻译测试集」上, 数据集表现好未必能与通用性划上等号, 这也就可以说明为何腾讯翻译君明明平常口碑不错, 但是为何在博鳌实时口译却表现失准.
实时口译可说是翻译任务的顶点, 除了要有正确听力理解原句, 还要在有限时间内转换为其他语言. 而且别忘了讲者不会给翻译任何等待的时间, 所以等于语音识别与机器翻译必须同步处理, 再加上现场杂音, 讲者的表达方式, 语气词感叹词等等干扰因素, 都有可能会造成机器的误判.
就我看来, 腾讯翻译君, 可被指责的点可能只是不够用功, 没有把关键的专有名词录入, 这才会发生「一条公路和一条腰带」这种「经典错误」.
从图3也可以看到一个有趣的差异, 为何西方机器翻译错得离谱, 但是本国的机器翻译却几乎都能掌握原意? 这是因为语言不能脱离人类的使用场景而存在. 即我们语文学习中常强调的上下文(Context), 这来自于我们过去的文化, 过去共有的记忆所构成的. 没读过唐诗的Google自然无法理解这句诗的精髓. 语言会是人工智能时代人类最后的壁垒, 因为语言会因人类的使用不断地发生变化, 这是机器很难完美替代的.
随着技术进步, 终有一天, 机器翻译会从「堪用」变成「有用」, 再进化至「好用」. 但如同我一直以来的论点, 机器不会抢了人类的工作, 能让人类失业的其实只有我们自己. 如何善用人工智能成为自己的工具, 把自己从无聊繁琐的工作中抽身, 这才是面对未来的正确姿势. 新电子
3.AI, 大数据与个人隐私的拉锯战才刚开始;
近期最火热的话题, 就非大数据莫属, 包括中国大力举办的 2018 数博会, 不可讳言, 大数据最重要的就是数据的收集, 但是欧盟又公布了 General Data Protection Regulation (GDPR), 堪称是有史以来最严格的个人资料保护法, 也点燃大数据发展与个人资料与的争议.
大数据之所以能够成为有效的数据, 重点是数据的搜集及分析, 而且越多的数据, 才能分析出最贴近的数据, 成为有用的数据.
不过数据数据的来源, 却成为大家议论的焦点, 在国家主义下, 个人似乎有被迫牺牲自身权益, 让国家得以遂行政策, 这在中国最为明显, 中国在大数据的发展相当迅速, 政府也规划很多政策, 甚至还有所谓的扶贫, 脱贫等, 宛如有了大数据, 一切问题都不是问题, 但很多大数据数据, 其实都是当事人牺牲个人资料权利, 这在强调个人隐私的国家, 是不可能发生的事.
台湾企业发展的方向集中在工业大数据, 其中最发展最迅速的还是鸿海 , 长达 40 年的生产数据, 是鸿海最大的优势, 也是台湾在发展大数据有机会的地方.
不过台湾如果要发展像中国大陆那样的大数据, 关乎到人民隐私的领域, 基本上, 有很多窒碍难行之处, 光是一个 ETC 纪录, 就会引发侵犯隐私的可能, 更不用说是有关直接有关个人隐私的大数据, 大数据到底能否成功, 恐怕还要在公共利益及个人隐私的天平上继续拔河. 钜亨网
4.AI推论进驻边缘节点 影像/语音应用各占半边天;
2018年AIoT(AI+IoT)市场成长惊人, 驱动了各种装置的发展, 同时也促使深度学习功能逐渐由云端转向边缘运算, 以实现低延迟, 低网络带宽, 高隐私, 高效率的人工智能应用体验.
随着人工智能(AI), 边缘运算(Edge Computing)等技术近年快速发展, 智能家庭这个概念所包含的各种消费性电子及家电产品, 都将陆续发生革命性的转变. 最终, 由各种家庭设备所组成的人工智能网络, 可能将成为你我看不到的另一个家庭成员. 而本地云端的概念及其相关设备, 将是实现家庭人工智能网络不可或缺的要素.
智能音箱/监控将成消费性AI两大主轴
研究机构Ovum负责追踪消费性科技发展的研究员Ronan de Renesse(图1)表示, AI在消费性电子领域的应用, 近一两年常常成为媒体关注的焦点, 但消费性电子与AI结合的趋势, 现在才刚开始发展而已. 在未来三到五年内, 许多消费性电子产品都会搭载AI功能, 而且会彼此链接, 组成家庭里的人工智能网络.
图1 Ovum消费性科技研究员Ronan de Renesse认为, 未来家庭中的各种电子设备, 将成为一个隐形的家庭新成员.
对硬件产业链而言, 这个趋势固然会带来许多新的商机, 但若从更高的层次来看, 这个悄悄进驻家中的人工智能网络, 将会成为你我看不到的另一个「家庭成员」.
就硬件面来说, 大家耳熟能详的智能音箱, 基本上是个相对成熟的产品, 在未来五年虽然销量还会有明显成长, 但成长力道将逐渐放缓. 预估到2022年时, 全球智能音箱的销售金额将接近95亿美元. 事实上, Renesse认为, 亚马逊(Amazon)跟Google未来很可能不会再推出自有品牌的智能音箱, 因为这类产品本身的获利空间不大, 对这两家网络巨头来说, 只要硬件业者用的是它们的平台服务, 能搜集到其所需要的用户数据 , 目的就达成了.
同一期间, 家用智能监控系统这类产品的变化, 会比智能音箱更明显. 目前所谓的家用智能监控产品, 其实并没有人工智能的成分, 而是将摄影机, 警报器, 门锁, 传感器等硬件产品彼此连接, 形成一个支持事件触发(Event Trigger)功能的保全系统. 但随着相关软硬件技术日益成熟, 未来家用监控摄影机搭载人工智能的比例将会越来越高, 同时也能实现更多应用, 例如和语音助理搭配应用, 在多人使用的环境下, 更准确地为多名用户提供不同服务.
消费性AI应用首重隐私保障
不过, 对硬件业者来说, 最值得注意的, 可能是本地云端(Local Cloud)的概念及相关应用产品, 将随着家中设备普遍支持AI而窜起. Renesse指出, 搭载AI功能的电子产品会产生大量用户数据, 而且其中有很多是攸关个人隐私的数据. 因此, 如果这些搭载人工智能的家庭电子产品完全得仰赖外部云端才能运作, 显然会造成隐私疑虑.
另一方面, 很多功能比较单纯的消费性物联网装置, 受到电力, 运算能力, 生产成本等条件限制, 未必能支持很高阶的AI算法. 这时候, 本地云端装置将可扮演大脑的角色, 统一对这些装置发号施令.
但Renesse也坦言, 目前还很难断言哪种设备会扮演本地云端中心. 有可能是比较高阶的智能音箱, 也可能是智能电视或其他产品.
Arm资深市场营销总监Ian Smythe(图2)也认为, 相信未来将会有越来越多的运算和推论(Inference)引擎移至终端. 促成此一转移的主要驱动力, 就是为了保障用户的隐私. 藉由在终端处理分析的工作, 可以轻易的将数据匿名, 并确保敏感数据不会透过网络外泄. 以家庭应用为例, 消费者不会希望有人能从网络上得知自己家里没人的时间, 进而轻易地到家中偷窃.
图2 Arm资深市场营销总监Ian Smythe表示, 对消费性AI应用来说, 隐私保障机制是否可靠, 将是应用能否普及的关键.
针对视觉应用, Smythe认为, 支持视觉辨识功能的相机在本质上有些重要隐私问题的考虑. 很显然地, 这些装置必须经过设计, 使其不论在本机储存或是传输到云端时, 都能保护隐私及敏感的信息. 由于传输通常以无线方式连接, 必须特别留心无线传输功能安全. 设计装置的工程师必须确保网络联机的装置不会被黑客入侵, 窥伺.
电池寿命仍为主要技术挑战
不过, 要将AI推向边缘节点, 目前最大的技术挑战仍是系统的耗电量. 以消费型监控摄影机为例, 消费者可能期望这类产品是完全无线的, 最好连电源线都不要. 这意味着这类产品必须以电池供电, 而且还要支持无线网络. 此外, 它还要能够辨识所有物品, 以及需要无限的储存空间.
上述需求对系统设计带来很大的挑战, 需要能够数月不断电的电池以运行机器学习(ML)的能力, 以及持续上传档案至云端储存的能力. 这些极端的情况对芯片设计和系统组件的要求相当严苛, 最重要的是, 他们掌握了在何时启用这些功能的编排, 以延长电池寿命.
以家用监控摄影机来说, 摄影机并不需要24小时传送空房内的影像, 仅在有未确认身分的人出现时上传该部分的影像才合理. 同样道理, 在像空房这样场景不变的情况下, 启用ML算法并没有意义. 缜密地安排在何处, 何时启用这些功能, 才能让消费性装置得以在预期运作模式下, 仅需2颗AA电池, 便能长期正常使用.
也因为功耗是AI进驻终端装置的主要障碍之一, 目前市场上有许多家新创公司均看准这个机会, 推出低功耗神经网络(NN)加速器硅智财(IP), 以便协助芯片开发商在降低功耗的同时, 又能满足算法推论所需要的效能. 耐能智能(Kneron)日前正式发布其神经网络处理器(NPU)系列, 是针对终端装置所设计的专用人工智能处理器IP. 该系列包括三款产品, 分别为超低功耗版KDP 300, 标准版KDP 500, 以及高效能版KDP 700, 可满足智能手机, 智能家居, 智能安防, 以及各种物联网装置的应用. 全系列产品具备低功耗, 体积小的特性, 且提供强大的运算能力. 有别于市面上用于人工智能的处理器功耗动辄数瓦起跳, Kneron NPU IP的功耗为100毫瓦(mW)等级, 针对智能型手机脸部辨识专用的KDP 300, 功耗甚至不到5毫瓦.
耐能产品营销暨应用经理史亚伦(图3左)指出, 要在终端装置上进行人工智能运算, 同时满足功耗与效能需求是首要考虑. 因此, 针对个别应用推出优化的解决方案, 是非常关键的. 目前人工智能的应用可大致分为语音跟影像两大类, 其所使用的神经网络结构是不同的. 语音应用的重点在自然语言分析, 主流的网络架构是递归神经网络(RNN); 影像分析所使用的主流网络结构则是卷积神经网络(CNN). 为针对不同网络结构进行优化, 耐能提供的解决方案也不一样.
耐能软件设计经理沈铭峰(图3右)则补充, 虽然自然语言分析对芯片运算效能的需求较低, 但由于语言的腔调, 说话习惯有很大的歧异, 因此其模型训练所需的数据集远比影像辨识来得庞大. 另一方面, 由于消费者已经很习惯使用苹果(Apple) Siri, Google Assistant等以云端为基础的语音助理, 因此, 脱机式的语意分析应用要获得消费者青睐, 先决条件是必须在有限的运算资源下提供消费者近似的使用体验. 这对于芯片供货商跟系统开发商来说, 挑战还是不小.
图3 耐能产品营销暨应用经理史亚伦(左)认为, 语音跟影像辨识在本质上有很大的不同, 需要靠不同解决方案来满足. 右为耐能软件设计经理沈铭峰.
事实上, 目前绝大多数的智能音箱, 都还不算是边缘运算产品. 史亚伦指出, 不管是亚马逊(Amazon)的Echo, 苹果的Homepod或是采用百度, 阿里巴巴平台的智能音箱, 都还是要将数据传回云端进行处理跟语意解析, 才能响应用户. 能在终端产品上直接执行的语音操作, 基本上多半采用规则模式(Rule-based), 而非基于机器学习的自然语意理解.
耐能自2016年推出该公司首款终端装置专用的人工智能处理器NPU IP后, 就不断改善其设计与规格, 并针对不同产业应用进行优化. 在目前已开始提供给客户的IP中, KDP 500已获得系统厂客户采用, 将于第二季进入量产制造(Mask Tape-out). 与搜狗合作的语音识别, 也已经实现脱机语意解析, 让终端设备即便不连上网络, 也能听得懂用户的语音指令.
Kneron NPU IP是针对终端装置所设计的专用人工智能处理器, 让终端装置在脱机环境下, 就能运行ResNet, YOLO等深度学习网络. Kneron NPU为完整的终端人工智能硬件解决方案, 包含硬件IP, 编译程序(Compiler)以及模型压缩(Model Compression)三大部分, 可支持各种主流的神经网络模型, 如Resnet-18, Resnet-34 , Vgg16, GoogleNet, 以及Lenet等, 以及支持主流深度学习框架, 包括Caffe, Keras和TensorFlow.
Kneron NPU IP功耗为100毫瓦等级, 超低功耗版的KDP 300甚至不到5毫瓦, 全系列产品的每瓦效能在1.5 TOPS/W以上, 由于采用了多项独家技术, 因此能满足芯片商, 系统商对低功耗, 高运算力的需求.
锁定基本元素 硬件加速器不怕技术迭代
使用固化(Hardwired)电路来提升某些特定运算任务的执行效率, 降低功耗, 在芯片设计领域行之有年, 但其代价是应用弹性较低, 万一市场对芯片功能的需求出现重大变化, 或是软件算法大幅修改, 芯片设计者就得重新开发新的芯片.
在市场对芯片功能的需求已经大致底定的情况下, 这种设计方式不是问题, 但在技术迭代速度很快的新兴技术领域, 采取这种设计途径, 在商业上就会有比较大的风险. 人工智能就是技术迭代十分快速的领域, 几乎年年都有新的算法跟模型问世. 研究机构Open AI更指出, 过去6年间, AI模型训练对运算效能需求, 每3.43个月就会增加一倍.
对此, 沈铭峰指出, 硬件加速器未必是毫无弹性的. 以耐能的产品为例, 在架构设计上, 该公司运用卷积核拆分(Filter Decomposition)技术, 将大卷积核的卷积运算区块分割成多个小卷积运算区块分别进行运算, 然后结合可重组硬件卷积加速(Reconfigurable Convolution Accelerating)技术, 将多个小卷积运算区块的运算结果进行融合, 以加速整体运算效能.
用比较容易理解的比喻, 就像乐高积木可以组合搭建成各种型态的对象, 但整个对象本身仍是由少数几种基本方块堆栈而成. 耐能的方案是针对AI算法不可或缺的基本元素进行加速, 藉此提升整个算法的执行效能, 因此, 即便AI算法更新的速度极快, 耐能的方案还是能发挥加速效果.
除了加速器本身的设计是针对基本元素, 而非特定算法整体进行加速外, 耐能还提供其他与AI应用加速或部署的技术, 例如其模型压缩(Model Compression)技术便将未经优化的模型压缩数十倍; 内存分层储存技术( Multi-level Caching)可减少占用CPU资源以及降低数据传输量, 进一步提升整体运作效率. 此外, Kneron NPU IP能结合Kneron影像辨识软件, 提供实时辨识分析, 快速响应, 不仅更稳定, 也能满足安全隐私需求. 由于软硬件可紧密整合, 让整体方案体积更小, 功耗更低, 以协助产品快速开发.
影像辨识AI走向边缘更迫切
整体来说, 目前市场对影像辨识的需求较为迫切, 脱机语意分析虽然有智能音箱这个潜在的庞大应用市场, 但业者对此投注的资源反而较少. 造成此一现象的关键原因在于, 影像传输会占用大量带宽, 从而垫高整个系统的持有成本, 语音则没有这个问题.
晶心科技总经理林志明(图4)说明, 在人工智能与物联网结合的过程中, 也将带动边缘运算技术导入的需求. 边缘运算技术将会被应用于各种不同的新兴应用领域, 在此趋势之中, 弹性, 快速是台湾厂商的最大优势. 对于大多台湾厂商与IC设计公司而言, 由边缘端切入人工智能市场也较为容易.
图4 晶心科技总经理林志明预估, IP Cam将是率先在边缘装置上执行AI推论的主要应用之一.
同时, 由于边缘运算技术的导入, 也将带来内存, 传输等等硬件需求的提升, 将大幅拉高制造成本. 由于影像相关的系统单芯片(SoC)原先就相对于其他应用更加复杂, 对于成本的耐受度也较大, 因此, 边缘运算技术预计将由IP Cam等影像相关应用率先导入.
人工智能应用可以分为训练以及辨识两个部分讨论. 在深度学习的巨量运算过程, 短时间内依然会由云端运算处理. 而边缘运算所负责的任务, 则是将搜集到的信息先做初步的处理, 将不重要的信息过滤掉之后, 再将数据上传至云端, 以节省传输成本. 另一方面, 由云端完成的深度学习成果, 也能够使终端的辨识功能更加智能. 以IP Cam为例, 影像深度学习的工作能够先由云端运算完成, 待机器学会辨认行人, 车辆之后, 边缘端的IP Cam只须执行辨认工作即可.
另一方面, 更由于IP Cam在治安维护, 小区安全上的应用广泛, 因此政府与企业相对愿意支持投入, 这也将成为IP Cam发展较为快速的原因.
林志明分享, 目前许多厂商皆在摸索该如何将人工智能导入自家芯片, 系统之中. 目前的状况类似于物联网刚开始兴盛时, 大家都还在摸索应用该如何切入, 估计在2020年左右厂商会推出更多实际的产品.
实时性应用必然采用边缘运算架构
人工智能是时下热议题, 其中, 由云端运算架构逐渐转移至边缘运算架构, 将会为供应链各厂商带来不小的影响. 尽管短时间内人工智能的发展将依然以云端运算为主, 然而, 许多关于视觉应用人工智能功能将开始导入边缘.
赛灵思(Xilinx)视觉智能策略市场开发总监Dale K. Hitt(图5)指出, 在可预见的未来里, AI发展中的训练组件可能仍由云端运算主宰. 然而, 推论/部署组件已开始使用边缘运算来支持各种需要低延迟与网络效率的应用.
图5 赛灵思视觉智能策略市场开发总监Dale K. Hitt认为, 对需要极低延迟的应用来说, 边缘运算将是最好的解决方案.
对于边缘操作数件而言, 用于视觉相关应用的机器学习, 将是其中一项关键且影响深远的大趋势. 并且, 在工业机器视觉, 智能城市, 视觉分析以及自驾车市场都有强劲的成长潜力. 就工业视觉与消费应用而言, 由于边缘运算须执行机器学习算法, 因此对于效能的要求也比先前世代方案高出许多. 此外, 机器学习边缘算法/功能也已快速演进, 因此各界需要具备自行调适能力的硬件, 来针对未来机器学习推论架构进行优化.
Hitt以自驾车为例, 自驾车中每个传感器背后都有精密算法支持, 负责从传感器数据中产出感知判读的结果. 最新的趋势是运用深度学习算法来产出这些感知判读结果, 然而, 深度学习算法必须透过数量庞大的潜在情境加以训练, 来学习如何判读所有可能出现的传感器数据.
在经过训练后, 深度学习算法需要极高的运算效能与超低的延迟, 才能安全地操控车辆. 对于电动车而言, 则必须运用低功耗来因应工作温度限制及延长电池电力. 半导体商的目标, 是提供高效能, 低耗电, 具调适能力的解决方案, 来满足自驾车运行边缘AI的各种需求.
在边缘运算发展的过程中, 最大挑战在于市场的需求变化太快速, 因此能针对各种变化快速调适的技术极为重要, 才能让企业维持竞争力.
Hitt进一步说明, 深度学习算法正以飞快的速度持续进步, 许多2017年的领先解决方案至今已面临淘汰的命运. 即使现在具有高出他人许多的能力, 随着运算需求不断攀升, 硬件方面仍须进行优化. 硬件必须以更快的速度更新, 才能避免被淘汰, 有些硬件甚至在投产中就面临须更新的需求. 许多替代技术还须召回原厂来更新芯片.
Hitt补充, FPGA独特的优势在于包括运算, 内存架构以及链接等方面都能进行深度硬件优化. 和CPU与GPU相比, 优化后能以更低的功耗达到较高的效能, 而前两者的硬件架构无法针对新衍生的需求快速进行优化.
边缘运算大势不可挡
仰赖云端数据中心运作的AI应用, 虽然有极高的运算能力支持, 使其辨识正确性普遍高于依照简化模型推论的边缘装置, 但在考虑到隐私疑虑, 实时响应与联机成本等诸多因素后, 直接在边缘装置进行推论, 仍是十分有吸引力的选择. 另一方面, 终端装置的市场规模远比云端数据中心大, 有很强的经济诱因. 这也是过去一年AIoT口号喊得震天价响, 各大半导体业者积极布局的原因.
展望未来, 完全由云端支撑的AI应用仍会存在于市场上, 但比重势必逐年降低, 取而代之的将是混合了云端与边缘运算的新架构. 对AI应用开发者来说, 云端不可被替代的价值在于进行模型训练, 而不是执行推论. 也因为这个缘故, 对应用开发者来说, 解决方案供货商能否在「云」与「端」之间实现无缝接轨, 将是应用开发者在评估供货商时, 最重要的考虑. 新电子
5.麻省理工毕业生本月将获得区块链毕业证书
新浪科技讯 北京时间6月3日下午消息, 区块链技术能够让麻省理工学院 (MIT) 的毕业生以数字化的方式管理自己的学术履历.
位于美国马萨诸塞州剑桥市的软件公司Learning Machine和麻省理工学院的媒体实验室以及注册办公室合作, 学生可以选择下载区块链钱包, 安全存储和分享自己的文凭.
据《麻省理工科技评论》报道, 在最初的试点项目取得成功之后, MIT决定从本月开始为所有新的毕业生提供区块链钱包服务.
'我不相信中央机构能够以数字化的方式掌控大家的学习记录. ' 媒体实验室的学习创新主管Philipp Schmidt表示.
推出区块链形式文凭的目的是要让学生能够及时可靠地获取到自己的学历证明, 这样以来, 潜在雇主也就不必再打电话联系学校来确认其文凭是否真实.
想要获得数字文凭的新毕业生只需要下载一个app即可.
'在毕业之前, MIT会给学生发送一封邀请邮件. 邮件中写道—— '嘿, 来下载Blockcerts Wallet吧, 接受密码然后将MIT添加为发行方' . ' Learning Machine的首席执行官Chris Jagers说道, '当MIT发放了文凭, 学生就会收到一封带有数字文件的邮件, 他们可以直接将其导入到应用里. '