以下内容整理自将门CTO, 将门创投创始合伙人沈强的发言实录.
各位嘉宾, 下午好! 今天我们是在半导体峰会上讨论人工智能, 我觉得是一个特别好的场合. 因为人工智能的大部分从业人员来源于软件行业, 而在半导体峰会这么一个特别硬的会议上讨论人工智能, 是软硬双方对话与合作的绝佳平台, 而人工智能软硬双方的创新合作必将创造出无限的精彩!
我们说当前人工智能发展的三个核心技术要素是算法, 算力和数据. 而从创新角度来讲, 人工智能创新的主要方向是算法, 算力和场景.
现在我们已经可以看到, 人工智能不只是概念, 而是已经开始逐步走入了各行各业, 包括消费电子, 健康, 金融, 零售等众多领域. 人工智能渗透到行业里, 正成为重塑每一个行业的关键力量. 人工智能变革行业的力量是通过多层结构来体现的. 包括AI芯片在内的新计算基础设施, 深度学习算法及在图像语音等各领域内应用形成的支撑技术, 这些都是人工智能的基础的技术层.
而人工智能产生的业务价值是在体验层表现出来的. 这个AI体验层可能是2B的体验, 也可能是2C的体验, 也就是其具体应用. 而人工智能技术体验层的价值实现, 离不开软件与硬件的结合. 无论是安防, 无人机和未来可能有数万亿市场的自动驾驶, 我们会发现他们这些实现, 不断实时收集大量的数据需要硬件感知层的支持, 核心的数据处理需要适应于人工智能计算特点的芯片支持, 而智能计算的结果需要通过硬件实现的功能来展现. 无论是对芯片的要求, 对传感的要求, 对功能体验的要求, 都为人工智能和半导体行业结合提供了很好的契机.
1场景创新
谈到人工智能的创新场景, 这里有一些大家耳熟能详的应用领域, 如智能安防, 自动驾驶, 无人机, 智能音箱, 机器人等. 但是除了这些规模较大的场景, 事实上我们要是仔细地挖掘人工智能的商业价值, 创新的场景其实是无处不在的.
我想讲一个特别特别小的例子. 前一段时间, 我经常在外面出差, 家里没有人, 有件麻烦的事情, 就是我家里的猫没有人照料. 然后我就弄了一个自动宠物喂食机, 这个设备能帮我每天按设定的时间和食量喂猫, 毫无疑问这是一个极其细分的小市场. 后来我遇到这家自动宠物喂食机公司的CEO, 聊天的时候他跟我说人工智能和宠物喂养有很大的关系. 我就纳闷了你每天定点投放食物跟人工智能有什么关系? 他说有很多用户是家里会养多只猫, 不同的猫在不同的年龄阶段, 不同的身体状况, 每天进食的需求是不一样的. 比如用户要管理猫的健康, 要控制猫的体重, 所以每只猫要有个性化的喂养方案. 这个自动喂食机其实已经配备了摄像头, 原本是给主人做远程监控用的, 现在要用这个摄像头采集的图像做智能喂养. 别人都在做人脸识别, 我要做猫脸识别——我要知道当前进食的是哪只猫, 我要根据当前的情况给他个性化的提供喂食的服务.
所以说, 即使是这么小的一个场景, 当我们结合上人工智能的时候, 我们也能够创造出小场景里的商业价值. 而这样的场景是无处不在的. 我们强调场景驱动, 是因为场景是技术转化为业务的关键点, 再先进的算法, 再先进的算力, 如果找不到场景落地, 我们就很难把它转化成商业价值.
2算法创新
场景的创新背后, 要靠软件硬件的创新支撑, 我们先看软件上的创新. 近年来人工智能技术的快速发展最主要是由深度学习推动的, 这部分是算法和软件层面带来的推动力, 而深度学习的核心是基于深度神经网络的学习方法.
神经网络的历史其实很悠久了, 最早从1943年就提出了模拟神经网络, 在过去的几十年里神经网络的演进几经兴衰. 1989年Yan Lecun发明了卷积神经网络, 是今天如火如荼的深度神经网络的重要基础, 而Hinton教授于2006年正式提出了深度置信网络概念, 并定义了深度学习这个新名词. 但深度学习的爆发是直到2012年才迎来了重要的转折点, 这一年Hinton教授将以卷积神经网络为基础的深度学习框架运用到 ImageNet 大型图像识别竞赛上, 获得了空前的成功, 深度学习从此也获得了空前的关注.
ImageNet比赛, 可以说是计算机视觉领域的奥林匹克竞赛, 是各种人工智能技术的竞技场. 从这里各年比赛的结果可以看到, 2015年其实是一个具有历史意义的节点. 我们人的眼睛识别物体的正确率, 大约是在95%左右. 而在2015年的ImageNet竞赛上, 微软研究院通过深度高达152层的超级深的ResNet神经网络, 首次实现了准确度高于人类的视觉识别能力, 错误率仅有3.5%. 这意味着在一些特定场景下计算机已经可以取代人工作了, 巨大的商业价值从此开始被激活.
这些年来, 新型神经网络结构不断涌现, 并且不断朝着层数越来越深的方向发展, ImageNet竞赛中所用到的神经网路深度, 短短的5年间, 层次从8层演进到了1000多层. 而这些算法和软件上面的创新, 进硬件也带来了新需求. 如此复杂网络的计算, 无论是在服务器训练端还是在推理端, 都需极其强大的计算能力, 才能应付深度神经网络所需的计算复杂度.
深度学习的算法可以用来处理图像, 声音, 以及自然语言处理. 但是应用的最广泛的领域是计算机视觉相关问题. 计算机视觉可以抽象为几类问题, 图像的分类, 定位, 检测和分割. 比如说这个图片, 分类回答的是这图片是一只猫还是一只狗, 定位则需要指出猫在图片中的什么区域出现, 而检测需要把不同的对象, 多只猫, 多只狗分开, 而实例分割则需要区分出每个对象的像素边界. 这些基础的计算机视觉算法是各种人工智能应用的基石, 安防应用也好, 机器人应用也好, 背后都有离不开计算机视觉的支撑.
而计算机视觉和深度学习结合后, 获得了突飞猛进的发展. 比如说物体识别的检测算法在PASCAL VOC数据集上的成绩, 过去用R-CNN算法可以达到53.3%, 而现在用Faster R-CNN可以达到83.8%. 性能也从R-CNN的0.5fps提升到了YOLO的155fps. 物体的实例分割方面, 在COCO数据集上, 分割精度也从2015年CVPR FCN的62.2%提升到现在的74.7%. 在图像分割延伸的应用就是对视频的分割, 现在深度学习也被应用到视频分割领域中, 识别出视频中每一帧的各个象素是属于哪个对象的.
这些都是传统的计算机视觉问题, 比如说我们常见的人脸识别, 刷脸支付, 手势识别等应用, 绝大多数都可以归类为前面的这四类问题. 而现在算法层面的创新, 也就是软件的创新这一部分, 我们看到了很多新的技术, 能够激活新的应用场景. 比如说这里我们看到的图像, 视频到文字的转换. 反之一些新的算法, 已经开始在做文字到图像的转换, 比如用户口述一段话, 系统把对应的图像生成出来. 这里展示的是文字描述一架飞机在蓝天里面飞行, 计算机自动给我生成这样的图片. 这种不同媒体之间的转换, 使得我们能够不仅仅智能化地消费数字内容, 而且使得我们以全新的方式创造数字内容.
深度学习的创新, 未来有几个重要的演化方向, 第一是从监督学习到半监督学习和无监督学习的演化. 我们知道, 监督学习是依赖于标签过的数据进行训练学习. 今天我们在ImageNet里所看到令人激动的进展, 都是利用标签化以后的数据生成的. 虽然基于标签化数据的有监督学习方法获得了不少进展, 但是在我们看来这离支撑广泛的细分场景应用是远远不够的. 为什么呢? 对大量的标签数据的依赖是巨大成本, 而这个成本是阻碍创新的. 拥有海量数据的大型企业在人工智能的发展过程中会占据天然的优势, 但是细分场景的创新是需要依赖很多小微企业去实现的, 我们怎么使小微企业也能够参与到人工智能的创新进程中呢? 不依赖于标签化数据的半监督和无监督的学习是关键.
深度学习创新的第二个重要方向是减少对数据量的依赖, 可以用较少的训练数据就能获得学习的能力.
如果人工智能的算法, 能够不依赖于海量的数据, 不依赖于标签过的数据, 可以用广泛存在的无标签数据, 就能够大大的降低我们获取数据的成本, 本质上是使人工智能变得更加民主, 大企业和小企业有更加平等的权力参与到这个竞争当中. 行业已经认识到不能满足于有监督学习今天已经取得的成绩, 需要再往下的探索如何突破对数据的依赖, 基于无标签数据实现学习能力.
ImageNet竞赛基于标签化数据, 今年也是它的最后一届, 而计算机视觉识别领域的顶级赛事WebVision的竞赛就应运而生, 它取代了ImageNet的竞赛的主要特点是数据集是无人工标注的数据, 这是一个意义非凡的转折. 可喜的是, 由将门参与投资的码隆科技获得了今年WebVision竞赛的全球第一名.
深度学习创新的第三个方向是从基本的识别, 定位, 分割等最基础的感知能力向人类水平的认知理解演进. 这里我们看到的例子是基于条件生成对抗网络 (CGAN) 的自动图像生成, 我们看上面有几句简短的文字描述, 也就是给出一个文本问题, 下面的这个图就是根据这个文字由CGAN算法自动计算出来的一幅文字配图. 这里我们可以看出人工智能不仅可以用于认知已知的世界, 还可以创造未知的世界.
生成对抗网络的应用有一个飞机制造商的应用案例. 他们用生成式的对抗的神经网络来设计飞机的机翼. 飞机的机翼的结构, 有很多经典的设计方法, 基本是通过工程正向推算, 结合有限元分析方法来做设计. 波音想, 有没有可能突破已有设计范式, 设计出重量更轻, 强度更高的机翼? 过去都是基于经验, 人工设定设计方向, 和已经有的工程理论的设计法, 我能不能把它迁移到数据驱动的方法来进行设计? 所以他们设计了一个深层次的对抗网络, 由机器在没有人为经验限定的无限解空间里面去探索机翼的最佳结构. 令他们惊喜的是, 就像阿尔法狗探索出了人所没有想到的奇迹一样, 这个设计程序探索到了一种完全新型的机翼结构, 这个结构是他们无论如何都不会想到的的, 机翼原来还可以做成这样样子, 既能够保持强度又能够保持很轻的重量.
MIT的人工智能实验室用CGAN开发了视频预测技术. 它解决的问题是说我给计算机很多的视频来进行学习, 但不做任何的标签, 然后计算机来观察学习视频内容各帧之间变化的趋势是什么. 学完了之后然后给你一段新的视频, 当把视频停下来的时候, 它能够预测未来两三秒这个视频会变成什么样子, 它的下一帧下一帧再下一帧是什么样. 这样的预测能力不只是可以用在影视娱乐上, 在一些关键场合的应用甚至能够挽救生命. 就比如危险预警---我们人的眼镜和大脑互动, 对很多危险情况具有判断能力, 好比说一个人在奔跑, 前面有危险物品, 我们能够及时的发现并干涉. 更严重的, 例如前些年在新疆发生的严重的暴徒在公共场合的恐怖主义攻击事件. 如果我们能够提前两秒钟, 三秒钟预知暴徒会往哪个方面施暴, 并及时给予警告, 制止的话, 我们将能挽救几条宝贵的生命.
另外一个很有趣的例子是动作预测. 这个是对抗式网络另外一个很好玩的应用. 对抗式网络能够看视频的时候预测片中人员后续的动作. 比如看到两个人相向走过来, 就能猜到下一步他们会伸出手来握手. 看这段视频, 根据这段短暂的视频, 计算机就能推测到这两个主人公会接吻. 我们打开脑洞, 这些技术能想到很多的应用.
再有一些算法上的创新, 包括在强化学习上的创新, 这个是DeepMind公司做的, 相信不少同学早年在红白机上玩过打砖块的游戏. 这个DeepMind公司基于强化学习技术开发了一个程序, 在不了解游戏规则的前提下, DeepMind让程序通过一个摄像头对着屏幕, 观察屏幕的变化, 主动学习到游戏的目标和游戏的规则. 然后给他任务要求尽可能的获得游戏的最高分. 程序在一遍遍游戏训练的过程中不断的领悟游戏的技巧, 在视频中我们可以看到它从开始打得很烂到最后经过240分钟训练后成了顶尖高手, 居然发现了可以在墙上打洞使小球在墙壁和四周反复弹射而自动消灭砖头.
这些算法和软件上的创新实际上已经开启了通往通用人工智能道路的探索, 激励着我们创造未来的无限可能. 我们也看到很多创业者在这方面的努力, 特别的值得尊敬, 他们所致力的顶尖算法的突破, 正是在给我们未来长期更多的应用场景提供不可或缺的枪支弹药.
3算力创新
算法的发展离不开算力的发展. 在算力这部分, 智能芯片是人工智能的基石. 今天的机器学习不得不依赖于一个很强性的计算的基础设施———深度学习的计算量太大了, 需要有专门的计算架构来处理深度学习的工作负载. 深度学习有两种类型的计算任务, 一是训练一是推理, 这两部分都有很大的计算量.
大家能够看到, NVIDIA股票两年涨了七倍, 原因就是人工智能所需的计算推动了对更高速的计算架构的需求. 在云端的推理上面有很多, 包括微软, 亚马逊等等这些公司, 都已经在构建基于FPGA的云推理服务. 设备端更是多种多样, 9月初华为宣布了跟寒武纪合作, 在麒麟970手机芯片上面使用寒武纪提供的深度学习IP, 提供深度计算加速的设施. 英特尔花了100多亿美金去买MobileEye以及Nervana Systems,Movidius等, 都是因为人工智能需要全新的硬件支持数据中心及端上的智能计算.
这个演进还在持续的进行中. 我们看到, 从原来我们用CPU, 到现在多种途径, 用GPU用FPGA以及用专用的ASIC芯片, 各种技术路径可以说是百花齐放, 以适合于不同的应用场景. 在人工智能芯片初创公司里有一个典型的代表是Wave Computing公司, 用超并行的方法, 在一个数据流芯片上集成了16000多个独立的处理器, 然后16个芯片作为一个组装载到机器里, 所以它的一台服务器里面就有25万6千个核, 这样的架构创新是前所未有的. 包括Google TPU在内的大小公司的创新, 我们看到不停的在涌现出来, 人工智能芯片领域的创新将是人工智能的大规模应用必不可少的前提条件和有力支撑.
而在数量最广泛的设备端上的智能, 人工智能芯片已经在手机设备上应用了. 苹果iPhone X的CPU, A11仿生芯片中内置的神经引擎计算性能达到0.6TFlops, 也就是说你手里攥着的是一个每秒能进行6000亿次浮点运算的高性能计算机!而刚刚宣布的华为智能手机芯片麒麟970, 拥有每秒高达1.92万亿次的智能计算能力! 但即使有这样的计算能力, 不断增长的智能应用需求完全能够吞噬掉这些新的架构给我们提供的计算量, 所以我们也特别希望看到新的计算架构继续不断的涌现, 能够有更强大的计算能力, 更低的功耗, 以满足即将出现的各种各样的应用场景对巨大计算量的需求.
以上所有要素总结起来看, 人工智能领域中的算法, 硬件和应用场景的创新的三大主线, 而这三方面的创新也是互为推动的. 这也是今天我们在半导体峰会上谈人工智能的意义, 人工智能行业的发展离开了半导体行业这个重要的支柱, 是不可能发展起来的. 只有以场景创新为驱动, 软硬件创新为支撑, 人工智能才能创造出新的精彩. 我们也十分本次论坛帮我们见证更多软硬结合的人工智能新精彩!