商汤科技 CEO 徐立: 科学向左, 产业向右, 如何找到交点?


在人工智能时代, 科学和产业的结合成为了一场耐力赛.

在科技发展的历史上, 科学和产业的结合一直是个很难的问题. 商汤科技联合创始人兼 CEO 徐立看来, 在人工智能时代, 两者的结合更成为了一场耐力赛, 并且, 这项任务正在变得更加紧迫.

对于 2014 年成立的商汤科技来说, 团队一直有着浓郁的学术氛围, 公司与国内外学术团队也有密切合作. 但科学和产业的交汇点一定是双轮驱动的, 在这个进程中, 政策, 资本, 技术, 落地规模, 场景应用等各个因素缺一不可. 从商汤科技角度来说, 他们更关注计算机视觉, 人工智能眼睛这个部分, 希望能够帮人看清, 看懂这个世界. 人工智能在计算视觉领域有很多落地形式, 这些形式带来了感知上的突破. 比如, 摄像头在环境非常黑时也能完美成像, AI 还可以帮助专家读图, 但在这之前, 必须要明确问题并由人来打通整个流程.

徐立认为, 从商汤的尝试来看, 人工智能如今恰好来到了一个非常好的时代, 外部要素正促进 AI 加速落地.

以下是徐立在极客公园 2018 创新大会上的演讲全文(经极客公园编辑)

科学和产业: 从背道而驰到走向结合

大家好, 我是商汤科技的徐立.

大家都知道人工智能这一波浪潮肯定和很多科学家创业有非常大的关系, 某种意义上, 科学产业在现在这个浪口. 但是, 这其实只是在最近这几年才发生的事情, 我想起来我在读书的时候, 一直有这么一个段子, 我们要去读博士, 很多海外名校的教授就说, 其实读博士不是一个致富的路径, 一般肯定是有钱了再去读博士, 做科学家, 而不是说做了科学家, 为了有钱, 所以这两个逻辑是反的.

其实在中世纪的时候, 基本上都是说, 贵族才能去做真正的科学研究, 就是因为科学和产业之间的矛盾和冲突非常大, 这两个是截然不同的点. 为什么到现在这个阶段, 似乎这两条线走到了一个交叉路口, 我们其实可以来看一下行业上明显的变化.

科学和产业有一个很大的不同点, 我们定义了科学家:

第一, 大家认真的做科学研究, 专注于技术突破, 基础理论的突破, 我们想象得到, 其实很多时候, 甚至 100 年前, 很多的理论都进行了创新和发展, 但是真正意义上能够和产业结合的很少, 我们大家耳熟能详的有各种各样的科学家, 但是真正意义上科学的成功, 和最后的产业落地相距比较远, 产业关注什么事情呢?关注真正的盈利能力, 标准化, 快速变现, 解决方案, 以及说, 真正的产业, 实际上来自于市场的需求驱动.

所以, 科学和产业还是一个背道而驰的, 完全不一样的这么一个概念.

既然两者差的这么远, 在这种情况下, 我们怎么看待这个事情呢?在目前这个阶段, 到底发生了什么样的事情, 使得科学和产业能够在一个地方进行交汇呢?我觉得很关键的一点是, 科学和产业的交汇点一定是双轮驱动的, 什么叫双轮驱动呢?

第一, 技术核心突破来得比较快一点, 科学发展会有那么多年, 科技是平稳发展的, 也就是说, 技术突破是增量性的. 在这个过程当中理论研究非常非常重要, 但是这些研究未必能够真正的被大家应用到我们认为的, 认知的商业上去.

反过来, 有些时候科技是跳跃式的发展, 它不是一个直线性, 增量性. 比如说, 这一波人工智能的突破, 其实是某种意义上, 把传统的人工指导的智能, 转化成纯数据驱动的智能, 包括我们大家现在耳熟能详的深度学习也好, 基于深度学习纯数据驱动的方法也好, 其实是一个颠覆式的变化, 而不是一个增量式的变化. 只有在这种状态下, 才能够带来完全不同的新的生产力.

另外一个方向我们讲产业, 产业来看, 需要具备什么样的条件呢?我们也可以看, 刚才我讲的颠覆式的科技发展, 其实在历史上也有发生, 比如说一些新材料, 新能源的发现, 其实都有, 但是这个未必真正意义上等价于它能够进行产业变现, 能够进行变化.

比如说, 我们讲到钨丝, 这个材料的发现其实已经很久了, 真正被用到灯泡里面, 作为一个灯的话, 还是需要从现实的场景倒推到材料的突破和材料的革命, 这是一个非常重要的点.

从产业界来讲, 到底什么是重要的呢?产业界很重要的事情在于, 产业的需求真正意义上到了一个爆发的临界点, 也就是说普罗大众, 我们其实被足够好的教育了. 很多时候, 科技有进步, 能够带来的是颠覆式的劳动力, 生产力. 另外, 市场被教育了, 能够带来的是大家被认知的需求, 有了这两个东西, 我们就觉得科学技术的推进和产业的变化, 能够合在一起, 引领人类的进步, 改变人类的生活, 这个是非常重要的.

商汤科技的尝试

从我们的角度, 商汤关注的是计算机视觉, 人工智能眼睛的这个部分, 我们希望能够帮人看清, 看懂这个世界, 从这个角度来讲, 科学家到底在做什么呢?科学家未来延展方向, 很大程度上在于感知层面. 我们可以知道, 看清核心的本质, 是在于说, 我有更好的感知的能力, 而感知的能力不光是从硬件的角度突破, 算法, 理论, 以及背后的支撑, 其实是带来了感知能力核心突破的概念.

现在大部分的感知器, 其实处理的都是我们认为的可见光, 大家也可以看到, 这一两年在视觉领域的突破, 从可见光传到了不可见光, 我们可以有 UV 的摄像头, 可以有红外的摄像头, 远红外, 近红外的摄像头, 甚至还有各种热敏的摄像头, 这些摄像头打开的是一个完全不一样的应用范畴.

举个例子, 现在 iPhone X 可以支持人脸解锁, 或者支付, 其实就是因为我们的感知能力已经从可见光转到我们认为的近红外. 在近红外的情况下, 我们可以做到更好的真人识别, 更好的验证, 所以给我们真正的支付, 或者说线上线下场景打通起到了保驾护航的作用.

另外我们可以看到, 路面上的摄像头很多, 一到了晚上, 很多人认为摄像头看不到, 但是摄像头的感知能力现在已经达到了星光级, 甚至是极光级, 什么概念?在非常黑的情况下, 它都可以形成一个非常完美的成像, 地上的摄像头如此, 天上的摄像头也是如此.

商汤一直认为, 目前来看, 行业发展最大的是地面的摄像头的应用, 但是未来, 天上摄像头越来越多的情况下, 大家都面临同样的处理数据的问题, 所以在遥感成像当中, 很早就用了超能力的超感知.

比如说遥感影像可以有各种不同光谱, 可以检测云, 雪, 区分地块, 在做各式各样不同的区域, 可以达到不同的处理, 把不同景的数据进行连接和拼接. 所以我们在基础的感知能力上有一个很核心的提升, 这是在可见光范畴之内的延伸.

另外, 我们真实人感知的场景是 3D 立体的, 而图片永远是 2D 的, 而 2D 到 2.5D 到 3D 的延伸, 就会给我们的应用带来非常不一样的变化.

其实我们一直认为这样对场景的感知带来的是新的交互能力, 而交互能力的改变, 一直是互联网的革命开始. 我不知道大家是否记得 iPhone 滑动式的交互刚出来的时候有一款游戏非常火爆叫《愤怒的小鸟》, 是因为它设计的理念, 非常吻合手机的人机交互的模式, 但是当我们的感知系统更好地感知 3D, 可以把 3D 场景当中的物体更好地呈现出来的时候, 其实有可能我们下一个新的交互模式就会产生了. 这个交互模式是基于新的 3D 感知以及 AR/VR/MR 这样的技术.

大家可以看这三个场景, 左边的是简单的利用 SLAM 的技术, 在感知 3D 情况下加上一些不一样的场景内容. 中间是我们在办公室, 平地无中生有做了一只小动物和一颗树的渲染. 可以看到, 这种渲染模式会越来越真实, 从原始的 2D 照片, 已经凸显到了整个 3D 的应用当中. 而且运用是一个普通的摄象头.

最右边的是我们在桌上摆了一些真实的东西, 两只小怪物是假的, 大家如果看背后的椅子, 蝴蝶, 这些都是假的. 这块应用就带来了很多不一样的体验.

试想一下, 如果未来咱们的单个摄像头的手机, 就能给大家带来一些不一样的 3D 体验的时候, 我想 2018 年, 2019 年一定会产生越来越多的游戏场景, 社交场景, 是基于和现实更完整的融合, 这就是我们讲的科学家做的是感知能力提升的概念.

从理论基础来说, 科学家做大数据驱动人工智能的时候, 我们会发现, 有很多先天性的不足, 目前来看, 缺少可解的事情.

以前如果说人工指导的智能, 是什么概念, 我们用大数据做统计学习, 统计学习人类会加很多的先验知识, 我们认为在座的人的年龄分布是均匀分布的或者是正态分布, 这些分布都是我加的先验. 我加了先验, 某种意义对于预测是有很大的指作用的.

但是, 如果当数据越来越大的时候, 可能我对这个数据不做先验假设了, 这种情况下会带来一个问题, 所有的规律都是从数据当中自己学出来的, 会产生一个很大的缺陷, 叫做缺少可解释性.

另外我们真正意义上要解决的一个大数据的问题是, 可能说我们需要给数据所认知的, 机器认知的更多的给出一些标注, 所谓的标注就是给一些正确答案, 但是并不是所有的东西都有正确答案的, 所以我们还缺少监督的信息.

在一些特定的场景下, 譬如说医疗, 我们见过一个医院的研究所, 他说我们这边会有两个国家级的老专家, 这两个老专家也希望把知识能够真正意义上的教会电脑学习, 但是就因为这两个老专家能够看出片子上早期疾病的, 全中国就没有人做这件事情, 问我们能不能做.

其实机器来看定义很清晰的事情, 机器目前能做的事情就是定义输出输入非常清晰, 我给出一个片子, 它能够指出这是不是早期的某种病患, 这件事情是定义非常清晰的事情, 可惜的是样本数太少, 没有足够的样本.

如果我们要做这样的训练, 通常需要一百万的数据, 老专家一天能看多少片子, 香港医生一天阅片不能超过 8 张, 超过 8 张称之为疲劳阅片, 是要上报的.

如果按照一天读 10 张的概念, 老专家要进行 300 年—500 年的诊断, 才能够提供足够的数据, 且不论老专家年纪已经很大了, 即使是从很小的时候就具备老专家的能力了, 这样孜孜不倦地在干这一件事情, 其实我觉得也是非常难的. 这就是说没有这样的新连样本, 同时还会跨领域的, 多模态的各种各样的交互变化.

所以有了这些以后, 其实我们目前科学家在做的事情是把他的理论基础往上查, 把原来的这些问题转化成新的研究问题, 譬如说多模态, 多任务的学习, 弱监督和无监督的学习, 甚至是说, 如果没有样本的情况下, 我迁移样本, 甚至是生成样本的学习.

还有就是我可以进行这样的回路打通, 我虽然不知道这个事情是不是一个很好的答案, 但是我可以通过增强学习来做, 帮助我们打通.

举个例子, 大家看看这个描述有没有什么问题. 小鸟有白色的胸部, 浅灰色的头部和黑色的翅膀和尾巴. 大家会觉得不会特别惊讶, 但是实际上这个过程是反的, 是我们给了一个中文的描述, 他生成了这样的照片, 也就是说全世界目前不存在任何一只鸟长得跟这张照片上的鸟一样的, 这就是讲, 我们可以真正意义上打通, 从文本的描述生成样本数据, 样本案例.

再往后推演, 如果说能够用文本生成图片, 是不是可以用文本生成视频, 导演可能就不用干活了, 我写一个本子就能够生成视频. 科学就是渐渐的把一些原本觉得任何不可能的事情变为可能.

可以看到有了这样的技术之后, 有可能大家以后再也不要轻信朋友圈转发的内容, 万事都有可能. 但是, 这些科学技术的突破, 从感知的能力, 理论基础提升来说, 其实发生的变化和真正的产业还是有很长的距离.

我们来看产业界到底做了什么事情呢?产业的 AI 突破, 首先就是说, 云+端的模式打通, 云端就是服务器, 计算能力的提升, 而端就是从各种设备端, 有越来越强的计算能力, 为了迎接 AI 技术的突破, 其实有越来越多的设备已经准备好了智能, 或者被智能化, 目前就是看, 有没有合适的算法放到我的车里面, 机器人里面, 手机里面, 甚至是各种各样的手持设备上, 这个是产业发生的很有意思的变化.

从我们现在来看, AI 技术应用趋势是多场景, 多维联动, 全栈式的创新能力, 从底层的算法到中间各式各样的技术的模块, 再到上面核心的应用, 这部分核心应用, 其实真正意义上, 从产业来的一个真实的需求, 这里面的需求和要求还不一样.

因为很多情况下, 我们也跟很多企业打过交道, 企业说, 我们需要被 AI 化. 这是一个命题, 找到了一堆问题, 这样的一些问题我们人都做不好, 是不是用 AI 的方法来给你调调, 我想说, 不可能, 很难做到.

AI 能够做到什么事情呢?刚才我讲, 当一个问题的定义, 输入, 输出, 清晰, 并且有人来打通这个流程的时候, 用 AI 来替换这些能力, 是会比较自然的.

所以 AI 做的事情只是在应用场景当中去提升它的生产效率, 这个事情是能做的, 但是如果人都不知道这件事情怎么做的情况下, 你要让 AI 帮助你梳理, 归纳, 演绎, 这是非常艰难的. 所以我觉得这个场景带来的作用, 能够把真实的需求梳理清楚, 到这个行业来.

如何推动科学与产业融合的进程

产业和科学的融合, 我们觉得有两大块外部要素:

要素一, 温度环境.

要素二, 从工业化的角度来看, 我们讲了三个化.

外部的环境是什么呢?现在我看, 外部的管理其实起了一个非常好的作用, 加速, 催化的作用, 中国是有史以来第一个从国家的层面推动整个 AI 的发展, 其实你可以看欧洲, 美国大部分的国家, 其实国家起的是建议的事情, 但是中国起的是整个的推进, 所以政策加温, 包括一些白皮书的制订, 往往意义上是从全民, 全国的角度来说, 帮助产业落地.

第二个是资本增压. 我们也可以看到, 现在这个阶段, 资本对于人工智能, 对于技术的这样一个拥抱, 其实使得产业从原始的技术核心突破, 到工业落地当中的链条缩短了很多.

第三个很关键的一点就是资源齐备, 你要进行核反应, 你还是得有油.

所谓资源齐备就在于, 目前来看计算能力达到了一定的程度, 计算的资源, 甚至是基于上面的平台, 和一些操作系统的研究, 都已经达到了一个点, 所以说外部环境已经是可以让科学向产业进行很好的转化.

从产业本身来说, 是需要三个化:

第一, 技术产品化.

没有一个 AI 的企业是真正通过卖技术来变现的, 这是非常难的. 一个核心技术的突破, 就像我刚才讲的, 如果说, 我们无中生有生成这个鸟, 但是需要把它变成商业变现的时候, 一定要有相对应的产品来做载体, 这个步骤其实是现在大部分的企业逐步完成的, 技术产品化. 我们可以变成一种精准的识别能力, 或者一种芯片, 云和端的这两种模式是技术产品化的核心突破.

第二, 落地规模化.

如果说, 我们需要把一个技术真正意义上形成一个足够大的影响力, 我们需要它有一个规模化的能力, 在一个城市, 两个城市覆盖没有什么用, 我们需要有一个快速增长的能力, 或者说, 这些东西能够被标准化的嵌入到某种产品当中, 那么它的推广就会变得非常成功.

其实现在很多大家使用的设备当中, 已经生成了非常多的 AI, 就像刚才我们用手机拍照, 现在一个普通的摄像头就能够达到单反虚化的样子, 其实这就是一种 AI 的技术, 落地到手机产品当中的集中体现.

第三, AI 在哪个行业上, 能够形成行业的急剧的变化, 并不是很清晰, 所以, 场景多元化某种意义上是可以把各个技术之间形成一个很好的新的技术.

我们可以看到, 从公共的服务, 个人的应用, 整个社会管理之间都会有这样的变化, 其实有点像我们在讲第一次工业革命的时候, 技术突破了, 我们有很好的蒸汽机, 但是如果没有多元化的场景应用, 其实技术真实变现, 真实推进产业革命, 其实还是有很长的距离, 当时的应用是:

第一, 我可以做大规模的工业制造.

第二, 我可以做农业的收割, 灌溉.

第三, 我甚至可以来做铁路, 交通.

当时世界上市值最大的企业都是做铁路做运输的.

所以从这个角度来看, 技术的场景多元化, 也是这波 AI 落地很核心的要素. 譬如说个人应用, 手机一定会有这样那样的一些应用场景, 右边是我们当时推出的帮助图片去雾霾的手机应用, 也就是说你的照相机, 如果拍了北京的雾霾天, 不用担心点一键就可以消除雾霾天.

中间是一些相册的管理, 我相信现在大家拍的照片, 已经可以根据人来进行管理, 我自己的照片, 我的朋友, 小孩和家人, 可以分成不同的组, 未来可以根据更多的维度和标签进行切分, 比如说可以根据年龄和亲密程度, 机器都可以通过自动的方法来帮你分类, 梳理.

最左边的照片, 我们讲的是说让 AI 具有更多的创造元素, 其实我们是可以在视频当中模拟非常多的艺术化的效果, 甚至可以学习梵高, 学习莫奈, 可以看到未来手机拍摄的一张照片, 前段时间大家在模仿齐白石的虾, 其实我觉得不用模仿了, 你拍一张真的吃的虾用个算法, 立马就可以变成齐白石的风格.

所以这种 AI 和个人应用会给大家带来非常多的娱乐化的过程. 另外一个角度是 AI 与整个社会的治理管理, 还会起到非常大的深度结合.

我们可以想象目前这个状态下, 整个社会的治理还是脱离的, 即使使用技术没有全盘来看, 是想着我们从衣食住行各个方面, 甚至是从地面到天空, 每个角度, 如果都用算法来进行演练和演化的话, 可以做一个整体化的规划.

比如说我们的出行, 一方面在车内的 AI 可以帮助无人驾驶, 避障, 更好地提供导航的服务. 另一方面在天上的 AI, 科技通过实时地感知到地面的情况, 甚至对道路进行很好地规划, 是天和地的连接达到更好的协同作用.

有可能在不远的未来, 很多事情都可以有更好的变化. 这是我们能够看到技术突破和场景能够有一个很大连接的.

那终极的 AI 是什么?不是产品, 是公共服务, 未来, 因为 AI 能做的事情是前人前面, 像柜台上的事情, 我们在柜台上提供的各种各样的认证, 人是作为一个辅助对接的口, 再往后我相信这个对接的口, 也会被 AI 所替代, 那么我们未来来提供的服务, 真正意义上可以做到根据每个人不同的状态给出每个人不同的定制化的服务.

讲了那么多, 我说科学和产业, 还是说中间会有很长的路把这两个东西连接, 所以我们说即使从我们的 AI 企业来看, AI 的落地也是一场耐力赛. 我们希望科学和产业, 最后能够在一个地点上结合, 目前来看, 我们是处在一个非常好的时代, 因为周围的环境催化正使得这个事情加速.

所以我们也希望在这个阶段, AI 真的可以帮助大家把每个人的生活变得更好. 谢谢大家.

2016 GoodChinaBrand | ICP: 12011751 | China Exports