融合人工智能和HPC, 英伟达这次想做什么?

计算的世界已经改变了, CPU的扩张已经变慢, 而计算力的需求急速上升. 但是, 扩充CPU的作法已经不合时宜, 且打造高效能运算(HPC)和AI的服务器复杂度不停攀升, 几乎已到了系统设计的极限.

如何为这种不可能解决的问题找出方法, 在5月30日举行的GTC Taiwan 2018大会上Nvidia首席执行官Jensen Huang (黄仁勋) 给出了自己的答案.

NVIDIA的平台野望

回顾NVIDIA发展历程, 从单纯地推出GPU, 到协助国内外厂商打造GPU, 再到提升消费者对计算机游戏的娱乐体验. 虽然曾在智能手机市场失利, 但近几年开始积极布局AI领域, 也开始朝数据中心, 车用领域发展.

从业务架构来说, NVIDIA先是将90% 的研发支出都投入到GPU 架构和CUDA 软件平台, 继而将这种模式应用到各个平台: 游戏, 数据中心, 人工智能以及自动驾驶.

NVIDIA在GPU市场一直处于领先地位, 游戏业是GPU 最大的用户来源. 而数据中心则是其增长最快的业务市场.

过去三年里, 该部分业务收入年平均增长率85%, 2018财年增长率为133%. 这些增长来源于HPC (高性能计算机群) , 云计算公司和AI 研究者等多种垂直领域.

在AI 技术方面, NVIDIA已经领先于其他竞争对手. 2017年6月, 英伟达发布了下一代拥有Tensor cores的Volta GPU, 依靠深度学习, Volta 比前代Pascal 快了5倍. Volta 已经被所有主流云计算供应商和服务器制造商采用.

此次通过发布NVIDIA HGX-2, NVIDIA正式将人工智能和高性能计算融合到一个平台中.

据了解, HGX-2作为云服务器平台, 具备多精度计算能力, 支持面向科学计算和模拟的高精度FP64和FP32计算, 也支持AI训练和推理所用的FP16和INT8精度. HGX-2执行AI训练的速度, 在ResNet-50基准上达到了每秒15500张图片, 相当于300台只装了CPU的服务器.

GPU运算时代已经来临

在此次GTC Taiwan中, 黄仁勋还表示, 未来10年内, 每年对于运算需求的规模将成长100倍, 同时预期在摩尔定律逐渐衰减的现状下, 全球前50大超级电脑的GPU运算量将在未来5年内成长15倍, 同时以GPU加速运算的方式将成为延展摩尔定律的主要模式.

目前超级电脑已经成为现代科学发展重要工具, 分别在分子建构, 量子化学, 量子力学, 天气预报, 气象研究, 能源探索, 物理模拟, 数据分析与人工智能技术的发展过程中扮演重要角色, 并且提供百万亿次或百亿等级运算效能.

而就OpenAI统计显示, 未来5年内人工智能运算模型将成长30万倍, 相比摩尔定律预期成长速度快3万倍. 借由GPU加速能力, 将可让数据, 演算程式复杂度大幅提升, 借此解决过往人力无法解决的运算需求.

黄仁勋再次强调, 过去NVIDIA创造CUDA运算模式所带动的加速效益, 同时说明未来借由GPU加速运算的模式将会持续扩大, 预期在2028年全球运算需求将等同1000万组Volta架构GPU所推动效能. 若以传统通过多组CPU堆叠构成超级电脑等级运算能力, 将会占据大规模空间及高额电力花费, 若以GPU替换的话, 则可节省更多空间与电力损耗, 同时带来更高加速效果.

另外, 黄仁勋表示NVIDIA 正式启动全球顶尖 ODM 伙伴合作计划, 鸿海精密, 英业达, 广达电脑和纬创这些全球设计生产大厂都将成为合作伙伴, 加速因应 AI 云端运算的各种需求.

统一计算平台NVIDIA HGX-2

2018年5月30日, 英伟达宣布推出首款同时适用于人工智能和高性能计算的统一计算平台NVIDIA HGX-2.

从产品线来看, HGX-2 是去年HGX-1 的升级版, 后者也是亚马逊AWS, Facebook 以及微软等云服务的参考架构, 而HGX-2 还在云服务平台之外, 还能被应用到HPC (高性能计算机) , 成为业界首个可针对跨领域计算应用的标准平台.

HGX-2云服务器平台具备多精度计算能力, 可提供独特的灵活性, 为未来的计算提供有力支持. 英伟达称该平台能够针对科学计算和模拟进行高精度的FP64和FP32运算, 并针对AI训练和推理进行FP16和Int8运算, 多样功能性可满足现今越来越多融合HPC和AI的应用之需.

HGX-2 核心部分使用16 个Volta 张量核心GPU, 通过NVSwitch 互联结构组成一个庞大的核心群. 作为单一的巨型GPU, HGX-2 提供2 petaflops 的AI 性能. 而使用HGX-2 构建的第一个系统是最近发布的NVIDIA DGX-2 .

黄仁勋指出, HGX-2隶属NVIDIA GPU加速服务器平台系列产品之一, 该系列产品串连整个数据中心服务器体系, 适合每个大型市场, 能因应不同AI, 高效能运算及加速运算作业建议最适 GPU 与 CPU 配置组合. 像是HGX-T针对超大规模训练及HPC; HGX-1针对大规模推论及智能影像分析功能(IVA); 以及SCX-E针对数据中心, HPC, IVA, 虚拟桌面基础架构(VDI)等.

黄仁勋说: '搭载Tensor Core GPU的英伟达HGX-2为行业带来了一款强大, 通用的计算平台, 能将HPC和AI结合起来, 解决这个世界面临的巨大挑战. '

据了解, 全球四大ODM厂商富士康, 英业达, 广达和纬创也正在设计基于HGX-2的系统, 有望于下半年在全球几家最大型的云数据中心投入使用.

十多年前, NVIDIA决定从一家图形芯片公司转型成运算公司, 并开始一砖一瓦地建构出促进GPU运算普及所需的基础建设跟生态系统.

十多年后的今天, NVIDIA转型的成果已经有目共睹. 从最尖端的物理, 医学研究, 到当前最热门的人工智能和自动驾驶研发, NVIDIA的平台不断为开发人员提供更高的运算效能, 也成为推动科技进步的引擎!

2016 GoodChinaBrand | ICP: 12011751 | China Exports