Graphcore IPU进入中国 16纳米GC2处理器已量产

6月23日消息，不是老套的CPU、GPU，AI应该需要一块专属芯片。这个想法让全球更多创企看到挑战巨头的机会。

今年2月EE Times评选出“十大AI芯片创企”，其中来自英国的Graphcore凭借其为AI计算而生研发的IPU获选。

英国半导体之父、Arm的联合创始人Hermann更是对Graphcore给予高度评价，他曾表示:“在计算机历史上只发生过三次革命，一次是70年代的CPU，第二次是90年代的GPU，而Graphcore就是第三次革命。”

资料显示，Graphcore是一家英国AI芯片硬件设计初创公司，成立于2016年，总部位于英国布里斯托，Graphcore的主要业务是设计用于AI应用程序的处理器，为云服务等应用提供产品支持。

Graphcore的核心技术和产品是智能处理器(IPU)硬件和相应的 “Poplar” 软件，该软件专门针对AI应用程序所需要的密集型计算而设计，以及IPU系统解决方案。目前其IPU GC2处理器已经量产。

截至目前，Graphcore已经获得超过4.5亿美元的融资，战略投资者不乏宝马、博世、戴尔、微软、三星等各行业巨头。Graphcore最近的一轮融资在今年2月完成，公司估值已达19.5亿美元。

去年，这家AI芯片创企Graphcore将业务拓展至中国，我们也得以近距离了解这家企业的产品和中国市场愿景。

IPU为AI而生 16纳米GC2处理器已量产

今年5月27日，在英国Intelligent Health峰会上，微软机器学习科学家分享了使用IPU训练CXR模型的卓越性能：IPU在运行微软COVID-19影像分析算法模型时能够在30分钟内完成训练，而在NVIDIA GPU上这项工作需花费5个小时。

Graphcore IPU一战成名。

Graphcore高级副总裁兼中国区总经理卢涛介绍，之所以IPU能有如此优异的表现，是因为 “Graphcore的IPU是为机器智能专门设计的、完全不同的处理器架构，跟CPU、GPU等处理器架构非常不一样”。

卢涛表示，CPU是针对应用和网络进行设计的处理器，是标量处理器。GPU是针对图形和高性能计算、以向量处理为核心的处理器，而Graphcore IPU是针对计算图的处理来设计的处理器。

具体而言，“IPU应用了大规模并行MIMD的处理器核。另外进行了非常大的分布式片上SRAM，在片内IPU能做到300 MB的SRAM。相对CPU的DDR2子系统或GPU的GDDR、HBM来说，IPU能做到10到320倍的性能提升。从时延的角度看，与访问外存相比，IPU时延基本为1%，可以忽略不计。” 卢涛透露。

以Graphcore已经量产的IPU GC2处理器为例，卢涛介绍道：“这款产品采用TSMC 16纳米工艺，是拥有236亿个晶体管的芯片处理器。它在120瓦的功耗下能够达到125TFlops的混合精度，内存带宽为45TB/s、片上交换可达45TB/s、片间IPU-Links为2.5TB/s。GC2上有1216个独立处理器核心(Tile)，其300MSRAM能够把完整的模型放在片内。”

据悉，Graphcore采用构建大规模数据中心集群的BSP(Bulk Synchronous Parallel)技术，该技术目前在谷歌、Facebook、百度这样的大规模数据中心都已获得应用。

卢涛强调：“IPU是目前全球第一款BSP处理器，通过硬件能支持BSP协议，并通过BSP协议把整个计算逻辑分为计算、同步、交换。对软件工程师或开发者来说，这将非常易于编程;而用户也无需纠结于这里面是1216个核心(Tile)还是7000多个线程、任务具体在哪个核上执行，因此这是一项非常用户友好型的创新。”

与IPU相辅助的是Poplar软件，该软件专门针对AI应用程序所需的密集型计算而设计。卢涛透露：“目前Poplar已提供750个高性能计算元素的50多种优化功能，支持标准机器学习框架，如TensorFlow、ONNX和PyTorch，很快也会支持百度飞桨。在部署方面，目前Poplar可以支持容器化部署，能够快速启动并运行。在标准生态方面，Poplar能够支持Docker、Kubernetes，以及Hyper-v等虚拟化技术和安全技术。在操作系统方面，目前Poplar SDK支持最主要的三个Linux发行版：ubuntu、RedHat Enterprise Linux、CentOS。”

IPU服务AI优势凸显比GPU效率大幅提升

目前基于IPU的应用已覆盖到包括自然语言处理、图像/视频处理、时序分析、推荐/排名及概率模型在内的多个机器学习应用领域。

“在自然语言处理、计算机视觉类应用和概率类算法中，IPU的表现在现有以及下一代模型上，性能均领先于GPU。”Graphcore中国销售总监朱江介绍， “在自然语言处理方面，IPU速度能够提升20%至50%;在图像分类方面，IPU能够达到6倍的吞吐量和更低时延;在MCMC算法方面，IPU具有26倍的性能提升;在ResNeXt这类比较新的计算机视觉类应用方面，IPU能做到6倍的吞吐量、22分之1的时延。”

朱江以BERT模型为例进行了对比。BERT训练在NVLink-enabled的平台上，大概50多个小时才能做到一定精度，而在基于IPU的戴尔DSS-8440服务器上，只需要36.3小时，相当于训练时间缩短了25%。

如果做一个分组卷积内核的micro-benchmark，将组维度(group dimension)分成从1到512来比较。这里组维度512就是应用得较多的 “Dense卷积网络” ，典型的应用如ResNet。此时IPU GC2性能比V100要好近一倍。

随着稠密程度降低、稀疏化程度增加，在组维度为1或32时，针对EfficientNet或MobileNet，IPU对比GPU展现出巨大的优势，可以达到成倍的性能提升，同时时延大大降低。

据朱江介绍，Graphcore IPU现已广泛应用于金融、医疗、电信、搜索引擎等诸多垂直领域，并在这些领域表现出显著优势。

除了前面提到的IPU在运行微软COVID-19影像分析算法模型时的优异表现外，在金融领域，包括算法交易、投资管理、风险管理及诈骗识别等方面，IPU可以使MCMC采样速度提高26倍，强化学习的训练时间缩短至1/13。

电信领域，LSTM模型预测性能促进网络规划，基于时间序列分析，采用IPU比GPU有260倍以上的提升。

朱江总结道：“IPU是一个全新的架构设计、是一个图形处理器，具备多指令、多数据的特点。除了稠密的数据之外，现在代表整个AI发展方向的大规模稀疏化数据，在IPU上处理就会有非常明显的优势。”

进入中国已与百度阿里合作 7纳米IPU新品今年发布

现在Graphcore携其IPU登陆中国市场，以期在中国市场大展拳脚。

目前，如果用户想访问IPU系统，可以通过购买戴尔服务器或微软云来访问IPU资源。在中国，Graphcore和金山云合作，即将上线针对中国开发者和创新者的云业务。

卢涛透露，今年5月12日，在OCP Global Summit上，阿里巴巴宣布Graphcore支持ODLA的接口标准。随后5月20日，在百度Wave Summit 2020上，百度宣布Graphcore成为飞桨硬件生态圈的创始成员之一。Graphcore希望通过这样的方式来积极融入中国的AI生态圈。

在谈到中美AI市场的差异时，卢涛向TechWeb表示：“目前，美国在IPU的落地与推进速度方面比中国要更快一些，不过现在中国的推进速度也愈发快速。这是因为美国用户更多来自于较为活跃的研究者社区，而中国用户非常注重产品落地。国外的AI应用更加侧重研究，而中国更加看重产品化的训练和产品化的推理，更加侧重AI如何解决应用问题。”

为了适应这一市场差异，卢涛介绍：“长期来讲，Graphcore会针对中国市场的需求，进行产品的定制化。从服务角度而言，Graphcore中国目前有两支技术团队——一支是以定制开发为主要任务的工程技术团队，另一支是以对用户技术服务为主的现场应用团队。工程技术团队承担两方面工作，一是根据中国本地的AI应用特点和需求，将AI的算法模型在IPU上实现落地;二是根据中国本地用户对AI稳定性学习框架平台软件的需求，进行功能性的开发加强工作。现场应用团队则是帮助客户完成现场的技术支持工作。”

卢涛说：“我们对中国市场的期望非常高，期望中国市场能够占到Graphcore全球市场的40%甚至50%。虽然Graphcore在中国市场的整体启动比北美要晚一年左右，但从目前进展来看，我们发展得非常不错。”

另据卢涛透露，Graphcore下一代7纳米处理器将于今年下半年正式发布，相信新产品会有卓越表现。

Graphcore IPU进入中国 16纳米GC2处理器已量产

相关文章

编辑推荐