6月23日消息,不是老套的CPU、GPU,AI应该需要一块专属芯片。这个想法让全球更多创企看到挑战巨头的机会。
今年2月EE Times评选出“十大AI芯片创企”,其中来自英国的Graphcore凭借其为AI计算而生研发的IPU获选。
英国半导体之父、Arm的联合创始人Hermann更是对Graphcore给予高度评价,他曾表示:“在计算机历史上只发生过三次革命,一次是70年代的CPU,第二次是90年代的GPU,而Graphcore就是第三次革命。”
资料显示,Graphcore是一家英国AI芯片硬件设计初创公司,成立于2016年,总部位于英国布里斯托,Graphcore的主要业务是设计用于AI应用程序的处理器,为云服务等应用提供产品支持。
Graphcore的核心技术和产品是智能处理器(IPU)硬件和相应的 “Poplar” 软件,该软件专门针对AI应用程序所需要的密集型计算而设计,以及IPU系统解决方案。目前其IPU GC2处理器已经量产。
截至目前,Graphcore已经获得超过4.5亿美元的融资,战略投资者不乏宝马、博世、戴尔、微软、三星等各行业巨头。Graphcore最近的一轮融资在今年2月完成,公司估值已达19.5亿美元。
去年,这家AI芯片创企Graphcore将业务拓展至中国,我们也得以近距离了解这家企业的产品和中国市场愿景。
IPU为AI而生 16纳米GC2处理器已量产
今年5月27日,在英国Intelligent Health峰会上,微软机器学习科学家分享了使用IPU训练CXR模型的卓越性能:IPU在运行微软COVID-19影像分析算法模型时能够在30分钟内完成训练,而在NVIDIA GPU上这项工作需花费5个小时。
Graphcore IPU一战成名。
Graphcore高级副总裁兼中国区总经理卢涛介绍,之所以IPU能有如此优异的表现,是因为 “Graphcore的IPU是为机器智能专门设计的、完全不同的处理器架构,跟CPU、GPU等处理器架构非常不一样”。
卢涛表示,CPU是针对应用和网络进行设计的处理器,是标量处理器。GPU是针对图形和高性能计算、以向量处理为核心的处理器,而Graphcore IPU是针对计算图的处理来设计的处理器。
具体而言,“IPU应用了大规模并行MIMD的处理器核。另外进行了非常大的分布式片上SRAM,在片内IPU能做到300 MB的SRAM。相对CPU的DDR2子系统或GPU的GDDR、HBM来说,IPU能做到10到320倍的性能提升。从时延的角度看,与访问外存相比,IPU时延基本为1%,可以忽略不计。” 卢涛透露。
以Graphcore已经量产的IPU GC2处理器为例,卢涛介绍道:“这款产品采用TSMC 16纳米工艺,是拥有236亿个晶体管的芯片处理器。它在120瓦的功耗下能够达到125TFlops的混合精度,内存带宽为45TB/s、片上交换可达45TB/s、片间IPU-Links为2.5TB/s。GC2上有1216个独立处理器核心(Tile),其300MSRAM能够把完整的模型放在片内。”
据悉,Graphcore采用构建大规模数据中心集群的BSP(Bulk Synchronous Parallel)技术,该技术目前在谷歌、Facebook、百度这样的大规模数据中心都已获得应用。
卢涛强调:“IPU是目前全球第一款BSP处理器,通过硬件能支持BSP协议,并通过BSP协议把整个计算逻辑分为计算、同步、交换。对软件工程师或开发者来说,这将非常易于编程;而用户也无需纠结于这里面是1216个核心(Tile)还是7000多个线程、任务具体在哪个核上执行,因此这是一项非常用户友好型的创新。”
与IPU相辅助的是Poplar软件,该软件专门针对AI应用程序所需的密集型计算而设计。卢涛透露:“目前Poplar已提供750个高性能计算元素的50多种优化功能,支持标准机器学习框架,如TensorFlow、ONNX和PyTorch,很快也会支持百度飞桨。在部署方面,目前Poplar可以支持容器化部署,能够快速启动并运行。在标准生态方面,Poplar能够支持Docker、Kubernetes,以及Hyper-v等虚拟化技术和安全技术。在操作系统方面,目前Poplar SDK支持最主要的三个Linux发行版:ubuntu、RedHat Enterprise Linux、CentOS。”
IPU服务AI优势凸显 比GPU效率大幅提升
目前基于IPU的应用已覆盖到包括自然语言处理、图像/视频处理、时序分析、推荐/排名及概率模型在内的多个机器学习应用领域。
“在自然语言处理、计算机视觉类应用和概率类算法中,IPU的表现在现有以及下一代模型上,性能均领先于GPU。”Graphcore中国销售总监朱江介绍, “在自然语言处理方面,IPU速度能够提升20%至50%;在图像分类方面,IPU能够达到6倍的吞吐量和更低时延;在MCMC算法方面,IPU具有26倍的性能提升;在ResNeXt这类比较新的计算机视觉类应用方面,IPU能做到6倍的吞吐量、22分之1的时延。”
朱江以BERT模型为例进行了对比。BERT训练在NVLink-enabled的平台上,大概50多个小时才能做到一定精度,而在基于IPU的戴尔DSS-8440服务器上,只需要36.3小时,相当于训练时间缩短了25%。
如果做一个分组卷积内核的micro-benchmark,将组维度(group dimension)分成从1到512来比较。这里组维度512就是应用得较多的 “Dense卷积网络” ,典型的应用如ResNet。此时IPU GC2性能比V100要好近一倍。
随着稠密程度降低、稀疏化程度增加,在组维度为1或32时,针对EfficientNet或MobileNet,IPU对比GPU展现出巨大的优势,可以达到成倍的性能提升,同时时延大大降低。
据朱江介绍,Graphcore IPU现已广泛应用于金融、医疗、电信、搜索引擎等诸多垂直领域,并在这些领域表现出显著优势。
除了前面提到的IPU在运行微软COVID-19影像分析算法模型时的优异表现外,在金融领域,包括算法交易、投资管理、风险管理及诈骗识别等方面,IPU可以使MCMC采样速度提高26倍,强化学习的训练时间缩短至1/13。
电信领域,LSTM模型预测性能促进网络规划,基于时间序列分析,采用IPU比GPU有260倍以上的提升。
朱江总结道:“IPU是一个全新的架构设计、是一个图形处理器,具备多指令、多数据的特点。除了稠密的数据之外,现在代表整个AI发展方向的大规模稀疏化数据,在IPU上处理就会有非常明显的优势。”
进入中国已与百度阿里合作 7纳米IPU新品今年发布
现在Graphcore携其IPU登陆中国市场,以期在中国市场大展拳脚。
目前,如果用户想访问IPU系统,可以通过购买戴尔服务器或微软云来访问IPU资源。在中国,Graphcore和金山云合作,即将上线针对中国开发者和创新者的云业务。
卢涛透露,今年5月12日,在OCP Global Summit上,阿里巴巴宣布Graphcore支持ODLA的接口标准。随后5月20日,在百度Wave Summit 2020上,百度宣布Graphcore成为飞桨硬件生态圈的创始成员之一。Graphcore希望通过这样的方式来积极融入中国的AI生态圈。
在谈到中美AI市场的差异时,卢涛向TechWeb表示:“目前,美国在IPU的落地与推进速度方面比中国要更快一些,不过现在中国的推进速度也愈发快速。这是因为美国用户更多来自于较为活跃的研究者社区,而中国用户非常注重产品落地。国外的AI应用更加侧重研究,而中国更加看重产品化的训练和产品化的推理,更加侧重AI如何解决应用问题。”
为了适应这一市场差异,卢涛介绍:“长期来讲,Graphcore会针对中国市场的需求,进行产品的定制化。从服务角度而言,Graphcore中国目前有两支技术团队——一支是以定制开发为主要任务的工程技术团队,另一支是以对用户技术服务为主的现场应用团队。工程技术团队承担两方面工作,一是根据中国本地的AI应用特点和需求,将AI的算法模型在IPU上实现落地;二是根据中国本地用户对AI稳定性学习框架平台软件的需求,进行功能性的开发加强工作。现场应用团队则是帮助客户完成现场的技术支持工作。”
卢涛说:“我们对中国市场的期望非常高,期望中国市场能够占到Graphcore全球市场的40%甚至50%。虽然Graphcore在中国市场的整体启动比北美要晚一年左右,但从目前进展来看,我们发展得非常不错。”
另据卢涛透露,Graphcore下一代7纳米处理器将于今年下半年正式发布,相信新产品会有卓越表现。