分享 | 昆仑芯研发总监周保玉:智能算力构筑产业数智基石

2022-08-11 15:04:31 大京网 

近日,2022中国算力大会在山东省济南市成功举办。大会上,中国通信标准化协会互联网与应用委员会数据中心工作组共同承办“智能凝聚新动力(310328),算力开创新未来”分论坛。邀请中国信通院云计算与大数据研究所、新华三集团、昆仑芯科技、百度智能云等优秀产业界代表进行主题分享,共话智能新时代的算力未来。

作为国内最早布局AI加速领域的芯片企业,昆仑芯科技具备先进工艺、成熟的量产能力、易用的软件栈和完备的支持生态,在互联网、智算中心、智能制造等场景已实现规模部署,成为助推千行百业智能化升级的“芯”力量。

会上,昆仑芯科技研发总监周保玉结合昆仑芯产品的软硬件架构和丰富落地场景,向与会嘉宾生动展示昆仑芯以强大AI算力赋能千行百业,帮助政府、企业加速产业智能化布局的最新成果和应用实践。

本篇以下内容整理于昆仑芯科技研发总监周保玉题为“昆仑芯AI芯片:智能算力构筑产业数智基石”演讲实录。

昆仑芯科技研发总监周保玉

大家好,非常荣幸借算力大会这个机会和大家分享昆仑芯在AI芯片领域的进展。

今天我的演讲分为四部分:

昆仑芯科技公司介绍;

昆仑芯AI芯片软硬件架构;

昆仑芯产品矩阵及特点;

昆仑芯最新进展与应用案例。

过去十多年是AI发展异常迅猛的十多年,大家可以感受到AI带来的巨大冲击和变化。最初,AI在互联网、金融等具备数据场景的行业里有所应用。后来,在智慧城市、智慧交通,甚至科研领域等千行百业里,我们都能看到AI的落地应用。可以预见,未来几年AI会有更大的发展,甚至是突破性发展,并向各行各业有更好地渗透。

基于一些众所周知的原因,这几年我国整个算力体系发生了较大变化。从数据库中间件到操作系统,从服务器整机到芯片,国内群雄并起,取得了比较大的成绩。

未来,AI算力一定是支撑国计民生的重要部分。AI芯片是非常有潜力且有必要发展国产化的领域。然而,目前AI芯片行业还处在比较早期的阶段,需要我们站在更高的角度去看、也还有更多工作要做。正是在这样的背景下,昆仑芯应运而生。

昆仑芯科技公司介绍

昆仑芯科技前身是百度智能芯片及架构部,是国内最早布局AI加速领域的团队,深耕十余年,在体系结构、芯片实现、软件系统和场景应用上均有深厚积累。

从技术角度看,2017年,昆仑芯核心团队就已经提出100%自研的、面向通用人工智能计算的核心架构——昆仑芯XPU,研究成果在Hot Chips和ISSCC等国际顶级学术大会上均有发表。目前,公司已经成功研发两代芯片产品,均已实现扎实落地,是当前业界为数不多的实现大规模落地的云端AI芯片产品。

上图是昆仑芯科技的十年历程,可以看到:

2011年:启动FPGA、开始投身AI加速器的研发;

2015年:FPGA在百度内部部署超过5000片,2017年部署过万片;

2018年:正式启动昆仑芯产品研发;

2020年:昆仑芯1代AI芯片实现规模部署;

2021年4月:完成独立融资,更好地发展和服务于各个行业的客户;

2021年8月:昆仑芯2代AI芯片实现量产,回片当天成功点亮,同年实现大规模部署。

昆仑芯1代AI芯片制程为14nm,昆仑芯2代AI芯片为7nm,制程更加先进。基于昆仑芯1代和2代AI芯片,我们研发了多款AI加速卡,包括K100、K200和R200,以及R480-X8加速器。昆仑芯3代正在研发过程中,昆仑芯4代也已经布局,且均为更加先进的制程。

昆仑芯AI芯片软硬件架构

昆仑芯2代AI芯片采用7nm先进工艺,FP16的算力是128TFLOPS,内存32G,内存带宽512GB/s。整体功能完备,支持硬件虚拟化,具备芯片间互联技术和视频编解码模块的集成。

相比于1代,昆仑芯2代整体上的通用计算能力得到显著增强,2代搭载的架构是昆仑芯XPU-R,可以更好的支撑AI算法和演进,提升资源投入使用效率。

另外,高性能分布式AI系统能够加速AI数据并行和模型并行中的高速数据交换,后面就此展开。

上图是昆仑芯芯片架构昆仑芯XPU,它是继通用GPU后的新一代计算架构,诞生于AI场景因此能够满足多样的AI模型和场景需求,提供较好的性能和能耗效率,在结构上也较为易用。

最大的计算单元分为CLUSTER和SDNN:CLUSTER是通用计算单元,支持标量和向量计算,具备良好的通用性和可编程性,在实际运用过程中开发者接触更多;SDNN是AI芯片的核心,它定义了神经网络引擎,主要做张量计算、卷积和矩阵乘等计算,大部分开发者不会直接进行操作。

目前内存采用GDDR6,它是高速内存,在国内较少使用,我们是国内率先支持GDDR6的厂商之一。

中间的Shared Memory是共享内存,它保证所有计算单元进行高并发、低延时的访问。

片间互联提供200GB/s通信带宽,可以提高大规模分布式训练中的传输效率。

PCIe支持第四代接口,可灵活搭配业界已上市AI服务器。

上图是昆仑芯软件的整体架构,可以看到:

中间标蓝部分为SDK的核心,包含驱动运行时库,还有硬件虚拟化的支撑。

开发者套件编译器、图编译引擎,这是做推理优化核心中的核心。

高性能算子库是各家比拼实力的重点,水平可能会相差几倍甚至更高。

上层是飞桨、PyTorch和TensorFlow通用框架,还有UNIX开源规范的支持。

无论硬件设计还是软件优化,昆仑芯的整体性能在一些组织的模型测试中都处于市场领先水平。

昆仑芯2代产品矩阵及特点

昆仑芯AI加速卡R200主要用于高性能推理和训练,INT8算力为256TOPS,FP16算力为128TFLOPS,FP32算力为32TFLOPS。该卡性能相当于同价位GPU卡的1.5倍,在使用中具有较高优势。R200的内存提供了两个版本,分别为16G和32G,可以根据场景选择合适的版本,整体的芯片算力是一样的。

昆仑芯AI加速卡R300是一个加速模块,算力与R200相同,区别在于两者适用不同的服务器。R200是PCIe插槽,主要用于大规模的集群训练,因为在目前实际的部署过程中,绝大多数推理环境都是单卡,一般单卡就足够,多机多卡主要是用来做训练的。

R480-X8加速器组主要用于推理和训练,采用UBB服务器基板,片间互联通信带宽是200GB/s,每台服务器可以提供1P的算力,并且可以提供多机多卡的训练环境。

在昆仑芯2代AI加速卡上还集成了一个编解码子系统。在当前整个AI应用场景里,音视频处理是非常重要的一部分。为什么要在芯片上集成这个编解码模块?它的核心逻辑是让负载处理更加连贯、通信效率更高、内存使用效率更高。形象来讲,昆仑芯2代实现了编解码+AI一站式处理,数据不用在CPU和昆仑芯XPU上搬来搬去。这个性能提升非常可观,在不同应用场景里会有不同表现,一般情况下效率可以提高十几倍。

昆仑芯硬件虚拟化的支持也是为了更好提升资源使用率,尤其是一些大规模部署的客户。

昆仑芯有几个特性:

性能隔离:每个VF独占一个计算单元和访存带宽,免受其它VF的影响,避免出现性能波动;

显存隔离:每个VF占用显存物理隔离,仅可以访问授权地址空间,安全性更高;

异常隔离:每个VF发生故障之后,其他实例不受异常影响,稳定性更高。

上图是一个示意图。简单来说,昆仑芯分布式的集群系统支持单机多卡和多机多卡。整体来讲,是基于芯片间互联技术构建分布式硬件集群系统,支持规模化的分布式AI模型训练,主要用于大规模训练场景。比如你需要8个到64个,甚至更多的节点,一般都是采用R480-X8加速器组。

对于单机互联,单个节点上基于芯片间的互联技术,实现昆仑芯XPU互联,通信链接组成2个环路,提供200GB/s的双向聚合带宽。

对于多机互联,单机上每个芯片都是通过PCIe Switch连接网卡,每8个节点可以通过一个网络设备连接组成一个SU组,每个SU组上可以含64个芯片,每32个可以组成一个POD集群,整个POD集群的全部芯片都可以通过网络交换机实现多点完整互联。这是当前昆仑芯已经实现的一些产品能力。

应用案例

目前,昆仑芯科技与智能产业中的上下游企业均建立了良好生态合作,通过向不同行业提供人工芯片为基础的算力产品。互联网之外,金融、能源、交通等行业中均有落地。

这个案例是我们在互联网搜索场景中的应用。在互联网场景中,昆仑芯的部署量应该是当前最大的。互联网业务对实时响应要求比较高,对整个系统大规模并发要求也是比较高的。我们在数据中心已经部署了数万片,足以证明产品稳定性极高,并且TCO降低三分之一左右。

AI算法方面,NLP为主,还有CV和语音的一些应用。

智慧城市场景,视频处理会多一点。昆仑芯能够支持万级别的摄像机的实时分析,对于特征数据的识别可以达到10亿级别。刚才讲的一些编解码设计,在视频处理中能够得到很好的应用,尤其是高速视频的编解码。整体来说,它的算法模型、CV为主的模型比较多。昆仑芯目前支持的模型超过350个,包括一些基础模型和变种。

工业领域有一些图像识别的要求,整体上对于算力、功耗、稳定性的要求较高。另外,传统行业对TCO比较敏感,部署也非常复杂。具体到工业质检,图像应用、目标识别等应用较多。昆仑芯一方面帮助企业降低了TCO,另一方面实际应用效果对生产过程产生了促进作用。

还有一个场景和算力大会的主题非常契合——智算中心的实践。在当前国家大政策引导下,包括新基建和“东数西算”等大工程的启动,以及AI的规模化、集约化落地等,智算中心是其中一个非常重要的方向。在这些大规模场景应用过程中,昆仑芯也和合作伙伴一起构建了一些智算中心的方案。

这是昆仑芯在宜昌落地应用的一个案例,主要包含了昆仑芯的算力中心、百度算力系统及视联网系统,以及合作伙伴的物联网网络,构建起了一个完整的城市感知系统。

在实际应用过程中,宜昌市的火灾预警、水务、合作管理,一些摄像头和能源监控,都是基于昆仑芯的算力中心。

今天主要是给大家讲一下昆仑芯的产品的进展和情况,以及一些案例分享,接下来大家如果感兴趣,我们可以进行更多交流,谢谢大家!

【广告】

(免责声明:此文内容为广告,相关素材由广告主提供,广告主对本广告内容的真实性负责。本网发布目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,请自行核实相关内容。广告内容仅供读者参考。)

(责任编辑:张晓波 )
看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读

        【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。