对于AI芯片可以理解为面向 AI应用的处理器芯片,它属于AI和处理器芯片两大领域的结合。当前随着人工智能的蓬勃发展,AI芯片已经成为了炙手可热的投资领域,除了Intel、Nvidia、ARM这些老牌的芯片厂商外,Google、Facebook、微软这样的互联网公司也进军AI芯片市场。
AI应用中通常包括基于深度神经网络的各类算法,以及图像识别、视频检索、语音识别、声纹检测、搜索引擎优化、自动驾驶等任务,其中关键的能力是“训练”和“推理”,而“训练”是从海量的数据中完成特征的学习,这需要极高的计算性能和较高的精度。为了支持AI的计算性能和精度,理想的AI芯片需要具备高度并行的处理能力,支持各种数据类型的浮点计算,以及用于存储海量数据的存储器带宽。
目前适合AI的处理器有GPU(graphics processing unit)、FPGA(field-programmable gate array)、DSP(digital signal processing)和ASIC(application specific integrated circuits)等,业界各大厂商他们结合自身的特点推出了不同的方案,目前主要有两种设计思路:利用已有的GPU、FPGA、DSP、多核处理器等芯片实现;设计专用的ASIC芯片实现。这也成为了争论的焦点——哪个AI芯片方案是佳的选择?
GPU是图形处理器,它的核数远超过CPU,由多核组成的大规模并行计算架构专用于同时处理多重任务。深度神经网络的训练过程中计算量极大,而且数据和运算是高度并行的,GPU具备进行海量数据并行运算的能力并且为浮点矢量运算配备了大量计算资源,与深度学习的需求不谋而合,因此先被引入运行深度学习算法,成为高性能计算领域的主力芯片之一。Intel虽然也有GPU,但主要为集成显卡使用。Nvidia一直在独立显卡领域具有优势,因此Nvidia的GPU是目前应用广的通用AI硬件计算平台,在人工智能领域无疑已占据足够的优势。
Nvidia依靠自己在AI领域建立的优势,开发出CUDA平台,提供了cuDNN、NCCL、cuBLAS等诸多SDK为合作伙伴提供开发工具,逐步让众多合作伙伴熟悉这种生态,进一步巩固它在AI领域的领导地位。Nvidia的芯片应用十分普遍,现在所有的AI软件库都支持使用CUDA加速,包括谷歌的Tensorflow,Facebook的Caffe,亚马逊的MXNet等。当然Nvidia的GPU在复杂程序逻辑控制上仍然存在劣势,需要使用高性能CPU配合来构成完整的AI系统。为了弥补自己在CPU方面的弱势,在2019年宣布其用于超级计算机的加速平台将对ARM架构CPU支持,计划利用其芯片与使用ARM架构的CPU协作打造应用人工智能的超级计算机。
ASIC是一种为专用目的而定制设计的芯片,在大规模量产的情况下相比于FPGA性能更强、体积更小、功耗更低、成本更低、可靠性更髙等优点。近年来越来越多的公司开始采用ASIC芯片进行深度学习算法加速,其中为突出的是 Google为机器学习定制的专用处理器芯片TPU(Tensor Processor Unit),它支持256×256个矩阵乘法单元、非线性神经元计算单元等模块,专为Google的深度学习框架TensorFlow而设计。
TPU受到业界的关注是从Google的AlphaGo大显神威后开始,新一代 AlphaGo Zero已经将CPU结合GPU搭建方案升级为了TPU。在2018年Google I/O开发者大会上正式发布了TPU3.0,其性能宣称比去年的TUP2.0提升8倍之多,达到每秒1000万亿次浮点计算,比同时期的GPU或CPU平均提速15~30倍,能效比提升30~80倍。
FPGA其实也是一种定制芯片,在灵活度方面,它介于CPU、GPU等通用处理器和专用集成电路ASIC之间,它不像专用集成电路ASIC那样由芯片厂商固化编程,而是在硬件固定的前提下,允许设计者灵活使用软件进行编程,因此它的开发周期比ASIC短,不过相对于批量出货ASIC,单个FPGA的成本会更高。在性能方面,FPGA与 GPU相比,具备更强的计算能力和更低的功耗。以FPGA方案为代表的厂商主要有Intel和Xilinx。
Intel已经错失了移动设备的崛起,不想再错过对AI芯片领域的布局。为了增强在AI芯片领域的竞争力,2015年12月Intel斥资167亿美元收购了Altera公司,这是Intel有史以来金额大的一次收购,意味着Intel希望实现CPU和FPGA深层次结合来布局AI芯片市场。2017年Intel又收购Mobileye,希望通过整合AI算法以获得关键的优势。2018年,Intel宣布收购芯片制造商eASIC,提高FPGA速度,降低FPGA成本和能耗需求。Intel通过霸气的购买将自己提升到AI芯片“玩家”的前列。当前Intel有两套FPGA的战略:打造CPU+FPGA混合器件,让FPGA与处理器协同工作;基于Arria FPGA或Stratix FPGA打造可编程加速卡。微软在2018年的Build大会上公布的Project Brainwave深度学习加速平台,就是基于Intel Arria FPGA和Stratix FPGA芯片所打造的。
Xilinx是FPGA芯片技术的开创者,从2011年起,Xilinx提出全编程的理念,作为FPGA行业长期的霸主,Xilinx拥有超过2万家下游客户,其中亚马逊AWS、以及的BAT云服务巨头都推出了专门的云端 FPGA 实例来支持 AI 应用。2018年Xilinx重磅推出全新一代AI芯片架构ACAP,重磅推出全新一代AI芯片架构ACAP,以及采用ACAP架构的首款代号为Everest的AI芯片,将正面 “宣战”Intel和Nvidia。同年Xilinx收购国内三大AI芯片独角兽之一的北京深鉴科技有限公司,该公司主攻终端人工智能,所采用基于FPGA来设计深度学习的加速器架构,可以灵活扩展用于服务器端和嵌入式端。
另外DSP芯片主要用于处理视觉系统如图像、视频等方面的任务,在自动驾驶、安防监控、无人机和移动终端等领域为常见。众核处理器采用将多个处理核心整合在一起的处理器架构,主要面向高性能计算领域,作为CPU的协处理器存在,比如IBM CELL、Kalray MPPA和Intel Xeon Phi都是典型的众核处理器。
AI智能芯片未来的发展势不可挡,从芯片的历史来看,目前AI智能芯片仍然处于初期阶段,未来在架构和设计理念上仍然有巨大的突破空间,这也提供给了我国“弯道超车”的机会,在国家“2025智造”的指引下,国内的科技巨头阿里巴巴、腾讯、百度和华为都参与进来,在全力发展自己AI智能芯片以突破“重围”,深圳市银联宝电子陪同大家一起拭目以待。