浪潮发布支持TensorFlow的FPGA计算加速引擎TF2

TIME:2018-09-04
分享:

8月23日,在伦敦举行的人工智能领域顶级会议KDD2018大会上,浪潮发布支持TensorFlow的FPGA计算加速引擎TF2,该产品可帮助AI客户快速实现基于主流AI训练软件和深度神经网络模型DNN的FPGA线上推理,并通过全球首创的FPGA上DNN的移位运算技术获得AI应用的高性能和低延迟。


目前,采用FPGA技术实现AI应用的线上推理从而获得可定制性、低延迟和高性能功耗比成为诸多AI公司采纳的技术路线。但FPGA技术进入到大规模AI业务部署仍旧存在软件编写门槛高、性能优化受限、功耗难以控制等诸多挑战。浪潮此次发布的TF2计算加速引擎的目标就是期望为客户解决在AI应用FPGA技术的这些挑战。

KDD18 浪潮展台现场

TF2计算加速引擎由两部分组成,第一部分是模型优化转换工具TF2 Transform Kit,它将经过TensorFlow等框架训练得到的深度神经网络模型数据进行优化转换处理,大幅降低模型数据文件大小,如它可将32位浮点模型数据压缩为4位整型数据模型,使得实际模型数据文件大小精简到原来的1/8,并基本保持原始模型数据的规则存储;第二部分是FPGA智能运行引擎TF2 Runtime Engine,它可实现将前述已优化转换的模型文件自动转化为FPGA目标运行文件,为了消除深度神经网络如CNN等对FPGA的DSP浮点计算能力的依赖,浪潮创新设计了移位运算技术,它可将32位浮点特征图数据量化为8位整型数据,并结合前述4位整型模型数据,转换卷积操作浮点乘法计算为8位整数移位运算,这将大幅提升FPGA做推理计算的性能并有效降低其实际运行功耗。这也是目前全球首次在基本保持原始模型计算精度的前提下在FPGA上实现深度神经网络DNN的移位运算。


TF2计算加速流程

在浪潮F10A FPGA卡上采用SqueezeNet模型对TF2计算加速引擎进行的测试表现出了非常好的计算性能。F10A是全球首款支持Arria 10芯片的半高半长的 FPGA加速卡。SqueezeNet是一种典型的卷积神经网络架构,模型精简但其精度和AlexNet不相上下,特别适合于实时性要求较高的图像类AI应用场景。在F10A上运行经过TF2引擎优化加速的SqueezeNet模型,在基本保持原始精度的情况下,单张图片的计算耗时为0.674ms,在计算精度和延迟方面均略优于目前广泛使用的GPU加速卡P4。


TF2 w/ F10A与GPU性能对比

浪潮TF2计算加速引擎通过移位运算、模型优化等技术创新,提高了FPGA上AI计算性能,降低了FPGA的AI软件实现门槛,将支持FPGA广泛应用于AI生态推动更多AI应用落地。浪潮计划将TF2开放给其人工智能客户,并将持续升级开发支持多种模型优化技术、最新深度神经网络模型以及采用最新芯片的FPGA加速卡,预计新一代高性能FPGA加速卡的性能将是F10A的三倍左右。

浪潮是全球领先的AI计算力厂商,从计算平台、管理套件、框架优化、应用加速等四个层次致力于打造敏捷、高效、优化的AI基础设施。浪潮已成为百度、阿里和腾讯的最主要的AI服务器供应商,并与科大讯飞、商汤、旷视、今日头条、滴滴等人工智能领先科技公司保持在系统与应用方面的深入紧密合作,帮助AI客户在语音、图像、视频、搜索、网络等方面取得数量级的应用性能提升。据IDC《2017年中国AI基础架构市场调查报告》显示,浪潮AI服务器市场份额达57%高居第一。

(文章来源:今日头条)