51工具盒子

依楼听风雨
笑看云卷云舒,淡观潮起潮落

TensorRT是如何做到比其他框架更快的?背后的底层内核原因拆解

本文仅用于学术分享,如有侵权,请联系后台作删文处理 导读 TensorRT是NVIDIA开发的一个可以进行高性能推理的C++库,是一个高性能推理优化引擎,其核心库是使用C++去加速NVIDIA生产的GPU。本文讲解了Tensorrt性能优化的相关知识,希望对大家有帮助!

一. 是什么?

2016年Nvidia为自家GPU加速推理而提供的SDK,人们有时也把它叫做推理框架。

二. 为什么?

只有Nvidia最清楚自家GPU或DLA该如何优化,所以TensorRT跑网络的速度是最快的,比直接用Pytorch快N倍。遥遥领先的TensorRT

三. 怎么做到的?

1. 搜索整个优化空间

与Pytorch等其它训练框架最大区别是,TensorRT的网络优化算法是基于目标GPU或DLA硬件模型所做得推理性能的优化,而其它框架一方面需要综合考虑训练和推理,更重要的是它们没有在目标GPU上做针对性的优化。

TensorRT又是如何针对目标GPU优化的呢?

简单讲就是在可能的设计空间中搜索出全局最优解

这个搜索空间有哪些变量呢?

比如CUDA架构中的编程模型所对应的,将tensor划分为多少个block?以及这些block如何组织到Grid中
任务被划分为多个Block
Block以Grid的方式组织起来
再举例,使用什么样的指令完成计算,可能是FMA、MMA,可能是TensorCore指令... 更难的部分可能是tensor数据流的调度,把他们放在local、share还是global memory呢?如何摆放呢? 这些变量组合在一起是一个巨大的搜索空间,可能你的CPU计算几天也得不出个结果来。 但是我们知道神经网络的计算是由一个个粒度更大的算子组成的,算子上面还有粒度更大的层结构。我们也清楚地知道层与层之间相对独立,也就是说可以针对每层计算优化,最后把优化后的层串在一起大概率就是网络的全局最优解。 于是,TensorRT写了很多算子和层。当然这些算子的输入和输出tensor是可以配置的,以适应网络输入和输出的不同以及GPU资源的不同。 部分优化好的算子

搜索空间变小了,从原来的指令级别的搜索,上升到了算子级别的搜索。因为这些算法都是用CUDA kernel所写,更准确的说是Kernel级别的搜索了。

但是tensor数据流的调度问题并没有解决,这也是最关键和复杂的地方。我们应该将输入tensor划分为多少个Block呢?这些Blocks应该分配给多少个线程呢?tensor存储在哪呢?local/share/global memory的哪些地方呢?中间计算结果存储在哪里呢?

对于GPU上的share memory、L2 cache,也许可以通过模拟的方式(类似仿真器)计算得到性能的,但是加上Global Memory后就比较难通过CPU计算模拟较复杂的tensor数据流性能了,花费的时间可能无法让人忍受。所以干脆让某个优化结果在目标GPU上跑一跑试一试,统计出性能,多个优化结果对比选出最优解。

实际build(TensorRT流程的第一步)时**,TensorRT优化过程叫做Timing**,通过不同的优化策略得到的层会部署到硬件上实际运行,TensorRT甚至可以将优化的中间过程存储下来供你分析,叫做timing caching(通过trtexec --timingCacheFile= )


Nvida GPU memory架构


以上所描述的优化过程可以叫做Hardware Aware Optimazation 总结起来优化器会重点分析:

  • Type of hardware(DLA/Hardware capability...)

  • Memory footprint(Share, Cache, Global...)

  • Input and output shape

  • Weight shapes

  • Weight sparsity

  • Level of quantization (so, reconsider memory)

而这些是Pytorch等框架不会去深入挖掘的(会通过宏来适应一下不同线程数量,但类似适应很有限,尤其是存储系统的适配)

2. 强制选择Kernel

由于存储系统的具有很多不确定性,尤其是DRAM读写时间的不确定,多线程并行运行导致的访问随机性。优化结果可能不是最终实际推理时的最优结果。

如果这种不确定性导致了选择了不同的Kernel,TensorRT还提供了一个补救方法,就是强制制定只选择某个Kernel实现,如果你很确信它是最优解的话。

TensorRT提供的API叫做AlgorithmSelector

3. Plugin

当然,你对自己设计的算子更有把握,可以自己写Kernel,然后指定使用它

不过更多情况下,是因为发现TensorRT不支持某个算子,你才被迫去写Kernel,毕竟CUDA编程不简单,而且写的性能还足够好。

4. cuBLAS和cuDNN

TensorRT安装指导你需要先安装CUDA SDK和cuDNN

CUDA SDK需要安装是显而易见的,因为TensorRT所调用的Kernel需要NCCL编译器来编译成Nvidia GPU的汇编指令序列啊

但是CUDA SDK中还有一个cuBLAS库也是被TensorRT所依赖的,我们知道C++库BLAS(Basic Linear Algebra Subprograms),它是针对CPU进行的线性代数计算优化,那么cuBLAS就是针对CUDA GPU开发的线性代数计算库,它的底层当然也就是用CUDA Kernel写成的。典型的矩阵乘法算子就可以直接调用cuBLAS了。

cuBLAS开发的很早,应该是CUDA生态最早的一批库了吧,但是随着深度学习的普及,Nvidia又在生态中加入了cuDNN库,它的层次更高了,直接封装了优化后的网络层,所以其实TensorRT不是也可以直接调用优化好的cuDNN库中的Kernel吗?是也不是

从TensorRT源码看,TensorRT可以选择所谓**Tactic(策略)**来决定是使用TensorRT写的Kernel还是cuBLAS和cuDNN

5. Tactic

TensorRT的Tactic能决定很多优化选项

例如,每次timing某个算子时需要平均的运行次数。缺省TensorRT会运行四次,以降低存储系统不确定性带来的误差,但这个次数是可以修改的。

上面提到的Kernel库的选择,Plugin的选择等

甚至还有GPU的时钟频率,因为缺省情况下,GPU频率是动态变化的,基于此得到的优化结果可能和实际运行不一致,所以有时需要改为固定频率进行优化。

6. 量化

TensorRT当然具备网络量化能力,提供了将全网都量化到int8的隐性量化方式,也提供了插入Q/DQ Layer的显性量化方式。

混合量化是Nvidia做的很优秀的地方,这对于高效利用计算资源起到了重要作用,不过,这个另外的话题,以后有机会再谈。

  1. 多应用推理和多卡推理

其实这才是Nvidia强悍的地方,在友商都在谈单卡性能时,其实多卡或多节点才是Nvidia的杀手锏

另外,对于单卡性能富余的情况下,可能希望有多个流在并行推理,这个对于TensorRT来说也是必须支持的

由于这两个点暂时理解的还不够成熟,所以以后再谈。

四. TensorRT的里子到底是什么?

答:根据目标GPU的资源和能力,在各种已优化好的Kernel库中尝试挑选Kernel实际运行,然后选择最优结果的一个Hardware Aware优化器。

五. 编译器

最后,如果非要套用编译器前后端理论的话,上述谈到的部分应该属于编译器后端部分了,因为它已经和底层硬件息息相关了。只不过它逻辑上处于于NVCC这个实体编译器的上层。而编译器前端,也就是与硬件不相关的图融合部分是也是在TensorRT的Builder内完成的。


最后送上两幅图,作为总结

TensorRT工具链

赞(5)
未经允许不得转载:工具盒子 » TensorRT是如何做到比其他框架更快的?背后的底层内核原因拆解