基于Tengine的开源加速器工具链

Aug 15 2021 Technical an hour read (About 10685 words)

前言

在之前的文章里笔者已经记述了怎样在FPGA上映射由英伟达开源的加速器NVDLA。但是NVDLA的官方发布的工具链很弱，只能端到端地运行极为简单的分类网络，而现在在绝大部分的深度神经网络应用里分类往往只是其中一小部分。例如我现在想利用加速器去运行yolo，但其中有许多加速器并不支持的算子，加速器支持的convolution、pooling、relu等等算子最好都要用加速器运行，而那些不支持的算子则需要Fallback到CPU去运行。

这片文章要介绍的是笔者利用Open AI Lab开源的边缘设备推理框架Tengine，为NVDLA打造一套新的工具链！

NVDLA Compiler Analysis

Jun 24 2021 Technical 3 hours read (About 26598 words)

这篇文章记录一下笔者剖析 NVDLA Compiler 工作机制的一些经过，在 NVDLA 的软件仓库中，Compiler与Runtime的源代码被放置在umd目录下，由同一个 Makefile 组织。

对于sw部分文档十分缺乏，在 NVDLA的页面里只有零星的介绍，而关于软件设计的细节、以及如何拓展设计都没有介绍。并且，Compiler这部分的代码充满了智慧，例如：

还有一些突然停止维护了而没开发完的feature。并且由于其前端只有 Caffe 的 Parser，导致其端到端的推理仅可以支持一些比较弱的分类网络，但阅读代码理解其设计与工作的思路，学习其抽象语法树的设计还是一个比较有意义的工作。

NVDLA Xilinx FPGA Mapping

Apr 28 2021 Technical an hour read (About 7059 words)

NVDLA 是英伟达于2017年开源出来的深度学习加速器框架。可惜的是，这个项目被开源出来一年后就草草停止维护了。

笔者本科的毕业设计为了与实验室研究的方向贴合，把NVDLA的RTL映射到了 Xilinx FPGA 上，并且上板编译了 Runtime 。映射成功后，很多伙伴对上板的过程很感兴趣，而这个步骤亦不是使用聊天软件说两句就可以概述的。于是写下这篇文章，记述Mapping 到 FPGA 过程中踩过的一些坑。

本设计的Github Repo地址：https://github.com/LeiWang1999/ZYNQ-NVDLA

你可以在这里看到我的本科毕业设计论文：Graduation Paper

开发器件：Zynq 7000+ / Zynq MPSoc

软件环境：

Ubuntu 18.04
Vivado 2019.1
Petalinux 2019.1

NVDLA Parser | Loadable Analysis

Mar 30 2021 Technical 28 minutes read (About 4155 words)

前言

NVDLA的软件栈主要分为两个部分:Compiler与Runtime，由于Compiler与硬件无关，所以可以在我们自己的开发机器上编译运行调试，理解起来也较为方便；而Runtime与硬件有关，调试非常困难，官方提供的预构建的文件又都是针对64位ARM/RISC的操作系统，这对没有合适的板卡，即仅搭载了32位处理器的ZYNQ 7000系列的开发板上编译Runtime带来了很多难以解决的问题。

Loadable文件是两者之间通信的媒介，本文记述一下Loadable文件的组织结构和解析方法，既然不能吃官方给的饭，那么可以试一试自己在SOC上做一份调度的算法，解读Loadable文件就是第一步。

Github Repo：https://github.com/LeiWang1999/nvdla-parser