【2021集创赛】Risc-v杯三等奖:基于E203 ShuffleNet的图像识别SoC

本作品参与极术社区组织的有奖征集|秀出你的集创赛作品风采,免费电子产品等你拿~活动。

团队介绍

参赛单位:中国科学技术大学
队伍名称:Supernova
总决赛奖项:三等奖

1.项目简介

本设计以E203处理器为核心,添加协处理器、神经网络加速器、用于显示的外设(12864型LCD屏和通过HDMI连接的显示器)、输入按键、DDR、以太网等外设构成SoC。
在这里插入图片描述

需要识别的图片信息通过以太网从PC发往FPGA,并在DDR3中进行暂存,通过HDMI显示当前将要识别的图片。加速器从DDR中获取图片数据并进行识别,有两个模式供用户选择:单张识别和连续识别。单张模式下加速器将识别结果送入E203核内,并由程序控制LCD显示相应的字符;连续模式下加速器可以直接将识别结果通过以太网返还给PC上位机。
系统整体结构图如下所示:
在这里插入图片描述

1.1 E203程序设计

C程序主要由主函数、GPIO初始化函数、PLIC配置函数、GPIO中断函数、UART配置及发送函数、LCD控制函数构成。
主函数流程图如下图所示。当程序处于模式选择阶段时,第一个GPIO按键中断用于模式切换,第二个GPIO按键用于模式确认选择;当程序处于模式中的选择性识别时,第一个GPIO按键中断用于模式一中的切换当前显示图片的功能,第二个GPIO按键用于实现确认识别当前图片的功能。
在这里插入图片描述

1.2 NICE接口与协处理器

神经网络加速器在设计的时候考虑了两种功能模式切换以及低功耗的需求,对加速器的启动、停止、模式选择的控制均由E203以自定义指令的形式通过NICE接口传递给加速器的控制模块。
本系统里加速器将直接从DDR中读取数据,若没有数据送入时将进行无效运算,为了降低功耗,我们可以对加速器进行启动和关闭操作。同时,本系统的功能包含单张识别和连续识别两种模式,对于单张识别来说速度的需求并不高,使用较低的时钟频率,而连续识别的定位是大量数据集中处理,对速度的要求较高,使用较高的时钟频率,控制图如下:
在这里插入图片描述

1.3 UART通信

当用户在程序中选择具体模式后,E203核通过UART向PC发送对应的模式代号,此时PC将选择通过以太网向FPGA发送单张(模式一)还是连续发送多张图片(模式二)。若处于模式一状态下,程序通过UART向PC发送指令是否切换当前将要识别的图片。

1.4 TCP/UDP以太网接口

以太网是目前应用最广泛的局域网通讯方式,同时也是一种协议。以太网协议定义了一系列软件和硬件标准,从而将不同的计算机设备连接在一起。
我们的设计中,图片信息通过以太网从PC发往FPGA,连续模式下加速器可以直接将识别结果通过以太网返还给PC上位机。
为了验证以太网接口的正确性,本文使用wireshark软件和NetAssist网络调试助手来进行调试,wireshark可捕获网口发出的报文,观察发出的报文是否正确,测试结果如下图所示,可见以太网功能正确实现。
在这里插入图片描述

1.5 HDMI显示图片

开发板上HDMI接口由Sil9134芯片驱动,在使用时需要先由I2C通信协议初始化芯片寄存器,之后以VGA接口时序将图像数据发送至屏幕显示。

1.6 LCD显示结果

LCD硬件模块我们选用了12864B点阵液晶显示模块,可实现汉字、数字、英文、符号的显示。

1.7 神经网络模型

在本设计中LCD用于显示程序用户界面以及加速器最终识别结果。当用户通过程序完成模式选择并确认识别后,加速器在核的命令下开始识别图片,识别完成后加速器将识别结果通过核送到LCD模块中,LCD模块解码收到的识别结果并在LCD屏上显示最终识别结果。
本设计以旷视科技官方的ShuffleNet v2 x0.5版本模型为蓝本,结合FPGA硬件资源的考量,对模型的部分结构做了改进,命名为ShuffleNet v2 x0.1(以下简称为x0.1),可对ImageNet数据集进行32种生活用品的图像分类。
在整个模型上共包括5个Stage,基本框架如下:
在这里插入图片描述

本设计的前向推理过程完全采用有符号整型数据格式进行运算,基本思路为对每一层设定固定的位宽,将计算结果放大或缩小至该位宽的取址范围内。为了进一步节约计算资源,对数据的缩放全部使用移位来进行。
在这里插入图片描述

该参数在本设计中称该值为放大系数𝑟𝑎𝑡𝑒。由于卷积层的偏置参数的放大需要使用该值,并且每层的放大系数均不同,所以该参数将在量化网络的层与层之间进行传递。
根据以上的量化策略,对 ImageNet 中选出的 32 种生活用品进行量化后推理测试,其量化后的准确率为 90%,相比浮点运算的 96%的准确率有所下降,但考虑到本设计采用了较为激进的量化策略(全程整型运算且放大缩小均采用移位操作而不是乘法),这一结果是完全可以接受的。

1.8 神经网络硬件设计

在本设计中,加速器的应用场景和算法已经固定,且算法模型比较复杂,包含多个分支与 Block,为了更高的性能,我们选用将每层单独实现的方式作为本SoC 中 CNN 加速器的实现方式,之后连接到一起搭建完成整个网络模型。
本设计中使用滑窗法实现特征图的生成,以生成 3*3 大小的特征图为例,具体如图:
在这里插入图片描述

输入特征图大小为 2242243,conv 层采用的时33 大小的卷积核,步长为2,padding为 1,最终 conv 层计算得出的特征图大小为 112112*24。*将上述过程生成的特征图与权重进行相乘得到运算结果后在进行累加,主要的乘加运算由 DSP 完成,DSP 设置为 4 级流水线,每个 cycle 进行一次加法和乘法运算。

Shuffle 层的本意是将,输入数据的多个通道进行打乱,在 FPGA 中,数据流以像素点形式传递,只需将数据按照 shuffle 的顺序重新拼接即可,Shuffle 层的实现原理如下图所示:
在这里插入图片描述

2.技术创新点

  • 本项目完成了模型训练、前向量化、硬件设计的全流程设计,可以快速迁移到基于各种数据集的图像分类的应用上。
  • 实现了两种识别模式:单张识别和连续识别。系统的设计定位为云端处理,可以对大量图片(来自以太网)进行快速识别,即连续识别,此模式实现了 PC 和 FPGA 进行图像数据的传输与通信。

3.参赛体会

通过本项目的研究和探索,我们学习了深度学习的知识和嵌入式系统构建与实操,完成了神经网络加速器的硬件实现及其性能优化。系统性能达到了满意的效果。感谢赛方为我们提供了这样一个锻炼动手能力的机会和交流项目经验的平台。

4.后续工作

进一步优化时序、尝试使用 NICE 接口对加速器进行参数配置(目前的加速器为固定规模,不可修改),优化 PC 上位机等。

作品内容来源于Supernova,非开源,转载请标明出处。欢迎大家参加极术社区组织的有奖征集|秀出你的集创赛作品风采,免费电子产品等你拿~活动,10月1日截止~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/173925.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在CentOS7环境下安装Mysql

1.卸载已有的不需要的环境 使用如下命令,查看系统中是否已经存在mysql和mariadb(mysql的一个子分支) ps ajx | grep mariadb ps ajx | grep mysql 如果显示与我相同,则代表系统中已经存在这些环境并且已经停止 如果不相同则需要…

支付宝支付==沙盒

地址 登录 - 支付宝 可以看到有买家和卖家账户了 完整代码 https://gitee.com/hebian1994/demo-zhifubao.git

el-table解决数据过少小于高度有留白的问题

问题:给el-table设置个高度,高度为500px,之后就添加如下4条数据,那么底部就没数据,直接就空白了,本文章就是为了解决这个问题,如果底部留白那么就添加几条空数据就行了.如果数据已达到高度了那么就不会留白了 1.效果 这个空列可以根据高度来决定添加几个空格子去铺满列表&…

关于Flume-Kafka-Flume的模式进行数据采集操作

测试是否连接成功: 在主节点flume目录下输入命令: bin/flume-ng agent -n a1 -c conf/ -f job/file_to_kafka.conf -Dflume.root.loggerinfo,console # 这个file_to_kafka.conf文件就是我们的配置文件 然后在另一台节点输入命令进行消费数据: kafka-cons…

Windows conan环境搭建

Windows conan环境搭建 1 安装conan1.1 安装依赖软件1.1.1 python安装1.1.2 git bash安装1.1.3 安装Visual Studio Community 20191.1.3.1 选择安装的组件1.1.3.2 选择要支持的工具以及对应的SDK 1.1.4 vscode安装 1.3 验证conan功能1.4 查看conancenter是否包含poco包1.5 查看…

3DMAX渲染AO图的三种方法

3DMAX渲染AO图的三种方法 使用Mental Ray渲染AO 1. 我为这个演示制作了一个非常简单的场景。该场景包含一个茶壶、一个盒子和一个球体。我还应用了一些材质,并将渲染引擎设置为Mental Ray。 2. 我还在场景中添加并定位了几个泛光灯。 3. 我选择了Mental Ra…

算法笔记-其他高效的技巧与算法(未处理完)

算法笔记-其他高效的技巧与算法 前缀和 前缀和 #include <cstdio> #include <vector> using namespace std; const int MAXN 10000; int n, a[MAXN]; int sum[MAXN] { 0 };int main() {scanf("%d", &n);for (int i 0; i < n; i) {scanf("…

weblogic控制台登陆console的时候慢

我们在搭建完weblogic后&#xff0c;登录控制台时&#xff0c;会出现等待很长时间的情况。 如下图&#xff1a;怎么解决呢 连接所属服务器,.找到jdk的安装路径 [rootlocalhost lib]# echo $JAVA_HOME/ /usr/java/jdk1.8.0_161/ 进入jre下的lib目录下的security目录&#xff0…

如何使用PHPStudy本地快速搭建网站并实现远程访问

文章目录 [toc]使用工具1. 本地搭建web网站1.1 下载phpstudy后解压并安装1.2 打开默认站点&#xff0c;测试1.3 下载静态演示站点1.4 打开站点根目录1.5 复制演示站点到站网根目录1.6 在浏览器中&#xff0c;查看演示效果。 2. 将本地web网站发布到公网2.1 安装cpolar内网穿透2…

java实现选择排序

算法步骤 首先在未排序序列中找到最小&#xff08;大&#xff09;元素&#xff0c;存放到排序序列的起始位置再从剩余未排序元素中继续寻找最小&#xff08;大&#xff09;元素&#xff0c;然后放到已排序序列的末尾。重复第二步&#xff0c;直到所有元素均排序完毕。 动图演…

MacOS下VMware Fusion配置静态IP

前言 在虚拟机安装系统后&#xff0c;默认是通过DHCP动态分配的IP&#xff0c;这会导致每次重启虚拟机ip都可能会改变&#xff0c;使用起来会有很多不便。 配置静态IP 查看主机网关地址 cat /Library/Preferences/VMware\ Fusion/vmnet8/nat.conf 查看主机DNS&#xff0c;m…

【数据结构】堆详解!(图解+源码)

&#x1f3a5; 屿小夏 &#xff1a; 个人主页 &#x1f525;个人专栏 &#xff1a; 数据结构解析 &#x1f304; 莫道桑榆晚&#xff0c;为霞尚满天&#xff01; 文章目录 &#x1f324;️前言&#x1f324;️堆的理论☁️二叉树的顺序存储☁️堆的概念 &#x1f324;️堆的实现…