NPU 是什么芯片?AI芯片都有哪些?(上)

NPU 是什么芯片?AI芯片都有哪些?
NPU就是CPU功能细化的产物,就像当年只有CPU一样,发现处理一些简单的重复的任务,特别像游戏这种大量作图时只能用软件算法,效率及其低下,所以发展处的加速卡,发展成为GPU,现在处理一些ai学习算法时都是用GPU软件模拟,效率低下,功耗大,所以又把这部分功能独立出来做成npu,性能更好,功耗更低,但是应用更局限,等以后又有啥专用的领域现在芯片不能满足时,还会出xxpu啥的,是这个意思吗?
人工智能的概念诞生于1956年的Dartmouth学会,麦卡锡在此次会议上正式提出人工智能的概念。人工智能经过半个多世纪的发展,目前已经应用在机器人,语音识别,图像识别,自然语言处理,专家系统等领域。当然还有近几年超火的芯片设计领域,国内AI芯片公司也如雨后春笋般涌现。地平线,燧原,天数智芯,寒武纪,比特大陆.....每家也都推出了自己的芯片产品。
目前市场上的对于AI芯片并无明确统一的定义,广义上所有面向人工智能(Artificial Intelligence,AI),包括Training(训练)和Inference(推理)应用的芯片都可以被称为AI芯片。脑神经图示例,如图2-42所示。
图2-42 脑神经图示例
目前市面上的AI芯片种类太多了,各种PU(process unit)层出不穷,从最常见的CPU,GPU,到现在的BPU,DPU,VPU,NPU等等(当然有一些PU在严格意义上来讲,并不算AI芯片),感觉在命名上,26个英文字母已经快不够了,今天就梳理一下常见的各种PU,看看他们都是如何在各自的领域发挥作用的。
1. APU(Accelerated Processing Units)
中文名字叫加速处理器,是AMD在2011年推出的融聚未来理念产品。它第一次将处理器和独显核心做在一个晶片上,协同计算、彼此加速,使得任务可以灵活地在CPU和GPU间分配,提高效率。
当然,APU也可以指Audio Processing Unit,专门用于处理声音数据的单元。
2. BPU(Brain Processing Unit)
BPU是自动驾驶芯片及解决方案公司研发的一款AI芯片。基于创新的人工智能专用计算架构 BPU,地平线已成功流片量产了中国首款边缘人工智能芯片——专注于智能驾驶的征程(Journey) 1 和专注于 AIoT 的旭日(Sunrise) 1 ;2019 年,地平线又推出了中国首款车规级 AI 芯片征程2和新一代AIoT智能应用加速引擎旭日2 ;2020年,地平线进一步加速AI芯片迭代,推出新一代高效能汽车智能芯片征程 3 和全新一代 AIoT 边缘 AI 芯片平台旭日3。
3. CPU(central processing unit)
CPU的结构主要包括运算器(ALU, Arithmetic and Logic Unit)、控制单元(CU, Control Unit)、寄存器(Register)、高速缓存器(Cache)和它们之间通讯的数据、控制及状态的总线,如图2-43所示。
 
图2-43 CPU的结构单元示例
4. DPU(Deep-Learning Processing Unit)
DPU的概念最早由深鉴科技提出,成立于2016年,其产品则是基于FPGA的处理单元,拥有业界较为领先的机器学习能力,专注于神经网络剪枝、深度压缩技术及系统级优化。2018年被Xilinx收购。
DPU也指Dataflow Processing Unit 数据流处理器, Wave Computing 公司提出的AI架构;Data storage Processing Unit,深圳大普微的智能固态硬盘处理器。
5. EPU(Emotion Processing Unit)
EPU这个词,也是第一次听。EPU是由Emoshape公司提出的。Emoshape是一家致力于提供可教导智能机器与人类互动技术的公司。EPU基于微控制器(MCU)设计,在人工智能(AI)、机器人和消费电子设备中促成近乎无限的认知过程产生真正情绪反应。EPU是Ekman理论的延伸,该理论利用情绪进化理论识别12种主要情绪。
EPU的部分主要功能包括:
1)具有高性能机器情绪意识。
2)在智能机器中创造情绪状态和合成情绪。
3)让人工智能或机器人能够体验64万亿种不同的情绪状态。
4)向其他人工智能技术传送数据,以获得一系列真实的表情和互动,并且全面了解语言和评价。
5)对话准确率高达98%。
6. FPU(Floating Processing Unit)
做浮点运算的模块
7. GPU(Graphics Processing Unit)

可以说这几年GPU太火爆了!国内很多AI芯片公司都是做GPU的。在5年以前,想在国内公司做GPU是很难的,但现在则有很多初创公司进入GPU领域,比如天数,沐曦,景嘉微等。

GPU被广泛用于嵌入式系统、移动电话、个人电脑、工作站和电子游戏解决方案当中。现代的GPU对图像和图形处理是十分高效率的,这是因为GPU被设计为很高的并行架构这样使得比通用处理器CPU在大的数据块并行处理算法上更具有优势。

从硬件设计上来讲,CPU 由专为顺序串行处理而优化的几个核心组成。另一方面,GPU则由数以千计的更小、更高效的核心组成,这些核心专为同时处理多任务而设计。如图2-44所示。

串行运算示意图

 

图2-44 CPU 由专为顺序串行处理而优化的几个核心组成

所以,GPU在图像处理等任务上,有极大的优势,结合自动驾驶等应用场景,使得GPU成为芯片行业的新宠。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/899042.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Nginx 配置与实战

Nginx 是开源、高性能、高可靠的 Web 和反向代理服务器,而且支持热部署,几乎可以做到 7 * 24 小时不间断运行,即使运行几个月也不需要重新启动,还能在不间断服务的情况下对软件版本进行热更新。性能是 Nginx 最重要的考量,其占用内存少、并发能力强、能支持高达 5w 个并发…

《AI芯片开发核心技术详解》、《智能汽车传感器:原理设计应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 4本书推荐

4本书推荐《AI芯片开发核心技术详解》、《智能汽车传感器:原理设计应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《AI芯片开发核心技术详解》已经出版,京东、淘宝天猫、当当等网上,相应陆陆续续可以购买。该…

乐心手环6S拆解

PART1:背景使用了1年多的乐心手环电量终于扛不住了,于是便拆开看看里面使用的方案还有堆叠设计PART2:拆解先来看看乐心手环产品功能和外观照片去掉手环的表带,通过热风枪调至200℃,对这面盖和四周均匀加热至烫手,然后从两边拆开即可分离面盖和主体元器件清单可以看到使用的…

请求响应

apipost插件,用于测试1. 简单参数 通过request手动获取请求参数: @RestController public class easy {@RequestMapping("/easyget")public String easyget(HttpServletRequest request) { //通过request获取参数String name = request.getParameter("name"…

【机器学习面试场景问题】

1、ResNet是什么? ‌ResNet(Residual Network,残差网络)是一种在深度学习领域中非常重要的卷积神经网络(CNN)架构。 ResNet的核心思想是残差学习,通过学习输入与输出的残差,简化优化任务。其关键结构是残差块,通过短连接(Skip Connection)直接跳过部分非线性层,将输…

Linux中删除第一列中指定分隔符最后的一个字段

001、[root@localhost test]# ls a.txt [root@localhost test]# cat a.txt ## 测试数据 00_3 8834 1b_kk ffaa 55_f3_34 8834 aa_bb_kk_44 44aa [root@localhost test]# sed s/\([^ ]*\)_[^ ]\+\t\(.*\)/\1\t\2/ a.txt ## 删除第一列的最后一个字…

2021-PTA总决赛-L2-1 包装机(队列+栈,纯模拟)

栈+队列+模拟题目怎么说就怎么做AcCode: #include<bits/stdc++.h> using namespace std; queue<char> track[110]; stack<char> s; int main(){int N, M, S;cin >> N >> M >> S;for(int x = 1; x <= N; x++){for(int i = 0; i < M; …

2021年-PTA模拟赛-L2-2 三足鼎立(二分查找+思路)

二分查找,三边关系,STL库函数思路:把国家实力都存入数组中,排序后,遍历。 在for循环中,可以将问题简化成,已知两边,求另一边的取值范围,然后在数组里面使用二分查找,找到这个区间,这个区间在我的代码中是前闭后开区间,因此r - l就是一次循环得到的符合条件的第三边的…

【杭电多校比赛记录】2025“钉耙编程”中国大学生算法设计春季联赛(2)

比赛链接 本文发布于博客园,会跟随补题进度实时更新,若您在其他平台阅读到此文,请前往博客园获取更好的阅读体验。 跳转链接:https://www.cnblogs.com/TianTianChaoFangDe/p/18773190 开题 + 补题情况 很唐的一场比赛,前四个签到题都做了八百年,然后又被博弈论硬控了,10…

每日总结开发简单app

学习的技能/知识 运动 提升 不足学会了用Android Studio开发简单app 20分钟运动 抵住了手机的诱惑,写了3个小时的作业 因为一些情感原因,一上午的课都在走神,收获很少使用Android Studio开发app流程 1.下载Android Studio开发工具,并完成相关配置的下载 2.完成了课堂测试任…

WSL2添加音频驱动

前言 接上一篇,在将USB麦克风接入WSL2后,就想尝试进行录音的操作了。但尝试了之后发现 WSL2 当中缺少音频驱动。 原因 WSL2使用的是微软定制的Linux内核,为了保持轻量级,默认不包含许多硬件驱动,包括音频驱动。即使通过usbipd成功共享了USB设备,WSL2也无法加载必要的音频…

2021年-PTA模拟赛-L2-1 彩虹瓶(栈+模拟)

栈+模拟用栈模拟货架,测试点1不过的,不能不满足就马上break,必须输入完整AcCode: #include<iostream> #include<stack> using namespace std; int main(){int N, M, K;cin >> N >> M >> K;while(K--){stack<int> s; //模拟货架int t = …