半年小结 Vol3. 在大大的半导体行业挖呀挖

news/2025/1/7 9:39:15/文章来源:https://www.cnblogs.com/devil-sx/p/18653329

“做硬件,核心不在硬件”,这半年历程得出了这么似乎有违常理的结论。

做硬件是工程!工程!工程!

做芯片是工程科学,而非纯理论科学。它有很多人为历史因素,并不是绝对客观的,整个系统更偏向有状态的动态系统,这与做纯理论科学研究是不同的。做工程很多时候,你做出来的东西并不是发现了某种普适定律,而是投资某条技术路线,填坑式地在 design space。我们做研究很多时候并不是因为发现了新的机理,而是因为我们现在有工程能力了,有技术积累了,所以能做下一步。比如 VLIW 架构,它提出的思想非常前瞻,但打不过传统体系的原因是因为它整个系统软件栈的成本故事说不通,也就是无法打过过往传统体系软件栈累积的存量。所以做工程是一个存量+增量的竞争。比存量,要打过整个社会生态、整个技术路线。最终应用的标准是能够在满足收支平衡,满足成本的故事。这个成本不仅是对硬件而是对于整个上下游生态而言。

硬件是工程,软件也是工程。但硬件的工程固定成本更高,这本质是源自硬件系统复杂性。硬。“一道工序的良率是99%,一千道工序的良率就是0.004%;一道工序的良率是99.99%,一千道工序的良率就是13.5%”,半导体前端、后端、制造、封装、测试层层加码,单纯前端 RTL 编码的复杂性就以超过软件编程,整个系统的复杂度已然产生了质变。导致它对现有路线的依赖更加强烈,更加保守。这种情况下,一个新兴的研究如果不讲通这个成本故事,是无法长期发展的。或者说这是个必要条件,你必须要能够讲通这么一个成本故事,你这个研究材的利益住。这是做硬件研究的最大的一个特点,它的高成本导致它的研究必须要去更多的侧重于商业化的诉求。芯片高额的固定成本必须大规模量产才能压成本,新型设计的潜在价值上限无法衡量,但成本规定了应用下限。结合流片成本开销以及市场同类竞品的价格,在出发前大致就能计算出收支平衡下至少需要卖出多少片才能存活下去,之前计算的数据,数字芯片单纯要超过 FPGA,就得卖出数千片,实际预估应该再高出一点数量级[1]

市场由两只大手控制,无形大手逻辑依据更低的成本实现更高价值实现资源配置。最高价值可以在这里用定性解释为就是实现更多、更强大的功能。一个系统有更强的功能,那么我有两种思路去做,我是在硬件上去做还是在软件上做,比如是让硬件管理存储(Cache)还是让程序员去管理(Scratchpad)。软件开发成本远远低于硬件,所以很多时候这个造成了为了实现更多功能,会把硬件做更加普适,硬件牺牲了一部分的效能去换取软件上编程的自由性,这样就可以实现相同价值的情况下减少系统整体成本。这也是为什么有说“硬件一软件九”这种说法,一个硬件工程师要配九个写软件栈的人。

我们怎么去控制这么一个边界呢?什么事情我们要去靠硬件去做,什么事情交给软件去做更加合适?我们进一步问两个问题:第一个问题是什么只有硬件能做,第二个问题是什么值得硬件去做。

第一个问题即在现有软硬件体系里面有什么东西软件是无法做到的。这一点非常容易成立,因为现有体系下都是幸存者,已经说通了商业故事,它一定是牺牲了它这么一个特殊性换取普适性。那么做专用硬件很容易在这个点上去立住,这个专用性的硬件一定会带来一些这种现有硬件达不到一个上限。这是一个幸存者偏差,这一点并不是那么重要。

第二个问题并不是说以性能为判断标准,而是以商业故事成立为判断标准。也就是这个时候我无论加多少软件都不会使这个蛋糕变得更大,就必须投资硬件了。好比说我们做一个专用化硬件,把它做专用化之后性能是提升了,在这个垂直领域它的一个收益更高了。但反过来说他做专用化之后他去损失了他们的通用性,那么在其他领域他这个边界变窄了导致他总体蛋糕变小了,这是不值当的。系统有两个自变量,硬件投资 \(H\) 和软件投资 \(S\) ,而收益是 \(F\),值得硬件来做的标准当前系统下 \(\frac{\partial F}{\partial H} >> \frac{\partial F}{\partial S}\)

软硬件相互都有约束作用[2],值得硬件去做还有一种可能即使当前投资收益不成立,但能降低软件成本,在长期上使得投资效益更大。也就是说要对这个编程友善,硬件的设计能够去造福软件人员,把一部分 Dirty Work给 让硬件给做了。产业发展会经过一个周期,早期的时候可能是高成本的一个投入低利润扩大市场,市场打大之后转而想办法降低成本,现在 AI 硬件也有这么一个趋势,早期都是 scratchpad memory 最近而开始看到 cache 的工作了。

硬件研究的黑暗森林

再说个人研究上吧。本身硬件设计是有一个先后的。要更多从上下游去发现问题,发现哪些是真问题,对上下游的认知可能会比硬件本身更加重要。因为如果做的不是一个真问题的话,后面一切的努力都是没有用的。而确定研究的边界会又比测量手段更加重要,比如某种问题在单芯片中会出现,而在多芯片下又不是问题了,又比如很多专门对某种算子做优化工作,比如对 MVM、对 Attention,经过优化后原本占据大头的问题在端到端的表现里反而又不够重要了。Admal's Law 告诉我们要解决最重要的问题,但问题的重要性本身也是会随着问题的条件以及时间演变的。

发现问题下一步是分析问题。那么这个就难了,因为硬件本身是复杂的,一个性能它受很多这个具体的一个变量的影响,比如说一个单核 profiling 工具 Timeloop 的建模方式,它有几个 splitted buffer,每个 splitted buffer 的变量分配策略是什么样的,每个 buffer 有多少容量, buffer 这个带宽位宽有多少,那么我们的 PE 有多少,我们 PE 之间的互联是什么样的,那更别说工艺影响都是当一个变量去给它除掉的,这还是单个 kernel,如果做更大尺度的 fused operation 又要考虑多少因素?举这么一例就是说明我们硬件是非常复杂的, 它是在这么一个特殊的硬件下得到一个特殊的结果。

硬件又是封闭的,首先要去保证在现有硬件系统GPU 做测量,怎么去做一个公正结果。第一个去除掉非硬件以外开销,比如说和CPU同步的开销,其实可以通过一些这个 Profiling 工具比如 Nightsight去找出来,那么第二步就困难了,去除通用性的开销。一般文章以 GPU 比较时当作黑盒,列举 buffer 容量、PE 数量、DRAM 带宽这些基础硬件资源,稍微深入点可能会比较每个 SM 的资源比例,但更深入的机制性能开销是无法知道的。如果直接拿定制结果和通用结果比较占据优势,并不能够证明研究本身这个创新点它多么强大,因为在出发之前把这个领域就缩小了,不能排除结果是因为创新点本身有效,还是单纯去除通用性就可以提升这么多的效能。这个是一个非常难的地方,最好的一个比较是两个架构能支持相同的一个通用的软件栈下去做改进,这个时候改进是很标准的。GPU 自 13 年最后一版 GPGPU-Sim 后一直保持着神秘的面纱[3], GPU 是黑盒你无法去打开它,如果做新兴定制硬件创新点,就必须要面对通用性的问题。

硬件的复杂性和封闭性导致很难建模,建模需要相当的人力,甚至超过硬件设计实现本身。所以现有很多文章的结果大概率不是客观公平的。学术界也是受看不见的大手调控,是朝着更小成本更多价值去做的。发文章首要目的并不是为了让研究有意义,而是为了发文章本身。因此,总体上会牺牲公平比较的建模成本,去实现更多成果。只要这个底层逻辑和游戏规则存在,就会形成这种现象。先前我常常会吐槽,这个工作哪里没有做好,这个代码赶工痕迹明显复现添加了很多成本,不应该去抱怨别人工作做得不好,而是把它当作一个客观普遍现象去认识,你自己去做也会有这种问题。学术圈的游戏规则导致了工程本身就不是为了可维护发展的。同样这种现象对硬件人员的软件功底提出了更高要求,很多时候做实验的工程量在修改甚至重写底层软件上。

由半导体行业性质、由商业竞争所树立黑暗森林是永远存在的,只能以这个为前提开展研究。现在想到法子只能一边多从软件侧了解现有体系运作机理,另一边在开题前多思考各种创新点起效果的最底层机理。之前我去港科和朋友唠嗑,聊到 Chiplet 和多卡系统集成,朋友反问到:“它们本质有什么不同呢?”

特别是判断问题不是新问题的时候,更要谨慎,为什么之前没有人做过?因为你所占的视角你是会比公司更窄的,研究生都是一些20多岁出头本科毕业的学生,公司里面都是在这个行业干了十多年的职业工程师,其次研究都是小团队,而业界人数几千人几万人这么一个大规模公司,且业界天然和学界有信息差。这个时候怎么能保证这个创新点别人没有想过呢,大概率都是想过的。所以你想到一个东西大概率别人都想过,但是为什么没人做呢。

拔剑四顾心茫然

说完研究,接下来就说一说个人吧。这半年心态上很挣扎迷茫,用申论来总结是“对所从事工作产生价值的期望与客观见识狭窄力量不足之间的矛盾”。

一方面是受大环境影响的迷茫,年轻人丧失了一种叙事的价值。中国学生大都受优绩主义熏陶培养,带有竞争意识的,不是要“成”,而是要“赢”,是基于比较的。现在高速经济增长的惯性已经退去了,逆全球化趋势愈加明显,指望技术进步做大蛋糕并不现实,很多时候面临的问题是明天不一定更好,到个体上就会变成被迫卷等等。而高度分工化的社会又导致绑定了自己的价值在工作之上。另一方面是在研究上的迷茫,没能在重资本的业界缝隙下找到适合研究的价值,就如最有效的 AI 技巧可能仅仅是提高规模这个可悲的事实。业界一边高歌 AI 的影响画大饼,一边又通过供需就业把研究人员绑上了这辆快速向前的大车。最后一方面则是研究生活本身带来的,比如孤独的工作环境以及进入社会后社交的高成本焦虑。

诚然我现状就是一个刚本科毕业的学生,很多问题也许交给时间处理。但愈发感觉,很大部分情绪将长期与之抗争,因此迫切地寻求一个较优解。相关的迷茫不宜说太多,这篇 blog [4]非常有共鸣。

“斗志” 这半年愈发感觉这个词的分量。直观体现便是领导团队,因为领导者在团队中管理面是最广的,看到的问题是比任何一个手下的人看得更全面的。而且你做非常前沿的东西,你会知道他有很多困难在里面,这个时候你会比任何人都更加担忧这个项目进展,但是你不能把这种心态去反映到你的表现上,从而正反馈导致这个事情办不成。要一边扛着这个项目潜在风险的压力,一边以积极心态鼓舞下带领整个团队去攻克这个问题。不仅是领导团队,本身这是一场持久战,很多方方面面,最终又归结到了斗志上,或者说信仰、希望、期望。这些是几进纯主观而非来自客观的动力信心,这一点会比任何技能技术更加强大和重要。

惯例总结一下

情商、智商,“商”这一字怎么解释?先前看到一种说法将“商”解释为适应力,对智力问题的适应能力,对情感问题的适应能力。希望 25 年,对社会适应的 “商” 高一点,心理迷茫的“熵”小一点吧!


  1. https://www.cnblogs.com/wujianming-110117/p/15881735.html ↩︎

  2. https://arxiv.org/abs/2009.06489 ↩︎

  3. 从外部猜测 Hopper 内部机制工作 https://arxiv.org/html/2402.13499v1 ↩︎

  4. https://medium.com/@aianon/200bn-weights-of-responsibility-e67f98b7a081 ↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/864402.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【嵌入式编程】内存分布

一、内存分布图在操作系统中,内存被组织和管理以支持进程的运行。以下是一些常见的内存分布概念: 【内核空间】:操作系统内核使用的内存区域,用于存储内核代码、数据结构和进程控制块(PCB)。【用户空间】:存储用户的代码。未初始化变量区(.bss):存放未初始化的全局变量…

北京健康证(立水桥地铁站附近)

体检:记得带身份证就可以,最好自带一支笔,用他的笔要排队,我买的是96的,带培训证的。 下面这个表只填:身份证号,手机号,姓名就可以,类别、是否培训以交钱时候前台登记的为准,照片也不采集,直接用身份证上的相片

北京健康证

体检:记得带身份证就可以,我买的是96的,带培训证的。 下面这个表只填:身份证号,手机号,姓名就可以,类别以交钱时候前台登记的为准,照片也不采集,直接用身份证上的相片

anaconda安装与环境配置

一、Anaconda简介 ​ Anaconda 是专门为了方便使用 Python 进行数据科学研究而建立的一组软件包,涵盖了数据科学领域常见的 Python 库,并且自带了专门用来解决软件环境依赖问题的 conda 包管理系统。主要是提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、…

java学习报告

Java学习报告 目录 第一章 初识java与面向对象程序设计 1 第二章 java编程基础 3 第三章 面向对象程序设计(基础) 13 第四章 面向对象程序设计(进阶) 15 第五章 异常 17 第六章 java常用类 1720 初识java与面向对象程序设计Java概述计算机编程语言发展史“计算机之父”冯诺…

PyTorch Geometric框架下图神经网络的可解释性机制:原理、实现与评估

在机器学习领域存在一个普遍的认知误区,即可解释性与准确性存在对立关系。这种观点认为可解释模型在复杂度上存在固有限制,因此无法达到最优性能水平,神经网络之所以能够在各个领域占据主导地位,正是因为其超越了人类可理解的范畴。 其实这种观点存在根本性的谬误。研究表明…

25. K 个一组翻转链表(难)

目录题目法一、模拟--迭代法二、递归 题目给你链表的头节点 head ,每 k 个节点一组进行翻转,请你返回修改后的链表。 k 是一个正整数,它的值小于或等于链表的长度。如果节点总数不是 k 的整数倍,那么请将最后剩余的节点保持原有顺序。 你不能只是单纯的改变节点内部的值,而…

OpenWrt 系统UCI详解(Lua、C语言调用uci接口实例)

1 UCI简介 “uci"是"Unified Configuration Interface”(统一配置界面)的缩写,用于OpenWrt整个系统的配置集中化。 很多后台服务有自己的配置文件,并且配置文件格式都不相同,OpenWrt系统中需要开启各种服务,为了解决配置不兼容的问题,统一采用uci格式的配置文件。…

macbook 双系统win7忘密码 解决办法 通用

1开机出现以下图片按开机键强制重启2选择这一个3跟着选择4等待时间较长5继续678点击计算机9选择c盘10选择Windows进入system32文件夹11右键修改名字 将sethc 修改为sethc112然后键盘上输入cmd13将cmd名字修改为sethc 14关掉所有点击完成 15然后开机来到登录界面 按5次shift 次数…

GoLang 2024 安装激活详细使用教程(激活至2026,实测是永久,亲测!)

开发工具推荐:GoLang 安装激活详细使用教程(激活至2026,实际上永久,亲测!)申明:本教程 GoLang 补丁、激活码均收集于网络,请勿商用,仅供个人学习使用,如有侵权,请联系作者删除。若条件允许,希望大家购买正版 ! GoLang是JetBrains公司推出的一款功能强大的GO语言集成…

数值计算方法(3) 数值微分方法

+++ date = 2024-12-21T15:45:47+08:00 draft = true title = 数值计算方法(3) 数值微分方法 +++ 初次发布于我的个人文档 上一期讲了数值积分方法,这一次自然是要讲数值微分方法的,不然太不完善了。 更何况数值微分方法其实是基于数值积分方法得到的。 我们先从比较简单的估…

.Net NativeAOT另外一种选择-bflat

https://www.qiufengblog.com/articles/dotnet-native-bflat.html前言 说起bflat,还得先说NativeAOT,在.Net 7时,正式把NativeAOT合到Runtime中,地位是明显上升了,对NativeAOT的代码提交也越来越多了,之前还是corert时,几年也没有太大的进展. 这个时候的成果还是有ILC(ILCompil…