低功耗UPF设计的经典案列分享-编程知识

案例1

分享个例子，景芯A72低功耗设计，DBG domain的isolation为何用VDDS_maia_noncpu供电而不是TOP的VDD？

答：因为dbg的上一级是noncpu，noncpu下面分成dbg和两个tbnk。

案例2

景芯A72的低功耗，请问，如果iso cell输出都要放parent，输入放self，那么下面-applies_to_outputs对应的-location为何是self?

答：这个需要了解CPU的内部设计架构，tbnk掉电 VDDS_maia_noncpu也必然掉电，pst如下，所以-applies_to_outputs对应的-location是可以的，那么注意下debug domain呢？

实际上，没有tbnk到debug domain的信号，因此脚本如下：

SRAM低功耗

再分享个例子，比如，景芯A72课程的低功耗例子：为何non_cpu的SRAM的VDD VDDM都接的可关闭电源？SRAM的VDD VDDM分别是常开和retention电源呀？

答：本来是VDDM作为retention电源设计的，VDD关掉后 VDDM可以供电作为retention使用，但是此处没有去做memory的双电源，sram当成单电源使用，不然sram无法彻底断电。

景芯SoC低功耗

案列

景芯SoC后端训练营有同学问，为啥PR花了一天一夜24个小时完成布线还大量DRC错误？小编已经将设计规模尽可能减小以加速PR设计，为何这么慢？原因就是低功耗单元的走线。请思考具体原因及解决办法，也欢迎加入景芯训练营实战。

其错误主要集中在M4上，请思考如何解决。

案例

景芯SoC训练营有同学问，power switch cell的secondPG pin(VDDG)从M1接出的，而不是M2, 请思考有什么问题？如何解决？

“2.5GHz频率 hierarchy DVFS低功耗A72培训”

一. 培训内容：

2.5GHz hierarchy DVFS低功耗 A72实战

项目规模315万instance，2000万Gate count。
工具有VCS/Fusion Compiler/VCLP/Redhawk/Voltus
工具有innovus/Starrc/PT/formality/LEC/Calibre
更详细的培训内容参见本文末尾

二. 培训形式：

直播/录播+文档+上机实践，一对一答疑！真实项目flow！
VPN远程连接景芯服务器，随时随地、随到随学！
景芯不仅提供真实项目培训，也提供设计外包、design service！
支持对公,可开培训、技术服务发票

三. 课程教学时间

教学时间3个月，续期直接6折。

四. 适合的对象

追求业界顶尖后端项目能力的后端工程师
初级、中级后端工程师的进阶
前端设计/验证人员（全栈芯片工程师之路）
在校研究生、本科生同学，超越同龄人的法宝
Layout版图工程师
转行的学员朋友

五. 报名方式
关注公众号全栈芯片工程师，后台私信小编。

六. 价格

原价15000元，现价6999元！
转发朋友圈、IC微信群立减100元！
两人以上组团报名每人减500元！
报名截止时间：2024年3月31日！

2.5GHz 12nm DVFS A72后端实战

本培训项目是真实项目，低功耗hierarchy UPF设计，价格是知名机构的1/3，全网最低价。DVFS hierarchy低功耗A72后端实战内容简介如下：

1）根据低功耗需求，编写UPF验证UPF

掌握hierarchy UPF文件编写，掌握Flatten UPF文件编写。

本项目采用hierarchy UPF方式划分了7个power domain、voltage domain，指定power switch cell，其中包括SWITCH TRICKLE、SWITCH HAMMER。掌握低功耗cell的用法，选择合适的isolation cell、level shifter等低功耗cell。

掌握Power gating，Clock gating设计技术。

掌握Multi-VT设计技术，本项目时钟树都是ULVT，动态功耗小，skew小。

掌握DVFS技术，ss0p9 2.5GHz、ss0p72 2.0GHz,，其中sram不支持ss0p63。要做ss0p63的话，给sram vddm单独一个0p7v的电源即可。

掌握multibit cell的用法，本项目CPU里面的mb高达95%，选择合适的multibit cell得到超高的CPU利用率。INNOVUS里面一般不做mb的merge和split。所以前后一样的，一般综合做multibit的merge split。

2）根据top floorplan def进行CPU子系统的partition以及pin assignment。

Top的Power stripe的规划及其push down。

SpecifyBlackBox，将CPU core镜像partition。

手动manual cut the BlackBox的方法，掌握复杂的floorplan设计方法经验。

VerifyPowerDomain，检查低功耗划分以及UPF的正确性。

Pin assignment，根据timing的需求进行合理的pin脚排布，并解决congestion问题。

掌握Timing budget。

掌握利用Mixplace实战CPU的自动floorplan，掌握AI的floorplan方法学。

3）掌握Fusion compiler DCG，利用fusion compiler来完成DCG综合，进一步优化timing与congestion。

4）掌握hierarchy ICG的设计方法学，实战关键ICG的设置与否对timing的重大影响。

5）掌握Stapling技术，实战power switch cell的布局和特殊走线的方法学，掌握CPU子系统的powerplan规划及实现，保证CPU子系统和顶层PG的alignment。

6）掌握CPU子系统和TOP的时序接口优化。掌握TOP isolation cell的placement以及isolation cell input电学特性检查。

7）掌握TOP和CPU子系统的clock tree Balance优化处理，common clock path处理。时钟树结构trace和时钟树评价。

8） DRC/LVS

CPU子系统的DRC/LVS检查

TOP系统的DRC/LVS检查

Hierarchy & Flatten LVS检查原理及实现方法

9）静态时序分析&IR-Drop

DMSA flow

根据Foundry的SOD（signoff doc）的Timing signoff标准建立PT环境。

Star RC寄生抽取及相关项检查

Timing exception分析，包括set_false_path、set_multicyle_path解析。

PT timing signoff的Hierarchical和Flatten Timing检查

PT和PR timing的差异分析、Dummy insertion和with dummy的Timing分析

IR-Drop分析

CPU CORE的IR：

Stampling打起来真是高级手工艺术，全网唯一：

Flow：Partition Flow

时钟结构分析：

复位结构分析：

12nm 2.5GHz的A72实战训练营需要特别设置Latency，TOP结构如下，参加过景芯SoC全流程训练营的同学都知道CRG部分我们会手动例化ICG来控制时钟，具体实现参见40nm景芯SoC全流程训练项目，本文介绍下12nm 2.5GHz的A72实战训练营的Latency背景，欢迎加入实战。

时钟传播延迟Latency，通常也被称为插入延迟（insertion delay）。它可以分为两个部分，时钟源插入延迟（source latency）和时钟网络延迟（Network latency)。

大部分训练营同学表示平时都直接将Latency设置为0了，那latency值有什么用呢？其实这相当于一个target值，CTS的engine会根据你设置的latency值来插入buffer来实现你的latency target值。

下图分为1st Level ICG和2nd Level ICG，请问这些ICG为什么要分为两层？

请问，为什么不全部把Latency设置为0？2nd Level ICG的latency应该设置为多少呢？

latency大小直接影响clock skew的计算。时钟树是以平衡为目的，假设对一个root和sink设置了400ps的latency值，那么对另外的sink而言，就算没有给定latency值，CTS为了得到较小的skew，也会将另外的sink做成400ps的latency。请问，为何要做短时钟树？因为过大的latency值会受到OCV和PVT等因素的影响较大，并有time derate的存在。