冷热字段分离提升程序局部性-编程知识

冷热字段分离提升程序局部性

news/2025/2/22 2:33:10/文章来源:https://blog.csdn.net/qq_49588762/article/details/135046831

突然想起了上学期课堂上的一个提升程序局部性的案例，我觉得非常有意思，写篇博客记录一下。

1 场景

案例场景非常简单，就是遍历访问大结构体数组的某一字段。对应到下图，funcA要访问a[N]的fld3字段，funcB中要访问b[N]的fld5字段。

在这里插入图片描述

在这个场景中，程序要访问的结构体数组很大（单个结构体要占用600B内存），然而，要访问的字段却很小，大约1B-4B。总结来说，就是，大结构体数组，按行存储，按列访问。

在这里插入图片描述

这段程序的问题是，超过90%进入cache的数据不会被利用。在当前主流架构下，cache line的大小是64B，一次加载的粒度自然也是64B。那么，在这种场景下，缓存到cache的绝大部分数据是无效数据。一方面，这会对程序没有发挥出最好的性能；另一方面，无效的数据移动会带来很大的能量消耗，在嵌入式场景下，application对能耗还是很敏感的。

在这里插入图片描述

2 改进

其实，要解决这个问题，思路很简单，就是要把结构体数组中的热字段放在一块，冷字段放在一块。这样的话，cache命中率自然就提升上去了。

2.1 手工调整数据结构

这种方法简单粗暴，理论上没啥问题，就是有点费程序猿。具体来讲，有两种方法。

2.1.1 方法1

这种方法是在结构体内存调整字段顺序，将热字段靠拢放置。就比如，下图struct A中的fld3和fld5是热字段，把两者放在一块就好了。这样一次cache line加载就可以将两个字段同时放入cache。

在这里插入图片描述

这种方法存在问题
- 一个结构体中所有热字段可能不够64B，cache还是会加载很多的无效数据。
- 结构体中可能会嵌有很多子结构体，不同子结构体的热字段无法并拢。
- 调整后字段顺序后的代码可读性下降。

2.1.2 方法2

这种方法重构了结构体，将热字段单独成立一个结构体，冷字段成立成另外一个结构体。如下图，struct A被拆分为了struct A hot和struct A cold，这样的话，热字段fld3就可以放在一块了，cache line加载可以最大程度上避免冷数据放入cache。

在这里插入图片描述

这种方法存在问题
- 重构结构体，调整字段顺序，代码可读性大大下降。
- 源代码改造涉及面广，人工修改工作量巨大，易错。

2.2 自动代码变形

另外一种思路是做自动化工具，也就是做一个编译器，这个编译器自动帮我们进行冷热字段分离，这比手工改的逼格高得多了。具体来讲，也有两种方法。

2.2.1 源到源编译器

这种方法其实就是把手工调整数据结构的方法2进行自动化实现：输入.h\.c源代码文件，输出优化后的.h\.c源代码文件。

在这里插入图片描述

这种方法存在问题
- 源代码中的程序写法千变万化，自动化工具要识别出所有的写法有点不大现实。

2.2.2 IR2IR编译器

这种方法的思路是，既然在源代码层不好做自动化工具，那就考虑改IR，毕竟IR要规整的多。如下图，自动化工具会先运行一遍程序，识别出热字段，然后，在IR层修改，输出优化后的二进制程序。

在这里插入图片描述

使用IR2IR编译器优化后的程序，运行时间由6.9ms提升至6.7ms，提速了3%。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/283692.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

风格随心选，AGI 让家居行业实现「秒级整装」内容营销

风格随心选，AGI 让家居行业实现「秒级整装」内容营销

家居行业的营销方式正在不断变化，从面向大牌代言、广告覆盖的品牌化营销，发展成了面向个性化消费者的多元化营销。过去，家居消费者也许更看重产品材质，那是品味的彰显；如今，颜值即正义，消费者则…

阅读更多...

教你如何阻止垃圾软件自动安装丨这几种方法可以参考

你遇到电脑自动安装乱七八糟软件的问题吗？面对这种情况，大多数人都会抱怨“这什么破电脑啊？”，然而造成这个问题的罪魁祸首还是用户自己。下载安装时要注意： 我们安装软件的时候，如果不注意默认勾选了插件…

阅读更多...

STM32 TIM定时中断设计

STM32 TIM定时中断设计

单片机学习目录文章目录一、定时器定时中断设计步骤二、定时器配置 1.RCC开启时钟 2.选择时钟源 3.配置时基单元 4.配置输出中断控制 5.配置NVIC 6.运行控制三、设计中断函数总结一、定时器定时中断设计步骤定时中断基本框架结构图： 根据结构图可按步骤配置…

阅读更多...

人工智能知识蒸馏：模型精简与迁移的奇妙之旅

导言在人工智能领域，知识蒸馏作为一种模型精简和知识迁移的技术手段，逐渐成为提高模型效能和适应更广泛场景的关键工具。知识蒸馏是近年来在深度学习领域备受瞩目的技术，其通过将大模型的知识传递给小模型，旨在实现模型的轻量化与…

阅读更多...

patchless amsi学习（中）

patchless amsi学习（中）

DR7 DR7被称为“调试控制寄存器”，允许对每个硬件断点进行精细控制。其中，前8位控制是否启用了特定的硬件断点。偶数位（0、2、4、6）称为L0-L3，在本地启用了断点，这意味着仅在当前任务中检测到断点异常时才…

阅读更多...

基于Java SSM框架实现人事员工考勤签到请假管理系统项目【项目源码+论文说明】计算机毕业设计

基于Java SSM框架实现人事员工考勤签到请假管理系统项目【项目源码+论文说明】计算机毕业设计

基于java的SSM框架实现人事员工考勤签到请假管理系统演示摘要在高速发展的时代，众多的软件被开发出来，给用户带来了很大的选择余地，而且人们越来越追求更个性的需求。在这种时代背景下，人们对人事管理系统越来越重视&#xff0…

阅读更多...

高新技术企业工时管理的挑战与应对策略

高新技术企业工时管理的挑战与应对策略

随着科技的飞速发展，高新技术企业已成为推动社会进步的重要力量。而在这类企业中，工时管理作为企业管理的重要组成部分，其意义也日益凸显。有效的工时管理不仅关乎企业的项目进度、人力掌控和资源合理配置，还直接影响到企业的研发…

阅读更多...

绝地求生：【PC】第27赛季第1轮更新公告

绝地求生：【PC】第27赛季第1轮更新公告

各位玩家大家好！欢迎收看本期更新公告。正式服维护时间 ※ 下列时间可能会根据维护情况而发生变化。 12月6日上午8:00 – 下午4:30 地图轮换开发者留言：在基于玩家们的反馈意见进行讨论后，我们决定从第27赛季第1轮更新开始引入新的地图轮…

阅读更多...

智能物流解决方案：科聪料箱移动机器人助力高效运输

智能物流解决方案：科聪料箱移动机器人助力高效运输

料箱机器人是一种智能化物流搬运设备，无需借助任何轨道，即可实现多个料箱的智能拣选、存取、搬运。以料箱为存储单元的存储形式，通过信息化系统的统一调度和管理，实现小批量、多批次、高周转率的出入库、拣选等。 ▲料箱机器人现场…

阅读更多...

为什么要使用表单?

为什么要使用表单?

目录 1.与服务器端的数据交互 2. 表单验证 3. 无需JavaScript支持 4. 语义化表单元素的局限性 1. 样式限制 2. 客户端验证的局限性总结: HTML使用表单是为了在Web页面中收集和提交用户输入的数据。表单可以包含多个表单元素，如文本框、下拉列表、单选框和…

阅读更多...

nodejs配置express服务器，运行自动打开浏览器

nodejs配置express服务器，运行自动打开浏览器

查看专栏目录 Network 灰鸽宝典专栏主要关注服务器的配置，前后端开发环境的配置，编辑器的配置，网络服务的配置，网络命令的应用与配置，windows常见问题的解决等。文章目录设置方法：1，安装nodej…

阅读更多...

Endnote在线链接pubmed的时候报错12057：不能连接到吊销服务器，或者未能获得最终响应？

Endnote在线链接pubmed的时候报错12057：不能连接到吊销服务器，或者未能获得最终响应？

Endnote在线链接pubmed的时候报错12057：不能连接到吊销服务器，或者未能获得最终响应？ 问题如下： 解决办法： 在任务栏搜索internet选项并打开选高级，参照下图配置完了之后再去EndNote就不会出现此问题了…

阅读更多...

推荐文章

最新文章