冷热字段分离提升程序局部性

突然想起了上学期课堂上的一个提升程序局部性的案例,我觉得非常有意思,写篇博客记录一下。

1 场景

案例场景非常简单,就是遍历访问大结构体数组的某一字段。对应到下图,funcA要访问a[N]的fld3字段,funcB中要访问b[N]的fld5字段。

在这里插入图片描述

在这个场景中,程序要访问的结构体数组很大(单个结构体要占用600B内存),然而,要访问的字段却很小,大约1B-4B。总结来说,就是,大结构体数组,按行存储,按列访问。

在这里插入图片描述

这段程序的问题是,超过90%进入cache的数据不会被利用。在当前主流架构下,cache line的大小是64B,一次加载的粒度自然也是64B。那么,在这种场景下,缓存到cache的绝大部分数据是无效数据。一方面,这会对程序没有发挥出最好的性能;另一方面,无效的数据移动会带来很大的能量消耗,在嵌入式场景下,application对能耗还是很敏感的。

在这里插入图片描述

2 改进

其实,要解决这个问题,思路很简单,就是要把结构体数组中的热字段放在一块,冷字段放在一块。这样的话,cache命中率自然就提升上去了。

2.1 手工调整数据结构

这种方法简单粗暴,理论上没啥问题,就是有点费程序猿。具体来讲,有两种方法。

2.1.1 方法1

这种方法是在结构体内存调整字段顺序,将热字段靠拢放置。就比如,下图struct A中的fld3和fld5是热字段,把两者放在一块就好了。这样一次cache line加载就可以将两个字段同时放入cache。

在这里插入图片描述

  • 这种方法存在问题
    • 一个结构体中所有热字段可能不够64B,cache还是会加载很多的无效数据。
    • 结构体中可能会嵌有很多子结构体,不同子结构体的热字段无法并拢。
    • 调整后字段顺序后的代码可读性下降。
2.1.2 方法2

这种方法重构了结构体,将热字段单独成立一个结构体,冷字段成立成另外一个结构体。如下图,struct A被拆分为了struct A hotstruct A cold,这样的话,热字段fld3就可以放在一块了,cache line加载可以最大程度上避免冷数据放入cache。

在这里插入图片描述

  • 这种方法存在问题
    • 重构结构体,调整字段顺序,代码可读性大大下降。
    • 源代码改造涉及面广,人工修改工作量巨大,易错。

2.2 自动代码变形

另外一种思路是做自动化工具,也就是做一个编译器,这个编译器自动帮我们进行冷热字段分离,这比手工改的逼格高得多了。具体来讲,也有两种方法。

2.2.1 源到源编译器

这种方法其实就是把手工调整数据结构的方法2进行自动化实现:输入.h\.c源代码文件,输出优化后的.h\.c源代码文件。

在这里插入图片描述

  • 这种方法存在问题
    • 源代码中的程序写法千变万化,自动化工具要识别出所有的写法有点不大现实。
2.2.2 IR2IR编译器

这种方法的思路是,既然在源代码层不好做自动化工具,那就考虑改IR,毕竟IR要规整的多。如下图,自动化工具会先运行一遍程序,识别出热字段,然后,在IR层修改,输出优化后的二进制程序。

在这里插入图片描述

使用IR2IR编译器优化后的程序,运行时间由6.9ms提升至6.7ms,提速了3%。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/283692.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

风格随心选,AGI 让家居行业实现「秒级整装」内容营销

家居行业的营销方式正在不断变化,从面向大牌代言、广告覆盖的品牌化营销,发展成了面向个性化消费者的多元化营销。 过去,家居消费者也许更看重产品材质,那是品味的彰显;如今,颜值即正义,消费者则…

教你如何阻止垃圾软件自动安装丨这几种方法可以参考

你遇到电脑自动安装乱七八糟软件的问题吗?面对这种情况,大多数人都会抱怨“这什么破电脑啊?”,然而造成这个问题的罪魁祸首还是用户自己。 下载安装时要注意: 我们安装软件的时候,如果不注意默认勾选了插件…

STM32 TIM定时中断设计

单片机学习 目录 文章目录 一、定时器定时中断设计步骤 二、定时器配置 1.RCC开启时钟 2.选择时钟源 3.配置时基单元 4.配置输出中断控制 5.配置NVIC 6.运行控制 三、设计中断函数 总结 一、定时器定时中断设计步骤 定时中断基本框架结构图: 根据结构图可按步骤配置…

人工智能知识蒸馏:模型精简与迁移的奇妙之旅

导言 在人工智能领域,知识蒸馏作为一种模型精简和知识迁移的技术手段,逐渐成为提高模型效能和适应更广泛场景的关键工具。知识蒸馏是近年来在深度学习领域备受瞩目的技术,其通过将大模型的知识传递给小模型,旨在实现模型的轻量化与…

patchless amsi学习(中)

DR7 DR7被称为“调试控制寄存器”,允许对每个硬件断点进行精细控制。其中,前8位控制是否启用了特定的硬件断点。偶数位(0、2、4、6)称为L0-L3,在本地启用了断点,这意味着仅在当前任务中检测到断点异常时才…

基于Java SSM框架实现人事员工考勤签到请假管理系统项目【项目源码+论文说明】计算机毕业设计

基于java的SSM框架实现人事员工考勤签到请假管理系统演示 摘要 在高速发展的时代,众多的软件被开发出来,给用户带来了很大的选择余地,而且人们越来越追求更个性的需求。在这种时代背景下,人们对人事管理系统越来越重视&#xff0…

高新技术企业工时管理的挑战与应对策略

随着科技的飞速发展,高新技术企业已成为推动社会进步的重要力量。而在这类企业中,工时管理作为企业管理的重要组成部分,其意义也日益凸显。有效的工时管理不仅关乎企业的项目进度、人力掌控和资源合理配置,还直接影响到企业的研发…

绝地求生:【PC】第27赛季第1轮更新公告

各位玩家大家好!欢迎收看本期更新公告。 正式服维护时间 ※ 下列时间可能会根据维护情况而发生变化。 12月6日上午8:00 – 下午4:30 地图轮换 开发者留言:在基于玩家们的反馈意见进行讨论后,我们决定从第27赛季第1轮更新开始引入新的地图轮…

智能物流解决方案:科聪料箱移动机器人助力高效运输

料箱机器人是一种智能化物流搬运设备,无需借助任何轨道,即可实现多个料箱的智能拣选、存取、搬运。以料箱为存储单元的存储形式,通过信息化系统的统一调度和管理,实现小批量、多批次、高周转率的出入库、拣选等。 ▲料箱机器人现场…

为什么要使用表单?

目录 1.与服务器端的数据交互 2. 表单验证 3. 无需JavaScript支持 4. 语义化 表单元素的局限性 1. 样式限制 2. 客户端验证的局限性 总结: HTML使用表单是为了在Web页面中收集和提交用户输入的数据。表单可以包含多个表单元素,如文本框、下拉列表、单选框和…

nodejs配置express服务器,运行自动打开浏览器

查看专栏目录 Network 灰鸽宝典专栏主要关注服务器的配置,前后端开发环境的配置,编辑器的配置,网络服务的配置,网络命令的应用与配置,windows常见问题的解决等。 文章目录 设置方法:1,安装nodej…

Endnote在线链接pubmed的时候报错12057:不能连接到吊销服务器,或者未能获得最终响应?

Endnote在线链接pubmed的时候报错12057:不能连接到吊销服务器,或者未能获得最终响应? 问题如下: 解决办法: 在任务栏搜索internet选项并打开 选高级,参照下图配置 完了之后再去EndNote就不会出现此问题了…