你应该知道的C语言Cache命中率提升法

在这里插入图片描述
C语言因其对内存的精细控制和高执行效率而在业界长盛不衰。但是,同样的语言不同的用法导致写出的代码执行效率可能会有很大差异(数量级上的差异)。

今天码哥给大家演示一种因cache命中率导致的效率差异示例。场景非常简单,就是单链表的遍历。

或许有的人会有疑问,单链表的遍历效率还会和cache命中有关吗?

码哥先不透露,我们先来看一段代码:

代码一

/* a.c */
#include <stdio.h>
#include <stdlib.h>
#include <sys/time.h>typedef struct chain_s {struct chain_s *next;
} chain_t;int main(void)
{int i;chain_t *arr = NULL, *c, *p;struct timeval begin, end;/*build*/for (i = 0; i < 8192; ++i) {c = (chain_t *)malloc(sizeof(chain_t));if (c == NULL)exit(-1);if (i % 8 == 0) {if (arr == NULL) {arr = p = c;} else {p->next = c;p = c;}}}/*clean cache*/for (i = 0; i < 999999; ++i) {c = (chain_t *)malloc(sizeof(chain_t));if (c == NULL)exit(-1);c->next = NULL;}/*scan*/gettimeofday(&begin, NULL);for (c = arr; c != NULL; c = c->next);/*do nothing*/gettimeofday(&end, NULL);printf("%lu(us)\n", (end.tv_sec*1000000+end.tv_usec)-(begin.tv_sec*1000000+begin.tv_usec));return 0;
}

代码很简单,一共分为三部分:

  1. 构造单链表,我会分配8192个链表节点,但是只有可以被8整除的节点才会加入链表,换言之,有1024个节点加入链表。
  2. 因为构造链表时必然会存在cache缓存,我们额外分配999999个节点,用来尽可能的洗掉构造时的缓存。
  3. 遍历链表并统计时长。

那么这段代码在码哥的虚拟机环境中运行的结果如下:

$ ./a
58(us)

这个时间是多次执行程序后找出的平均时间。

那么,问题来了,这样的链表遍历效率是否有可能再提升呢?

答案是,有的。我们来看下一段代码:

代码二

/* b.c */
#include <stdio.h>
#include <sys/time.h>
#include <stdlib.h>typedef struct chain_s {struct chain_s *next;
} chain_t;int main(void)
{int i;chain_t arr[1024], *c;struct timeval begin, end;/*build*/for (i = 0; i < sizeof(arr)/sizeof(chain_t); ++i) {if (i < sizeof(arr)/sizeof(chain_t)-1)arr[i].next = &arr[i+1];elsearr[i].next = NULL;}/*clean cache*/for (i = 0; i < 999999; ++i) {c = (chain_t *)malloc(sizeof(chain_t));if (c == NULL)exit(-1);c->next = NULL;}/*scan*/gettimeofday(&begin, NULL);for (c = arr; c != NULL; c = c->next);/*do nothing*/gettimeofday(&end, NULL);printf("%lu(us)\n", (end.tv_sec*1000000+end.tv_usec)-(begin.tv_sec*1000000+begin.tv_usec));return 0;
}

同样的链表结构,同样的缓存清除和遍历代码。不同之处在于构建部分。这一次,我们是在栈上创建了1024个链结点数组,然后将数组元素构建成了一条单链表。链表节点数与上一段代码中构建的链表节点数是一致的。

那么这段代码中遍历链表的时间又是多少呢?

$ ./b
5(us)

同样是执行多次程序的平均时间。

可以看到,两段代码足足差了一个数量级。但是相信大家在看完代码后也明白了差异缘何。

分析与结论

效率的提升源自于链表的构建,确切的说,源自于链表节点地址的连续性。

在第二段代码中,链表节点是从一片连续空间中顺序取出的,因此扫链表与顺序访问数组元素并无区别。当我们访问数据时,如果数据未在缓存中命中,那么是会将该数据及其后一部分(与cache line大小有关,不额外展开了)数据加载进cache中的。因此,访问一个数据会将其后连续的一部分数据访问效率连带提升。

这两段代码在我们实际项目中又有何启发呢?

我们常见的高并发网络中,即便用到链表,但链结点地址通常都是不连续的,因为连接的释放和分配时机相对随机。

那么我们有没有可能尽可能让这些节点保持连续性呢?

当然可以,这就是为什么要构造内存池的一个原因了。让一类需要高效访问的结构走内存池进行统一管理,可以大幅提升程序执行效率。

当然,内存池还有额外的好处就是可以统一释放回收内存,例如Nginx中,经常看到我们ngx_alloc,但不见free的缘由,因为在连接断开时,Nginx做了统一的释放。


欢迎喜欢的朋友关注码哥,也可以在下方给码哥留言评论。谢谢观看!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/285850.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据分析基础之《numpy(4)—ndarry运算》

一、逻辑运算 当我们要操作符合某一条件的数据时&#xff0c;需要用到逻辑运算 1、运算符 满足条件返回true&#xff0c;不满足条件返回false # 重新生成8只股票10个交易日的涨跌幅数据 stock_change np.random.normal(loc0, scale1, size(8, 10))# 获取前5行前5列的数据 s…

大模型评估中Pass@k值是如何计算的

在前面的博客中分别介绍了大模型评估过程不同指标的含义&#xff0c;以及如何通过代码&#xff0c;实现指标的收集。如果对如何运行代码生成结果和收集passk指标不清楚&#xff0c;可以参考这两篇博客。 如何对大模型进行评估上 如何对大模型进行评估下 Passk的来源 代码的生…

Elasticsearch 向量相似搜索

Elasticsearch 向量相似搜索的原理涉及使用密集向量(dense vector)来表示文档,并通过余弦相似性度量来计算文档之间的相似性。以下是 Elasticsearch 向量相似搜索的基本原理: 向量表示文档: 文档的文本内容经过嵌入模型(如BERT、Word2Vec等)处理,得到一个密集向量(den…

【Spring】12 EmbeddedValueResolverAware 接口

文章目录 1. 简介2. 作用3. 使用3.1 创建并实现接口3.2 配置 Bean3.3 创建启动类3.4 启动 4. 应用场景总结 Spring 框架提供了许多回调接口&#xff0c;以便开发者在 Bean 的生命周期中执行一些特定操作。其中之一是 EmbeddedValueResolverAware 接口&#xff0c;本文将深入探…

单片机LCD1602

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、LCD1602是什么&#xff1f;二、LCD1602 原理三、显示一个字符四、如何显示四位数五、参考历程六、封装成一个显示 字符和一个显示任意四位数的函数总结 前言…

基于ssm防疫信息登记系统的设计与实现论文

摘 要 现代经济快节奏发展以及不断完善升级的信息化技术&#xff0c;让传统数据信息的管理升级为软件存储&#xff0c;归纳&#xff0c;集中处理数据信息的管理方式。本防疫信息登记系统就是在这样的大环境下诞生&#xff0c;其可以帮助管理者在短时间内处理完毕庞大的数据信息…

回溯算法之棋盘问题hard

12.18 51N皇后 题目&#xff1a; 思路&#xff1a; &#xff08;1&#xff09;用回溯的思想寻找每一行皇后的位置 &#xff08;2&#xff09;皇后位置的约束&#xff0c;创建一个新函数。使得与之前行的皇后不在同一列或斜线 &#xff08;3&#xff09;45度斜线行列和相等&…

系统设计——系统安全

HTTPS 是如何工作的&#xff1f; 安全超文本传输​​协议&#xff08;HTTPS&#xff09;是超文本传输​​协议&#xff08;HTTP&#xff09;的扩展。HTTPS 使用传输层安全性&#xff08;TLS&#xff09;传输加密数据。如果数据在网上被劫持&#xff0c;劫持者得到的只是二进制…

CRM客户登记管理系统:企业数字化转型的必备工具

客户登记管理系统&#xff08;CRM&#xff09;是一种用于记录和管理客户信息的软件系统。它用于存储和跟踪客户的基本信息、联系方式、交易历史、服务请求等关键数据&#xff0c;以便企业能够更好地了解客户、提供个性化的服务&#xff0c;并进行有效的销售和营销活动。 CRM系统…

迅为RK3588开发板瑞芯微国产化工业ARM核心板AI人工智能

性能强 iTOP-3588开发板采用瑞芯微RK3588处理器&#xff0c;是全新一代AloT高端应用芯片&#xff0c;采用8nm LP制程&#xff0c;搭载八核64位CPU&#xff0c;四核Cortex-A76和四核Cortex-A55架构&#xff0c;主频高达2.4GHz&#xff0c;8GB内存&#xff0c;32GB EMMC。 四核心…

用于噪声和分段相位测量的鲁棒相位展开算法(全文翻译-2区Optics Express)

摘要&#xff1a;本文提出了一种在存在噪声和分段相位的情况下进行相位展开的鲁棒相位展开算法&#xff08;RPUA&#xff09;。RPUA方法提出了一种新的相位导数模型&#xff0c;结合纠错迭代来实现抗噪声效果。此外&#xff0c;它使用数值载波频率和条纹外推法在空间域中桥接相…

vp与vs联合开发-通过FrameGrabber连接相机

添加控件 1.CogRecordDisplay 控件 用于显示图像 初始化相机对象方法 //启动窗体时 调用初始化相机方法 //封装相机关闭方法 //窗体关闭时 调用相机关闭方法 拍照 设置采图事件 // 保存图像 设置曝光按钮事件 1.可变参数