你应该知道的C语言Cache命中率提升法-编程知识

你应该知道的C语言Cache命中率提升法

在这里插入图片描述
C语言因其对内存的精细控制和高执行效率而在业界长盛不衰。但是，同样的语言不同的用法导致写出的代码执行效率可能会有很大差异（数量级上的差异）。

今天码哥给大家演示一种因cache命中率导致的效率差异示例。场景非常简单，就是单链表的遍历。

或许有的人会有疑问，单链表的遍历效率还会和cache命中有关吗？

码哥先不透露，我们先来看一段代码：

代码一

/* a.c */
#include <stdio.h>
#include <stdlib.h>
#include <sys/time.h>typedef struct chain_s {struct chain_s *next;
} chain_t;int main(void)
{int i;chain_t *arr = NULL, *c, *p;struct timeval begin, end;/*build*/for (i = 0; i < 8192; ++i) {c = (chain_t *)malloc(sizeof(chain_t));if (c == NULL)exit(-1);if (i % 8 == 0) {if (arr == NULL) {arr = p = c;} else {p->next = c;p = c;}}}/*clean cache*/for (i = 0; i < 999999; ++i) {c = (chain_t *)malloc(sizeof(chain_t));if (c == NULL)exit(-1);c->next = NULL;}/*scan*/gettimeofday(&begin, NULL);for (c = arr; c != NULL; c = c->next);/*do nothing*/gettimeofday(&end, NULL);printf("%lu(us)\n", (end.tv_sec*1000000+end.tv_usec)-(begin.tv_sec*1000000+begin.tv_usec));return 0;
}

代码很简单，一共分为三部分：

构造单链表，我会分配8192个链表节点，但是只有可以被8整除的节点才会加入链表，换言之，有1024个节点加入链表。
因为构造链表时必然会存在cache缓存，我们额外分配999999个节点，用来尽可能的洗掉构造时的缓存。
遍历链表并统计时长。

那么这段代码在码哥的虚拟机环境中运行的结果如下：

$ ./a
58(us)

这个时间是多次执行程序后找出的平均时间。

那么，问题来了，这样的链表遍历效率是否有可能再提升呢？

答案是，有的。我们来看下一段代码：

代码二

/* b.c */
#include <stdio.h>
#include <sys/time.h>
#include <stdlib.h>typedef struct chain_s {struct chain_s *next;
} chain_t;int main(void)
{int i;chain_t arr[1024], *c;struct timeval begin, end;/*build*/for (i = 0; i < sizeof(arr)/sizeof(chain_t); ++i) {if (i < sizeof(arr)/sizeof(chain_t)-1)arr[i].next = &arr[i+1];elsearr[i].next = NULL;}/*clean cache*/for (i = 0; i < 999999; ++i) {c = (chain_t *)malloc(sizeof(chain_t));if (c == NULL)exit(-1);c->next = NULL;}/*scan*/gettimeofday(&begin, NULL);for (c = arr; c != NULL; c = c->next);/*do nothing*/gettimeofday(&end, NULL);printf("%lu(us)\n", (end.tv_sec*1000000+end.tv_usec)-(begin.tv_sec*1000000+begin.tv_usec));return 0;
}