缓存数据一致性探究

缓存是一种较低成本提升系统性能的方式，自它面世第一天起就备受广大开发者的喜爱。然而正如《人月神话》中的那句经典的“没有银弹”中所说，软件工程的设计没有银弹。

就像每一次发布上线修复问题的同时，也极易引入新的问题，自缓存诞生的第一天起，缓存与数据库的数据一致性问题就深深困扰着开发者们。

关键词：原子性、事务性、数据一致性、双写一致性

缓存的查询

先查询缓存，如果查询失败，那么去查询DB，之后重建缓存，基本上不存在异议。

缓存的更新

先更新DB还是先更新缓存？是更新缓存还是删除缓存？在常规情况下，怎么操作都可以，但一旦面对高并发场景，就值得细细思量了。

1、先更新数据库再更新缓存

线程A：更新数据库（第1s）——> 更新缓存（第10s）

线程B：更新数据库（第3s）——> 更新缓存（第5s）

并发场景下，这样的情况是很容易出现的，每个线程的操作先后顺序不同，这样就导致请求B的缓存值被请求A给覆盖了，数据库中是线程B的新值，缓存中是线程A的旧值，并且会一直这么脏下去直到缓存失效（如果你设置了过期时间的话）。

2、先更新缓存再更新数据库

线程A：更新缓存（第1s）——> 更新数据库（第10s）

线程B：更新缓存（第3s）——> 更新数据库（第5s）

和前面一种情况相反，缓存中是线程B的新值，而数据库中是线程A的旧值。

前两种方式之所以会在并发场景下出现异常，本质上是因为更新缓存和更新数据库是两个操作，我们没有办法控制并发场景下两个操作之间先后顺序，也就是先开始操作的线程先完成自己的工作。

如果把它化简，更新时只更新数据库，同时删除缓存。等待下一次查询时命中不到缓存，再去重建缓存，是不是就解决了这个问题？

基于此，后面的两种方案应运而生。

3、先删除缓存再更新数据库

通过这种方式，我们很惊喜地发现，前面困扰我们的并发场景的问题确实被解决了！两个线程都只修改数据库，不管谁先，数据库以之后修改的线程为准。

但这个时候，我们来思考另一个场景：两个并发操作，一个是更新操作，另一个是查询操作，更新操作删除缓存后，查询操作没有命中缓存，先把老数据读出来后放到缓存中，然后更新操作更新了数据库。于是，在缓存中的数据还是老的数据，导致缓存中的数据是脏的。很显然，这种状况也不是我们想要的。

延时双删

在这种方案下，拓展出了延时双删的解决手段。

1.删除缓存

2.更新数据库

3.睡眠一段时间

4.再次删除缓存

加了个睡眠时间，主要是为了确保请求 A 在睡眠的时候，请求 B 能够在这这一段时间完成「从数据库读取数据，再把缺失的缓存写入缓存」的操作，然后请求 A 睡眠完，再删除缓存。

所以，请求 A 的睡眠时间就需要大于请求 B 「从数据库读取数据 + 写入缓存」的时间。

但是具体睡眠多久其实是个玄学，很难评估出来，所以这个方案也只是尽可能保证一致性而已，极端情况下，依然也会出现缓存不一致的现象。

因此，还是不太建议这种方案。

4、先更新数据库再删除缓存（cache aside）

这种方式，在方案3的基础上，又将二者的顺序进行了调换。我们再把前面的场景在这种方案下进行验证：一个是查询操作，一个是更新操作的并发，我们先更新了数据库中的数据，此时，缓存依然有效，所以，并发的查询操作拿的是没有更新的数据，但是，更新操作马上让缓存的失效了，后续的查询操作再把数据从数据库中拉出来。而不会方案3一样，后续的查询操作一直在取老的数据。

而这，也正是缓存使用的标准的design pattern，也就是cache aside。包括Facebook的论文《Scaling Memcache at Facebook》也使用了这个策略。

那么，是否这种方案就是万无一失的完美策略呢？其实也并不然，再来看看这种场景：一个是读操作，但是没有命中缓存，然后就到数据库中取数据，此时来了一个写操作，写完数据库后，让缓存失效，然后，之前的那个读操作再把老的数据放进去，所以，会造成脏数据。