• 首页
        • 更多产品

          客户为中心的产品管理工具

          专业的软件研发项目管理工具

          简单易用的团队知识库管理

          可量化的研发效能度量工具

          测试用例维护与计划执行

          以团队为中心的协作沟通

          研发工作流自动化工具

          账号认证与安全管理工具

          Why PingCode
          为什么选择 PingCode ?

          6000+企业信赖之选,为研发团队降本增效

        • 行业解决方案
          先进制造(即将上线)
        • 解决方案1
        • 解决方案2
  • Jira替代方案
目录

高并发场景下,怎么保证缓存和数据库的数据一致性

高并发场景下,保证缓存和数据库的数据一致性:Cache-Aside意为旁路缓存模式,是应用较为广泛的一种缓存策略。在读请求中,首先请求缓存,若缓存命中(cache hit),则直接返回缓存中的数据。

一、高并发场景下,保证缓存和数据库的数据一致性

Cache-Aside

Cache-Aside意为旁路缓存模式,是应用较为广泛的一种缓存策略。在读请求中,首先请求缓存,若缓存命中(cache hit),则直接返回缓存中的数据;若缓存未命中(cache miss),则查询数据库并将查询结果更新至缓存,然后返回查询出的数据(demand-filled look-aside)。在写请求中,先更新数据库,再删除缓存(write-invalidate)。

为什么删除缓存,而不是更新缓存?

在Cache-Aside中,对于读请求的处理比较容易理解,但在写请求中,可能会有读者提出疑问,为什么要删除缓存,而不是更新缓存?站在符合直觉的角度来看,更新缓存是一个容易被理解的方案,但站在性能和安全的角度,更新缓存则可能会导致一些不好的后果。

首先是性能,当该缓存对应的结果需要消耗大量的计算过程才能得到时,比如需要访问多张数据库表并联合计算,那么在写操作中更新缓存的动作将会是一笔不小的开销。同时,当写操作较多时,可能也会存在刚更新的缓存还没有被读取到,又再次被更新的情况(这常被称为缓存扰动),显然,这样的更新是白白消耗机器性能的,会导致缓存利用率不高。而等到读请求未命中缓存时再去更新,也符合懒加载的思路,需要时再进行计算。删除缓存的操作不仅是幂等的,可以在发生异常时重试,而且写-删除和读-更新在语义上更加对称。

其次是安全,在并发场景下,在写请求中更新缓存可能会引发数据的不一致问题。参考下面的图示,若存在两个来自不同线程的写请求,首先来自线程1的写请求更新了数据库(step1),接着来自线程2的写请求再次更新了数据库(step3),但由于网络延迟等原因,线程1可能会晚于线程2更新缓存(step4晚于step3),那么这样便会导致最终写入数据库的结果是来自线程2的新值,写入缓存的结果是来自线程1的旧值,即缓存落后于数据库,此时再有读请求命中缓存(step5),读取到的便是旧值。

为什么先更新数据库,而不是先删除缓存?

另外,有读者也会对更新数据库和删除缓存的时序产生疑问,那么为什么不先删除缓存,再更新数据库呢?在单线程下,这种方案看似具有一定合理性,这种合理性体现在删除缓存成功,但更新数据库失败的场景下,尽管缓存被删除了,下次读操作时,仍能将正确的数据写回缓存,相对于Cache-Aside中更新数据库成功,删除缓存失败的场景来说,先删除缓存的方案似乎更合理一些。那么,先删除缓存有什么问题呢?

问题仍然出现在并发场景下,首先来自线程1的写请求删除了缓存(step1),接着来自线程2的读请求由于缓存的删除导致缓存未命中,根据Cache-Aside模式,线程2继而查询数据库(step2),但由于写请求通常慢于读请求,线程1更新数据库的操作可能会晚于线程2查询数据库后更新缓存的操作(step4晚于step3),那么这样便会导致最终写入缓存的结果是来自线程2中查询到的旧值,而写入数据库的结果是来自线程1的新值,即缓存落后于数据库,此时再有读请求命中缓存(step5),读取到的便是旧值。

另外,先删除缓存,由于缓存中数据缺失,加剧数据库的请求压力,可能会增大缓存击穿出现的概率。

如果选择先删除缓存,再更新数据库,那如何解决一致性问题呢?

为了避免“先删除缓存,再更新数据库”这一方案在读写并发时可能带来的缓存脏数据,业界又提出了延时双删的策略,即在更新数据库之后,延迟一段时间再次删除缓存,为了保证第二次删除缓存的时间点在读请求更新缓存之后,这个延迟时间的经验值通常应稍大于业务中读请求的耗时。延迟的实现可以在代码中sleep或采用延迟队列。显而易见的是,无论这个值如何预估,都很难和读请求的完成时间点准确衔接,这也是延时双删被诟病的主要原因。

那么Cache-Aside存在数据不一致的可能吗?

在Cache-Aside中,也存在数据不一致的可能性。在下面的读写并发场景下,首先来自线程1的读请求在未命中缓存的情况下查询数据库(step1),接着来自线程2的写请求更新数据库(step2),但由于一些极端原因,线程1中读请求的更新缓存操作晚于线程2中写请求的删除缓存的操作(step4晚于step3),那么这样便会导致最终写入缓存中的是来自线程1的旧值,而写入数据库中的是来自线程2的新值,即缓存落后于数据库,此时再有读请求命中缓存(step5),读取到的便是旧值。

这种场景的出现,不仅需要缓存失效且读写并发执行,而且还需要读请求查询数据库的执行早于写请求更新数据库,同时读请求的执行完成晚于写请求。足以见得,这种不一致场景产生的条件非常严格,在实际的生产中出现的可能性较小。

除此之外,在并发环境下,Cache-Aside中也存在读请求命中缓存的时间点在写请求更新数据库之后,删除缓存之前,这样也会导致读请求查询到的缓存落后于数据库的情况。

虽然在下一次读请求中,缓存会被更新,但如果业务层面对这种情况的容忍度较低,那么可以采用加锁在写请求中保证“更新数据库&删除缓存”的串行执行为原子性操作(同理也可对读请求中缓存的更新加锁)。加锁势必会导致吞吐量的下降,故采取加锁的方案应该对性能的损耗有所预期。

延伸阅读:

二、数据传输服务DTS

数据传输服务(Data Transmission Service,简称DTS)是云服务商提供的一种支持RDBMS(关系型数据库)、NoSQL、OLAP等多种数据源之间进行数据交互的数据流服务。DTS提供了包括数据迁移、数据订阅、数据同步等在内的多种数据传输能力,常用于不停服数据迁移、数据异地灾备、异地多活(单元化)、跨境数据同步、实时数据仓库、查询报表分流、缓存更新、异步消息通知等多种业务应用场景。

相关文章