第28章_mysql缓存策略

文章目录

  • MySQL缓存方案目的分析
    • 缓存层作用
      • 举例
    • 缓存方案选择
    • 场景分析
  • 提升MySQL访问性能的方式
    • MySQL主从复制
    • 读写分离
    • 连接池
    • 异步连接
  • 缓存方案
    • 缓存和MySQL一致性状态分析
    • 制定读写策略
  • 同步方案
    • canal
    • go-mysql-transfer
  • 缓存方案的故障问题及解决
    • 缓存穿透
    • 缓存击穿
    • 缓存雪崩
    • 缓存方案的弊端
  • 总结

前提:读多写少,单个主节点能支撑项目数据量;数据的主要依据是mysql。

MySQL缓存方案目的分析

mysql 有自己缓冲层,它的作用也是用来缓存热点数据,这些数据包括索引、记录等。mysql 缓冲层是从自身出发,跟具体的业务无关。这里的缓冲策略主要是 lru。

mysql 数据主要存储在磁盘当中,适合大量重要数据的存储;磁盘当中的数据一般是远大于内存当中的数据。

一般业务场景的关系型数据库(mysql)是作为主要数据库的。

缓存层作用

MySQL缓存方案用来缓存用户定义的热点数据,用户直接从缓存获取热点数据,降低数据库的读写压力。

举例

比如说12点有一个促销活动,用户可以在12点之前预约,则12点之前预约的用户可称为热点数据,到12点的时候会有大量用户登录,这将对mysql造成很大压力,所以需要提前缓存预约的用户数据,因为mysql自带的缓存不适合用户定义的热点数据。此时可以考虑使用redis来缓存预约的用户数据,并且需要设置过期时间,因为12点之后可能过1小时活动就结束了,所以考虑过期时长为13:00 - 预约的时间。

缓存方案选择

缓存数据库可以选用 redis,memcached;它们所有数据都存储在内存当中,当然也可以将内存当中的数据持久化到磁盘当中。

场景分析

(1)内存访问速度是磁盘访问速度10W倍,访问磁盘的速度比较慢,尽量使获取数据是从内存中获取。

(2)读的需求远远大于写的需求。主要解决读的性能;因为写没必要优化,必须让数据正确的落盘。如果写性能出现问题,那么请使用横向扩展集群方式来解决

(3)MySQL自身缓冲层跟业务无关。由于 mysql 的缓冲层不由用户来控制,也就是不能由用户来控制缓存具体数据

(4)MySQL作为项目主要数据库,便于统计分析。项目中需要存储的数据应该远大于内存的容量,同时需要进行数据统计分析,所以数据存储获取的依据应该是关系型数据库。

(5)缓存数据库作为辅助数据库,存放热点数据。缓存数据库可以存储用户自定义的热点数据。

提升MySQL访问性能的方式

(1)读写分离

(2)连接池

(3)异步连接

(4)预处理。

(5)更换存储引擎。

(6)分库分表。(淘汰的技术)

(7)mycat。(淘汰的技术)

(8)tidb。

MySQL主从复制

在这里插入图片描述

  1. 主库更新事件 ( update、insert、delete ) 通过 io-thread写到 binlog。

  2. 从库请求读取 binlog,通过 io-thread 写入从库本地 relay log(中继日志)。

  3. 从库通过 sql-thread 读取 relay-log,并把更新事件在从库中重放(replay)一遍。

复制流程:

  1. Slave 上面的 IO 线程连接上 Master,并请求从指定日志文件的指定位置(或者从最开始的日志)之后的日志内容。
  2. Master 接收到来自 Slave 的 IO 线程的请求后,负责复制的IO 线程会根据请求信息读取日志指定位置之后的日志信息,返回给 Slave 的 IO 线程。返回信息中除了日志所包含的信息之外,还包括本次返回的信息已经到 Master 端的 binlog 文件的名称以及 binlog 的位置。
  3. Slave 的 IO 线程接收到信息后,将接收到的日志内容依次添加到 Slave 端的 relay-log 文件的最末端,并将读取到的Master 端的 binlog 的文件名和位置记录到master-info 文件中,以便在下一次读取的时候能够清楚的告诉 Master 从何处开始读取日志。
  4. Slave 的 sql 进程检测到 relay-log 中新增加了内容后,会马上解析 relay-log 的内容成为在 Master 端真实执行时候的那些可执行的内容,并在自身执行。

由于MySQL的主从复制是异步的,所以同一时刻主数据库和从数据库的数据可能存在不一致的现象,这就造成可能从数据库中读取的数据不是最新的。

读写分离

在这里插入图片描述
读写分离会设置多个从数据库,从数据库可能会在多个机器中。

写操作依然在主数据库中,主数据库提供数据的主要依据。

读写分离通过设置多个从数据库解决读压力。

读写分离主要依据MySQL的主从复制原理,因为MySQL的主从复制是异步复制的,所以读写分离只能保证数据的最终一致性,不能保证实时一致性。

如果读操作有强一致性要求,那么需要读操作去读主数据库。

连接池

连接池的定义:在服务端当中创建多个与数据库的连接线程。

解决的问题:并发提升数据库访问性能;同时复用连接,避免连接建立、断开依据安全验证的开销。

原理:利用MySQL的网络模型创建多个连接,每个连接复用去处理SQL语句。值得注意的是,如果发送一个事务(多条SQL语句),这个事务必须要在一个连接里面完成。

连接池具体内容请见mysql连接池

异步连接

在服务端创建一个连接,针对这个连接采用非阻塞IO。这种方式可以节省网络传输时间。

缓存方案

缓存和MySQL一致性状态分析

没有缓冲层之前,对数据的读写都是基于 mysql;所以不存在同步问题;这句话也不是必然,比如读写分离就存在同步问题(数据一致性问题)。

引入缓冲层后,对数据的获取需要分别操作缓存数据库和mysql,那么这个时候数据可能存在以下状态:
在这里插入图片描述
4 和 5显然是没问题的,现在需要考虑1、2以及3。

首先明确一点:获取数据的主要依据是 mysql,只需要将mysql 的数据正确同步到缓存数据库就可以了。

同理,缓存有,mysql 没有,这比较危险,此时可以认为该数据为脏数据;所以需要在同步策略中避免该情况发生同时可能存在mysql 和缓存都有数据,但是数据不一致,这种也需要在同步策略中避免

注意:以MySQL为主,保证缓存不可用,整个系统依然要保持正常工作;mysql 不可用的话,系统停摆,停止对外提供服务。

制定读写策略

在这里插入图片描述
读策略:先读缓存,若缓存有,直接返回;若缓存没有,读mysql;若 mysql 有,同步到缓存,并返回;若 mysql 没有,则返回没有。

写策略:从安全优先方面考虑;先删除缓存,再写 mysql,后面数据同步交由 go-mysql-transfer 等中间件处理(将问题 3 转化成 1)。

先删除缓存,为了避免其他服务读取旧的数据;也是告知系统这个数据已经不是最新,建议从 mysql 获取数据。但是对于服务 A 而言,写入 mysql 后,接着读操作必须要能读到最新的数据。
在这里插入图片描述
写策略:从效率优先方面考虑;先写缓存,并设置过期时间(如 200ms),再写mysql,后面数据同步交由其他中间件处理。

这里设置的过期时间是预估时间,大致上是 mysql 到缓存同步的时间。在写的过程中如果 mysql 停止服务,或数据没写入 mysql,则200 ms 内提供了脏数据服务;但仅仅只有 200ms 的数据错乱,即效率优先的写策略也有安全性的问题,但只会影响200ms。
在这里插入图片描述

同步方案

同步方案可以有:

(1)伪装从数据库。比如阿里开源的canal方案、kafka、go-mysql-transfer等。

(2)MySQL的触发器+udf。udf全称User-defined function,是MySQL提供的一种可扩展代码。UDF不具备事务,不能回滚;而且效率较低。

canal

canal会考虑分布式问题,如果一个canal宕机了,会有从canal顶替上来,保证服务正常提供。
在这里插入图片描述

go-mysql-transfer

go-mysql-transfer是一个基于Go语言开发的数据库变更数据传输工具,它可以实时捕获MySQL数据库中的数据变更,并将变更事件传输到给redis等缓存数据库。go-mysql-transfer只有一个节点,相对canal简单些,没有解决分布式问题。

缺点是需要引入etcd、zk等实现高可用。

具体流程是:
1)安装 go-mysql-transfer

# 安装 Golang 1.14 及以上版本
wget https://golang.google.cn/dl/go1.17.8.linux-amd64.tar.gz
tar -zxvf go1.17.8.linux-amd64.tar.gz
# 配置
vim /etc/profile
export PATH=$PATH:/opt/go/bin  # 配置 go 环境变量# 安装 go-mysql-transfer
git clone https://gitee.com/mirrors/go-mysql-transfer.git
GO111MODULE=on
go env -w GOPROXY=https://goproxy.cn,direct
go build

2)修改 mysql 配置文件为主从模式,位置:/etc/mysql/my.cnf

log-bin=mysql-bin # 开启 binlog
binlog-format=ROW # 选择 ROW 模式
server_id=1 # 配置 MySQL replaction 需要定义,不要和slave_id重复

3)修改 app.yml,配置 mysql 和 redis,配置热点数据

#规则配置
rule:-schema: eseap #数据库名称table: t_user #表名称#order_by_column: id #排序字段,存量数据同步时不能为空#column_lower_case:false #列名称转为小写,默认为false#column_upper_case:false#列名称转为大写,默认为falsecolumn_underscore_to_camel: true #列名称下划线转驼峰,默认为false# 包含的列,多值逗号分隔,如:id,name,age,area_id  为空时表示包含全部列#include_columns: ID,USER_NAME,PASSWORD#exclude_columns: BIRTHDAY,MOBIE # 排除掉的列,多值逗号分隔,如:id,name,age,area_id  默认为空#column_mappings: USER_NAME=account    #列名称映射,多个映射关系用逗号分隔,如:USER_NAME=account 表示将字段名USER_NAME映射为account#default_column_values: area_name=合肥  #默认的列-值,多个用逗号分隔,如:source=binlog,area_name=合肥#date_formatter: yyyy-MM-dd #date类型格式化, 不填写默认yyyy-MM-dd#datetime_formatter: yyyy-MM-dd HH:mm:ss #datetime、timestamp类型格式化,不填写默认yyyy-MM-dd HH:mm:ss#lua_file_path: lua/t_user.lua   #lua脚本文件#lua_script:   #lua 脚本value_encoder: json  #值编码,支持json、kv-commas、v-commas;默认为json#value_formatter: '{{.ID}}|{{.USER_NAME}}' # 值格式化表达式,如:{{.ID}}|{{.USER_NAME}},{{.ID}}表示ID字段的值、{{.USER_NAME}}表示USER_NAME字段的值#redis相关redis_structure: string # 数据类型。 支持string、hash、list、set、sortedset类型(与redis的数据类型一致)#redis_key_prefix: USER_ #key的前缀#redis_key_column: USER_NAME #使用哪个列的值作为key,不填写默认使用主键#redis_key_formatter: '{{.ID}}|{{.USER_NAME}}'#redis_key_value: user #KEY的值(固定值);当redis_structure为hash、list、set、sortedset此值不能为空#redis_hash_field_prefix: _CARD_ #hash的field前缀,仅redis_structure为hash时起作用#redis_hash_field_column: Cert_No #使用哪个列的值作为hash的field,仅redis_structure为hash时起作用,不填写默认使用主键#redis_sorted_set_score_column: id #sortedset的score,当数据类型为sortedset时,此项不能为空,此项的值应为数字类型#mongodb相关#mongodb_database: transfer #mongodb database不能为空#mongodb_collection: transfer_test_topic #mongodb collection,可以为空,默认使用表名称#elasticsearch相关#es_index: user_index #Index名称,可以为空,默认使用表(Table)名称#es_mappings: #索引映射,可以为空,为空时根据数据类型自行推导ES推导#  -#    column: REMARK #数据库列名称#    field: remark #映射后的ES字段名称#    type: text #ES字段类型#    analyzer: ik_smart #ES分词器,type为text此项有意义#    #format: #日期格式,type为date此项有意义#  -#    column: USER_NAME #数据库列名称#    field: account #映射后的ES字段名称#    type: keyword #ES字段类型#rocketmq相关#rocketmq_topic: transfer_test_topic #rocketmq topic,可以为空,默认使用表名称#kafka相关#kafka_topic: user_topic #rocketmq topic,可以为空,默认使用表名称#rabbitmq相关#rabbitmq_queue: user_topic #queue名称,可以为空,默认使用表(Table)名称#reserve_raw_data: true #保留update之前的数据,针对rocketmq、kafka、rabbitmq有用;默认为false

4)编写 Lua 同步逻辑

local ops = require("redisOps") --加载redis操作模块local row = ops.rawRow()  --当前数据库的一行数据,table类型,key为列名称
local action = ops.rawAction()  --当前数据库事件,包括:insert、update、delete-- 同步方法
if action == "insert" or action == "update" then -- 只监听insert事件local id = row["id"] --获取ID列的值local key = "user:" .. idlocal name = row["nick"] --获取USER_NAME列的值local sex = row["sex"]local height = row["height"] --获取PASSWORD列的值local age = row["age"]ops.HSET(key, "id", id) -- 对应Redis的HSET命令ops.HSET(key, "nick", name) -- 对应Redis的HSET命令ops.HSET(key, "sex", sex) -- 对应Redis的HSET命令ops.HSET(key, "height", height) -- 对应Redis的HSET命令ops.HSET(key, "age", age) -- 对应Redis的HSET命令
elseif action == "delete" thenlocal id = row['id']local key = "user:" .. idops.DEL(key)
end

5)启动 mysql, redis, go-mysql-transfer

# 全量数据同步,初次启动
./go-mysql-transfer -stock
# 启动
nohup go-mysql-transfer &

缓存方案的故障问题及解决

缓存穿透

如果某个数据在redis缓存和MySQL中都不存在,但此时一直尝试读这个不存在的数据,最后数据压力堆积在MySQL,可能会造成MySQL崩溃。

例如恶意攻击者可以通过构造大量不存在的查询请求来压垮数据库。

解决办法:
1)缓存设置<key,nil>:当发现MySQL不存在某个数据,将redis中对应的key设置为<key,nil>并设置过期时间。通过这样的标识,使得下次访问key的时候不要再去访问MySQL,并且到期自动删除这个key。但是这种方法会造成redis缓存数据库缓存很多无效数据,浪费内存。

2)部署布隆过滤器:将 MySQL当中已经存在的 key,写入布隆过滤器,不存在的直接 pass 掉。即使发生了缓存穿透,通过布隆过滤器在缓存层(即布隆过滤器部署在redis层,这样就不用在多个服务端都部署了)拦截无效的请求,避免无效查询到达MySQL。最好在缓存数据库上部署布隆过滤器。

缓存击穿

如果某个频繁访问的热点数据在redis缓存不存在(过期或被淘汰),但在MySQL中存在。此时有大量的并发连接请求该热点数据,会直接访问数据库,导致MySQL数据库压力骤增,可能造成MySQL数据库崩溃

解决方案:
1)过热数据不过期,即不要对频繁访问的热点数据设置过期时间。
2)分布式锁。请求数据的时候获取锁,若获取成功,则操作后释放锁;若获取失败,则休眠一段时间(200ms)再去获取,当获取成功,操作后释放锁。

缓存雪崩

redis缓存中的大量数据同时过期或失效,但是在MySQL中存在,导致大量请求直接访问MySQL数据库,造成系统性能下降甚至崩溃。

缓存数据库在整个系统不是必须的,也就是缓存宕机不会影响整个系统提供服务。

解决办法:

1)如果因为缓存数据库宕机,造成所有数据涌向 MySQL。采用高可用的集群方案,如哨兵模式、cluster模式。

2)如果因为设置了相同的过期时间,造成缓存集中失效。设置随机过期值或者其他机制错开失效时间。

3) 如果因为系统重启的时候,造成缓存数据消失。重启时间短,redis 开启持久化(过期信息也会持久化)就行了; 重启时间长,提前将热数据导入 redis 当中。

缓存方案的弊端

不能处理多语句事务。这是因为redis缓存数据库不支持回滚,造成redis 缓存数据库 与MySQL存储数据库数据不一致。

总结

  1. binlog的作用是数据备份和主从复制;确保主从数据的一致。
  2. redolog的作用是确保事务持久化,确保本地数据一致。
  3. 缓存方案读策略:先读缓存,存在则直接返回;不存在则去访问MySQL,再写redis。
  4. 缓存方案写策略,从安全为主;先删除缓存层中对应数据,再写MySQL,最后将MySQL数据同步到缓存层。添加缓存层的目的是为了提升效率,这种方式为了安全降低了效率。
  5. 缓存方案写策略,从效率为主;先写缓存层并设置过期时间,再写MySQL,等待MySQL同步到缓存层中。过期时间=MySQL网络传输时间+MySQL处理时间。
  6. 缓存穿透的解决方法有:缓存设置 <key,nil>,告诉服务器mysql也没有数据,不用去访问mysql了;部署布隆过滤器。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/179686.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TOUGH系列软件教程

查看原文>>>全流程TOUGH系列软件实践技术应用 TOUGH系列软件是由美国劳伦斯伯克利实验室开发的&#xff0c;旨在解决非饱和带中地下水、热运移的通用模拟软件。和传统地下水模拟软件Feflow和Modflow不同&#xff0c;TOUGH系列软件采用模块化设计和有限积分差网格剖分…

Python 获取北上广深历史天气数据并做数据可视化

嗨喽&#xff0c;大家好呀~这里是爱看美女的茜茜呐 知识点: 动态数据抓包 requests发送请求 结构化非结构化数据解析 开发环境: python 3.8 运行代码 pycharm 2022.3.2 辅助敲代码 专业版 requests 发送请求 pip install requests parsel 解析数据 pip install parsel …

k8s之Helm

理论&#xff1a; 什么是 He lm 在没使用 helm 之前&#xff0c;向 kubernetes 部署应用&#xff0c;我们要依次部署 deployment、svc 等&#xff0c;步骤较繁琐。 况且随着很多项目微服务化&#xff0c;复杂的应用在容器中部署以及管理显得较为复杂&#xff0c;helm 通过打包…

微信公众号会员系统怎么做

一、引言 在这个信息爆炸的时代&#xff0c;微信公众号已经成为了企业和个人品牌的重要宣传阵地。而在公众号运营过程中&#xff0c;会员系统是非常重要的一环。通过建立会员系统&#xff0c;你可以更好地管理粉丝、提升用户黏性&#xff0c;让你的品牌更加强大。本文将为你详…

IDEA导入jar包

通过maven导入本地包 mvn install:install-file -DfileD:\WebProject\ERP\zhixing-heyue-erp-server\zxhy-service-api\src\main\java\com\zxhy\service\api\invoice\baiwang\lib\com_baiwang_bop_sdk_outer_3_4_393.jar -DgroupIdcom.baiwang -DartifactIdbaiwang.open -Dver…

C++——内存管理(new/delete使用详解)

C内存管理 本章思维导图&#xff1a; 注&#xff1a;本章思维导图对应的xmind文件和.png文件已同步导入至资源 1. C/C内存区域的划分 在C/C中&#xff0c;内存区域主要划分为&#xff1a;内核区域、栈区、内存映射段、堆区、数据段、代码段等区域&#xff0c;如图&#xff1…

在搭建企业知识库时,这三个重要方面可不能忽略

随着信息时代的到来&#xff0c;企业面临着海量的信息和知识的挑战。为了更好地组织、管理和利用企业内部的知识资源&#xff0c;越来越多的企业开始搭建自己的知识库系统。 企业知识库是一个集中存储和管理知识、经验和信息的平台&#xff0c;它不仅可以提高企业的协作效率&a…

mfc140u.dll丢失怎么修复?4种亲测有效的方法分享

在计算机使用过程中&#xff0c;我们可能会遇到各种各样的问题&#xff0c;其中之一就是某些重要的dll文件丢失。DLL文件是动态链接库文件&#xff0c;它们包含了许多程序运行所需的函数和资源。当这些文件丢失或损坏时&#xff0c;可能会导致程序无法正常运行。本文将详细介绍…

5+单基因+免疫浸润,这篇肿瘤预后文章你值得拥有

今天给同学们分享一篇生信文章“Systematic analysis of the role of SLC52A2 in multiple human cancers”&#xff0c;这篇文章发表在Cancer Cell Int期刊上&#xff0c;影响因子为5.8。 结果解读&#xff1a; 多种人类癌症中SLC52A2的mRNA表达 首先&#xff0c;作者使用GT…

AI由许多不同的技术组成,其中一些最核心的技术如下

AI由许多不同的技术组成&#xff0c;其中一些最核心的技术包括&#xff1a; 机器学习&#xff1a;这是一种让计算机从数据中学习的技术&#xff0c;它可以根据已有的数据预测未来的趋势和行为。机器学习包括监督学习、无监督学习和强化学习等多种类型。深度学习&#xff1a;这…

零成本体验美国云服务器,更方便的体验和选择

在当今数字化时代&#xff0c;云计算已经成为了企业和个人的首选。而美国云服务器免费试用&#xff0c;则为广大用户提供了一个零风险尝试的机会。作为一种高效、灵活、稳定的解决方案&#xff0c;美国云服务器可以为您的业务保驾护航。 什么是美国云服务器&#xff1f; 美国云…

Python自动化测试:web自动化测试——Selenium框架

web自动化测试1 Selenium介绍web自动化实现原理环境准备1&#xff09;Seleniumpython环境搭建安装步骤环境变量的配置 2&#xff09;浏览器驱动驱动下载驱动环境配置 3&#xff09;版本检查4&#xff09;其他异常情况排查版本不一致未激活卸载、降低/升级setuptools版本 web自动…