面试题:
- 阿里广告平台,海量数据里查询某一固定前缀的key
- 小红书,你如何生产上限制keys*/flushdb/flushall等危险命令以防止误删误用?
- 美团,MEMORY USAGE命令你用过吗?
- BigKey问题,多大算big?你如何发现?如何删除?如何处理?
- BigKey你做过调优吗?惰性释放lazyfree了解过吗?
- Morekey问题,生产上redis数据库有1000W记录,你如何遍历?key*可以吗?
- ......
MoreKey案例(很多key)
大批量往redis里面插入2000W测试数据key
1、Linux Bash下面执行,插入100WB
理解:生成100W条redis批量设置kv的语句(key=kn,value=vn)写入到/tmp目录下的redisTest.txt文件中。
for((i=1;i<=100*10000;i++)); do echo "set k$i v$i" >> /tmp/redisTest.txt ;done;
2、通过redis提供的管道 -> pipe命令插入100W大批量数据
cat /tmp/redisTest.txt | /opt/redis-7.0.0/src/redis-cli -h 127.0.0.1 -p 6379 -a 111111 --pipe
某快递巨头真实生产案例新闻
尝试:keys * 试试100W花费多少秒遍历查询
结果:key * 这个指令有致命的弊端,在实际环境中最好不要使用
这个指令没有offset、limit参数,是要一次性吐出所有满足条件的key,由于redis是单线程的,其所有操作都是原子的,而keys算法是遍历算法,复杂度是O(n),如果实例中有千万级以上的key,这个指令就会导致Redis服务卡顿,所有读写Redis的其它的指令都会被延后甚至会超时报错,可能会引起缓存雪崩甚至数据库宕机。
生产上如何限制操作命令
生产上限制keys*/flushdb/flushall等危险命令以防止误删误用?
通过配置禁用这些命令,redis.conf在SECURITY这一项中,其实就是重命名的方式。
不用keys*避免卡顿,那该用什么
答案:使用scan命令。一句话,类似mysql limit。但不完全相同。
官网地址:SCAN | Redis
中文地址:Redis SCAN 命令 递增地遍历key空间
Redis SCAN 命令及其相关命令 SSCAN、HSCAN、 ZSCAN 命令都是用于增量遍历集合中的元素。
- SCAN 用于遍历当前数据库中的键。
- SSCAN 用于遍历集合键中的元素。
- HSCAN 用于遍历哈希键中的键值对。
- ZSCAN 用于遍历有序集合中的元素(包括元素成员和元素分值)。
语法
SCAN cursor [MATCH pattern] [COUNT count]
- cursor - 游标。
- pattern - 匹配的模式。
- count - 指定从数据集里返回多少元素,默认值为 10 。
理解:基于游标的迭代器,需要基于上一次的游标延续之前的迭代过程,以0作为游标开始一次新的迭代,直到命令返回游标0完成一次遍历,不保证每次执行都返回某个给定数量的元素,支持模糊查询,一次返回的数量不可控,只能是大概率符合count参数。
SCAN 命令是一个基于游标的迭代器,每次被调用之后, 都会向用户返回一个新的游标, 用户在下次迭代时需要使用这个新游标作为 SCAN 命令的游标参数, 以此来延续之前的迭代过程。
SCAN 返回一个包含两个元素的数组, 第一个元素是用于进行下一次迭代的新游标, 第二个元素则是一个数组, 这个数组中包含了所有被迭代的元素。如果新游标返回零表示迭代已结束。
SCAN的遍历顺序
非常特别,它不是从第一维数组的第零位一直遍历到末尾,而是采用了高位进位加法来遍历。之所以使用这样特殊的方式进行遍历,是考虑到字典的扩容和缩容时避免槽位的遍历重复和遗漏。
使用
BigKey案例
多大算Big
参考《阿里云Redis?开发规范》
string和二级结构
1、string是value,最大512MB但是≥10KB就是bigkey
2、Iist、hash、set和zset,个数超过5000就是bigkey
- list:一个列表最多可以包含2^32-1个元素(4294967295,每个列表超过40亿个元素)
- hash:Redis中每个hash可以存储2^32-1键值对(40多亿)
- set:集合中最大的成员数为2^32-1(4294967295,每个集合可存储40多亿个成员)
- ...
一般Iist、hash、set这些数据存储不到这么大,规定存到超5000就是大key。
哪些危害
- 内存不均,集群迁移困难
- 超时删除,大key删除作梗
- 网络流量阻塞
如何产生
社交类:王心凌粉丝列表,典型案例粉丝逐步递增
汇总统计:某个报表,月日年经年累月的积累
如何发现
命令:redis-cli --bigkeys
好处:给出每种数据结构Top 1 bigkey,同时给出每种数据类型的键值个数+平均大小。
不足:想查询大于10kb的所有key,--bigkeys参数就无能为力了,需要用到memory usage来计算每个键值的字节数。
示例:
redis-cli -h 127.0.0.1 -p 6379 -a 111111 --bigkeys
redis-cli -h 127.0.0.1 -p 7001 –-bigkeys -i 0.1
每隔 100 条 scan 指令就会休眠 0.1s,ops 就不会剧烈抬升,但是扫描的时间会变长
MEMORY USAGE键
官网:Redis MEMORY USAGE 命令 估计key的内存使用情况
MEMORY USAGE 命令给出一个
key
和它的值在 RAM 中所占用的字节数。返回的结果是
key
的值以及为管理该key
分配的内存总字节数。对于嵌套数据类型,可以使用选项
SAMPLES
,其中count
表示抽样的元素个数,默认值为 5 。当需要抽样所有元素时,使用SAMPLES 0
。
语法:MEMORY USAGE key [SAMPLES count]
如何删除
参考《阿里云Redis开发规范》
String
一般用del,如果过于庞大unlink
hash
使用hscan每次获取少量field-value,再使用hdel删除每个field
阿里手册:
list
使用trim新进式逐步删除,直到全部删除完成
阿里手册:
set
使用sscan每次获取部分元素,再使用srem命令删除每个元素
阿里手册:
zset
使用zscan每次获取部分元素,再使用ZREMRANGEBYRANK命令删除每个元素
阿里手册:
BigKey生产调优
主要是在redis.conf配置文件LAZY FREEING。
阻塞和非阻塞删除命令
优化配置