SkipList

文章目录

  • SkipList
    • 理解跳表从单链表说起
    • 查找的时间复杂度
    • 空间复杂度
    • 插入数据
      • 更高效的方式维护索引
      • 代码实现索引的抽取
        • 概率算法
      • 举例插入元素
    • 删除数据
    • 总结
    • 为什么Redis选择使用跳表而不是红黑树来实现有序集合

SkipList

理解跳表从单链表说起

在原始单链表中查找元素,只能从头到尾一个一个的比较往后遍历,当数据量非常大的时候,时间复杂度会很高。于是考虑为单链表添加索引,在单链表的基础上添加一级索引,在一级索引的基础上添加二级索引…
在这里插入图片描述
当数据量非常大的时候,优势就会很明显。

查找的时间复杂度

时间复杂度 = 索引的高度 * 每层索引遍历的元素的个数
原始链表有n个元素,一级索引有n/2个元素、二级索引有n/4个元素、k级索引有n/2^k
个元素。最高级索引一般有2个元素,2= n/(2^h) 即h = log2n-1;最高级索引h为索引层的高度加上原始数据一层,跳表的总高度为h = log2n。每一层最多遍历3个节点。所以查找的时间复杂度为O(3logn)省略常数即O(logn)

空间复杂度

假如原始链表包含n个元素,则一级索引元素个数为n/2、二级索引个数为n/4、三级索引元素个数为n/8以此类推,索引节点总和为n/2+n/4+n/8+…+8+4+2 = n-2空间复杂度为O(n)
如果每三个节点抽一个节点作为索引,索引总和数就是n/3+n/9+…+9+3 = n/2-1减少了一半。所以可以通过减少索引数减少空间复杂度,但是相应的肯定会造成查找效率有一定下降,可以根据我们的应用场景控制这个阈值
但是,索引节点往往只需要存储key和几个指针,并不需要存储完整的对象,所以当对象比较索引节点大很多时,索引占用的额外空间就可以忽略了。

插入数据

跳表的原始链表需要保持有序,所以会像查找元素一样,找到元素应该插入的位置,时间复杂度为O(logn)
如果一直往原始列表中添加数据,但是不更新索引,就可能出现索引节点之间数据非常多的情况,极端情况退化为单链表,从而使查找效率降低。
在这里插入图片描述比较容易理解的做法就是完全重建索引,每次插入数据都把这个跳表的索引删除掉,然后重建。因为索引的空间复杂度是O(n),所以重建的时间复杂度是O(n),造成的后果是,为了维护索引导致每次插入数据的时间复杂度变成了O(n)

更高效的方式维护索引

在原始链表中随机选取n/2个元素作为一级索引是不是也能通过索引提高查找的效率?当然可以,因为一般随机选取的元素相对来说都比较均匀。如下图所示,随机选择n/2个元素作为一级索引,虽然不是每隔一个元素抽取一个,但是对于查找效率来讲,影响不大,比如想找元素16,仍然可以通过一级索引,使得遍历路径少了将近一半,如果抽取的一级元素恰好是前一半的元素1,3,4,5,7,8那么查找效率确实没有提升。但是这样的概率太小了。可以这样认为:当原始链表中元素数量足够大,且抽取足够随机,得到的索引是均匀的
在这里插入图片描述

代码实现索引的抽取

在每次插入新元素的时候,尽量让该元素有1/2的几率建立一级索引,1/4的几率建立二级索引,1/8的几率建立三级索引,以此类推,就能满足上面的条件。需要一个算法把控这个1/2、1/4…当每次有数据要插入时,先通过概率算法告诉我们这个元素要插入到几级索引中,然后开始维护索引并把数据插入到原始链表中。

概率算法

可以实现一个randomLevel()方法,该方法随即生成1~MAX_LEVEL之间的数(MAX_LEVEL表示索引的最高层数)该方法有1/2的概率返回1,1/4的概率返回2、1/8的概率返回3

  • randomLevel()方法返回1表示当前插入的该元素不需要重建索引,只需要存储数据到原始链表中即可。
  • randomLevel()方法返回2表示当前插入的该元素需要建立一级索引,(概率为1/4)
  • randomLevel()方法返回3表示当前插入的该元素需要建立二级索引,(概率为1/8)
  • randomLevel()方法返回4表示当前插入的该元素需要建立三级索引,(概率为1/16)

  • 当建立二级索引的时候,同时也会建立一级索引;当建立三级索引的时候,同时也会建立一二级索引。所以一级索引的个数等于 = 原始链表元素个数 * [randomLevel()>1的概率]
    也就是n ** (1-1/2) = n/2;以此类推…
//该randomLevel()算法会随机生成一个1~maxlevel之间的数,且:
//  1/2的概率返回1
//  1/4的概率返回2
//  1/8的概率返回3
int randomLevel(){int level = 1;//当level < MAX_LEVEL,且随机数小于设定的晋升概率时,level+1while(random()<SKIPLIST_P && level < MAX_LEVEL){//random()产生0-1中间的随机数level+=1;}return level;
}

这里的SKIPLIST_P为1/2;如果想节省空间利用率可以适当降低SKIPLIST_P的值从而减少索引个数REdis的zset中的SKIPLIST设定为0.25
Redis zslRandomLevel实现原理
元素插入到单链表的时间复杂度为O(1),索引的高度最多为logn当插入一个元素x时,最坏的情况就是元素x需要插入到每层索引中,最坏的时间复杂度为O(logn)

举例插入元素

要插入数据 6 到跳表中,首先 randomLevel() 返回 3,表示需要建二级索引,即:一级索引和二级索引需要增加元素 6。该跳表目前最高三级索引,首先找到三级索引的 1,发现 6 比 1大比 13小,所以,从 1 下沉到二级索引。
在这里插入图片描述
下沉到二级索引后,发现 6 比 1 大比 7 小,此时需要在二级索引中 1 和 7 之间加一个元素6 ,并从元素 1 继续下沉到一级索引
在这里插入图片描述
下沉到一级索引后,发现 6 比 1 大比 4 大,所以往后查找,发现 6 比 4 大比 7 小,此时需要在一级索引中 4 和 7 之间加一个元素 6 ,并把二级索引的 6 指向 一级索引的 6,最后,从元素 4 继续下沉到原始链表。
在这里插入图片描述
下沉到原始链表后,就比较简单了,发现 4、5 比 6小,7比6大,所以将6插入到 5 和 7 之间即可,整个插入过程结束。
在这里插入图片描述

删除数据

时间复杂度为O(logn)。删除节点其对应的索引也要删除
在这里插入图片描述

总结

  • 跳表是实现二分查找的有序链表
  • 每个元素插入时随机生成它的level
  • 最低层包含所有元素
  • 如果一个元素出现在level(x)那么它一定出现在x以下的level中
  • 每个索引节点包含两个指针一个向下一个向右(但是各种跳表源码包括redis的zset都没有向下的指针)
  • 跳表查询删除插入的时间复杂度都是O(logn)与平衡二叉树接近

为什么Redis选择使用跳表而不是红黑树来实现有序集合

插入一个元素
删除一个元素
查找一个元素
有序输出所有元素
按照范围区间查找元素(比如[100,356])
其中前四个操作红黑树也可以完成,且时间复杂度跟跳表是一样的但是,按照区间查找数据这个操作,红黑树的效率没有跳表高。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/22849.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JavaScript--修改 HTML 元素

这些是一些用于修改 HTML 元素的常见方法&#xff1a; 1、document.createElement(element)&#xff1a;创建 HTML 元素节点。可以使用这个方法创建一个新的 HTML 元素&#xff0c; 例如 document.createElement(div) 将创建一个 <div> 元素节点。 2、document.createA…

【探索AI未来】人工智能技术在软件开发中的应用与革新

自我介绍⛵ &#x1f4e3;我是秋说&#xff0c;研究人工智能、大数据等前沿技术&#xff0c;传递Java、Python等语言知识。 &#x1f649;主页链接&#xff1a;秋说的博客 &#x1f4c6; 学习专栏推荐&#xff1a;人工智能&#xff1a;创新无限、MySQL进阶之路、C刷题集、网络安…

postgresql还原bak

1、第一步肯定是要新建自己还原的目标数据库&#xff0c;例如&#xff1a; 2、进入postgresql的安装目录下的bin目录下 然后地址栏输入cmd进入命令 输入以下 psql -h localhost -U postgres -p 5432 -d SamsinoYardStandard_karamay -f "D:\desktop\zk\20230628.bak&quo…

VQA评测evaluation代码:gqa / aokvqa / vqav2 / scienceQA

VQA评测分多种&#xff0c;这里提几种&#xff0c;代码参考来自lavis和mmpretrain。 一、gqa评测&#xff08;只有一个answer&#xff09; 数据集下载及格式&#xff1a; blip中json地址 图片下载 # gqa格式已重新整理&#xff0c;特点是每个question对应的gt_answers只有一…

Python自动化之pytest常用插件

目录 1、失败重跑 pytest-rerunfailures 2、多重校验 pytest-assume 3、设定执行顺序 pytest-ordering 4、用例依赖&#xff08;pytest-dependency&#xff09; 5.分布式测试(pytest-xdist) 6.生成报告&#xff08;pytest-html&#xff09; 1、失败重跑 pytest-rerunfailu…

Unity游戏源码分享-Unity5.4.1打砖块游戏Breakout_Game_Starter_Kit

Unity5.4.1打砖块游戏Breakout_Game_Starter_Kit 童年的回忆 项目地址&#xff1a;https://download.csdn.net/download/Highning0007/88042779Unity游戏源码分享-

SpringCloud——消息总线Bus

SpringCloud Bus将分布式系统的节点与轻量级消息系统链接起来的框架&#xff0c;是对SpringCloud Config的加强&#xff0c;广播自动版的配置。 支持两种消息代理&#xff1a;RabbitMQ和Kafka 一、创建工程&#xff0c;添加依赖 spring-cloud-starter-config spring-cloud-st…

(转载)从0开始学matlab(第1天)—变量和数组

MATLAB 程序的基本数据单元是数组。一个数组是以行和列组织起来的数据集合&#xff0c;并且拥有一个数组名。数组中的单个数据是可以被访问的&#xff0c;访问的方法是数组名后带一个括号&#xff0c;括号内是这个数据所对应行标和列标。标量在 MATLAB 中也被当作数组来处理——…

centos 配置好网络后无法ping 通百度

问题&#xff1a; ping 自己配置的ip地址能够ping通&#xff0c;ping 连接的WiFi &#xff08;可以上外网&#xff09;地址也能ping通&#xff0c;但是ping www.baidu.com 却ping不同&#xff1b; 配置 处理方法&#xff1a; 我的虚拟机开通了三张网卡&#xff0c;150段…

GB35114双向身份认证(A级)学习笔记

GB35114双向身份验证学习笔记 温故而知新 SSL单向认证 摘录自&#xff1a;https://blog.csdn.net/qq_45759354/article/details/128672828 SSL协议用到了对称加密和非对称加密&#xff0c;在建立连接时&#xff0c;SSL首先对对称加密密钥使用非对称加密。连接建立好后&…

【量化课程】02_1.宏观经济学基础概念

2.1_宏观经济学基础概念 文章目录 2.1_宏观经济学基础概念1. 宏观经济简单背景1.1 微观经济学时期1.2 宏观经济学开端1.3 宏观经济学研究的问题1.4 宏观经济与理财的联系 2. 宏观经济分析及关键指标2.1 教材中的宏观经济分析框架和指标2.1.1 国内生产总值GDP2.1.2 边际消费倾向…

Docker:overlay2浅析以及解决overlay2 文件过大的问题

最近在学习docker的实现时看到这么一个概念&#xff1a;Union File System&#xff0c;先让我们来介绍介绍它。 Union File System 定义&#xff1a;联合文件系统&#xff08;UnionFS&#xff09;是一种分层、轻量级并且高性能的文件系统&#xff0c;它支持对文件系统的修改作…