SkipList

理解跳表从单链表说起

在原始单链表中查找元素，只能从头到尾一个一个的比较往后遍历，当数据量非常大的时候，时间复杂度会很高。于是考虑为单链表添加索引，在单链表的基础上添加一级索引，在一级索引的基础上添加二级索引…
在这里插入图片描述
当数据量非常大的时候，优势就会很明显。

查找的时间复杂度

时间复杂度 = 索引的高度 * 每层索引遍历的元素的个数
原始链表有n个元素，一级索引有n/2个元素、二级索引有n/4个元素、k级索引有n/2^k
个元素。最高级索引一般有2个元素，2= n/(2^h) 即h = log2n-1;最高级索引h为索引层的高度加上原始数据一层，跳表的总高度为h = log2n。每一层最多遍历3个节点。所以查找的时间复杂度为O(3logn)省略常数即O(logn)

空间复杂度

假如原始链表包含n个元素，则一级索引元素个数为n/2、二级索引个数为n/4、三级索引元素个数为n/8以此类推，索引节点总和为n/2+n/4+n/8+…+8+4+2 = n-2空间复杂度为O(n)
如果每三个节点抽一个节点作为索引，索引总和数就是n/3+n/9+…+9+3 = n/2-1减少了一半。所以可以通过减少索引数减少空间复杂度，但是相应的肯定会造成查找效率有一定下降，可以根据我们的应用场景控制这个阈值
但是，索引节点往往只需要存储key和几个指针，并不需要存储完整的对象，所以当对象比较索引节点大很多时，索引占用的额外空间就可以忽略了。

插入数据

跳表的原始链表需要保持有序，所以会像查找元素一样，找到元素应该插入的位置，时间复杂度为O(logn)
如果一直往原始列表中添加数据，但是不更新索引，就可能出现索引节点之间数据非常多的情况，极端情况退化为单链表，从而使查找效率降低。
在这里插入图片描述比较容易理解的做法就是完全重建索引，每次插入数据都把这个跳表的索引删除掉，然后重建。因为索引的空间复杂度是O(n)，所以重建的时间复杂度是O(n)，造成的后果是，为了维护索引导致每次插入数据的时间复杂度变成了O(n)

更高效的方式维护索引

在原始链表中随机选取n/2个元素作为一级索引是不是也能通过索引提高查找的效率？当然可以，因为一般随机选取的元素相对来说都比较均匀。如下图所示，随机选择n/2个元素作为一级索引，虽然不是每隔一个元素抽取一个，但是对于查找效率来讲，影响不大，比如想找元素16，仍然可以通过一级索引，使得遍历路径少了将近一半，如果抽取的一级元素恰好是前一半的元素1，3，4，5，7，8那么查找效率确实没有提升。但是这样的概率太小了。可以这样认为：当原始链表中元素数量足够大，且抽取足够随机，得到的索引是均匀的
在这里插入图片描述

代码实现索引的抽取

在每次插入新元素的时候，尽量让该元素有1/2的几率建立一级索引，1/4的几率建立二级索引，1/8的几率建立三级索引，以此类推，就能满足上面的条件。需要一个算法把控这个1/2、1/4…当每次有数据要插入时，先通过概率算法告诉我们这个元素要插入到几级索引中，然后开始维护索引并把数据插入到原始链表中。

概率算法

可以实现一个randomLevel()方法，该方法随即生成1~MAX_LEVEL之间的数(MAX_LEVEL表示索引的最高层数)该方法有1/2的概率返回1，1/4的概率返回2、1/8的概率返回3

randomLevel()方法返回1表示当前插入的该元素不需要重建索引，只需要存储数据到原始链表中即可。
randomLevel()方法返回2表示当前插入的该元素需要建立一级索引，(概率为1/4)
randomLevel()方法返回3表示当前插入的该元素需要建立二级索引，(概率为1/8)
randomLevel()方法返回4表示当前插入的该元素需要建立三级索引，(概率为1/16)
…
当建立二级索引的时候，同时也会建立一级索引；当建立三级索引的时候，同时也会建立一二级索引。所以一级索引的个数等于 = 原始链表元素个数 * [randomLevel()>1的概率]
也就是n ** (1-1/2) = n/2;以此类推…

//该randomLevel()算法会随机生成一个1~maxlevel之间的数，且：
//  1/2的概率返回1
//  1/4的概率返回2
//  1/8的概率返回3
int randomLevel(){int level = 1;//当level < MAX_LEVEL，且随机数小于设定的晋升概率时，level+1while(random()<SKIPLIST_P && level < MAX_LEVEL){//random()产生0-1中间的随机数level+=1;}return level;
}

这里的SKIPLIST_P为1/2；如果想节省空间利用率可以适当降低SKIPLIST_P的值从而减少索引个数REdis的zset中的SKIPLIST设定为0.25
Redis zslRandomLevel实现原理
元素插入到单链表的时间复杂度为O(1),索引的高度最多为logn当插入一个元素x时，最坏的情况就是元素x需要插入到每层索引中，最坏的时间复杂度为O(logn)

举例插入元素

要插入数据 6 到跳表中，首先 randomLevel() 返回 3，表示需要建二级索引，即：一级索引和二级索引需要增加元素 6。该跳表目前最高三级索引，首先找到三级索引的 1，发现 6 比 1大比 13小，所以，从 1 下沉到二级索引。
在这里插入图片描述
下沉到二级索引后，发现 6 比 1 大比 7 小，此时需要在二级索引中 1 和 7 之间加一个元素6 ，并从元素 1 继续下沉到一级索引

下沉到一级索引后，发现 6 比 1 大比 4 大，所以往后查找，发现 6 比 4 大比 7 小，此时需要在一级索引中 4 和 7 之间加一个元素 6 ，并把二级索引的 6 指向一级索引的 6，最后，从元素 4 继续下沉到原始链表。
在这里插入图片描述
下沉到原始链表后，就比较简单了，发现 4、5 比 6小，7比6大，所以将6插入到 5 和 7 之间即可，整个插入过程结束。