关于set和map的简单理解-编程知识

1. 关于搜索

1.1 set和map的引入

Map和set是一种专门用来进行搜索的容器或者数据结构，其搜索的效率与其具体的实例化子类有关。以前常见的搜索方式有：

1. 直接遍历，时间复杂度为O(N)，元素如果比较多效率会非常慢

2. 二分查找，时间复杂度为log(2^N) ,但搜索前必须要求序列是有序的

上述排序比较适合静态类型(只查找，不会进行增删操作)的查找，即一般不会对区间进行插入和删除操作了，而现实中的查找比如：

1. 根据姓名查询考试成绩

2. 通讯录，即根据姓名查询联系方式

3. 不重复集合，即需要先搜索关键字是否已经在集合中

可能在查找时进行一些插入和删除的操作，即动态查找，那上述两种方式就不太适合了，本节介绍的Map和Set是一种适合动态查找的集合容器。

1.2 模型

一般把搜索的数据称为关键字（Key），和关键字对应的称为值（Value），将其称之为Key-value的键值对，所以模型会有两种：

1. 纯 key 模型，比如：有一个英文词典，快速查找一个单词是否在词典中

2. Key-Value 模型，比如：统计文件中每个单词出现的次数，统计结果是每个单词都有与其对应的次数：<单词，该单词出现的次数>

而Map中存储的就是key-value的键值对，Set中只存储了Key。

2. 关于Map

Map是一个接口类，该类没有继承自Collection，该类中存储的是结构的键值对，并且K一定是唯一的，不能重复。官方文档如下：

2.1 关于Map.Entry

Map.Entry <K, V>是Map内部实现的用来存放键值对<key, value>映射关系的内部类，该内部类中主要提供了<key, value>的获取，value的设置以及Key的比较方式。下图是关于map.entry的一些基本使用方法；

注意：Map.Entry<K,V>并没有提供设置Key的方法

2.2 Map 的常用方法说明

map的方法如下图所示：

注意事项
1、Map是一个接口，不能直接实例化对象，如果要实例化对象只能实例化其实现类TreeMap或者HashMap

2、Map中存放键值对的Key是唯一的，value是可以重复的

3、在TreeMap中插入键值对时，key不能为空，否则就会抛NullPointerException异常，value可以为空；但是HashMap的key和value都可以为空。

4、Map中的Key可以全部分离出来，存储到Set中来进行访问(因为Key不能重复)。

5、Map中的value可以全部分离出来，存储在Collection的任何一个子集合中(value可能有重复)。

6、Map中键值对的Key不能直接修改，value可以修改，如果要修改key，只能先将该key删除掉，然后再来进行重新插入。

7、TreeMap和HashMap的区别：

代码展示部分：

package demo1;import java.util.Collection;
import java.util.Map;
import java.util.Set;
import java.util.TreeMap;public class TestMap {public static void main(String[] args) {Map<String,Integer> map=new TreeMap<>();map.put("沈梦瑶",1);map.put("周诗雨",2);map.put("王奕",3);map.put("袁一琦",4);map.put("委婉待续",5);System.out.println(map);//{周诗雨=2, 委婉待续=5, 沈梦瑶=1, 王奕=3, 袁一琦=4}// GetOrDefault(): 如果key存在，返回与key所对应的value，如果key不存在，返回一个默认值System.out.println(map.getOrDefault("smallye",99));//99System.out.println(map.getOrDefault("委婉待续",99));//5// 返回所有 key 的不重复集合Set keys=map.keySet();System.out.println(keys);//[周诗雨, 委婉待续, 沈梦瑶, 王奕, 袁一琦]//返回所有 value 的可重复集合Collection vals=  map.values();System.out.println(vals);//[2, 5, 1, 3, 4]// 打印所有的键值对// entrySet(): 将Map中的键值对放在Set中返回了for(Map.Entry<String, Integer> entry : map.entrySet()){System.out.println(entry.getKey() + "--->" + entry.getValue());}
//        周诗雨--->2
//        委婉待续--->5
//        沈梦瑶--->1
//        王奕--->3
//        袁一琦--->4}
}

3、关于set

Set与Map主要的不同有两点：Set是继承自Collection的接口类，Set中只存储了Key。

接口实现逻辑图如下所示：

set的底层是map，我们实例化的treemap对象中的value都是一个object对象；

3.1 set的常用方法说明

方法说明如下图所示：

注意事项：

1、Set是继承自Collection的一个接口类

2、Set中只存储了key，并且要求key一定要唯一

3、TreeSet的底层是使用Map来实现的，其使用key与Object的一个默认对象作为键值对插入到Map中的

4、Set最大的功能就是对集合中的元素进行去重

5、实现Set接口的常用类有TreeSet和HashSet，还有一个LinkedHashSet，LinkedHashSet是在HashSet的基础上维护了一个双向链表来记录元素的插入次序。

6、Set中的Key不能修改，如果要修改，先将原来的删除掉，然后再重新插入

7、TreeSet中不能插入null的key，HashSet可以。

8、TreeSet和HashSet的区别（图解如下）：

9、treeset和treemap背后的底层是一颗搜索树（红黑树），所以每次存储元素都得进行大小比较，即存放到这两个集合类中的元素，一定是可以进行比较的；

3.2 代码使用部分

package demo1;import java.util.Iterator;
import java.util.Set;
import java.util.TreeSet;public class TextSet {public static void main(String[] args) {Set<String> set=new TreeSet<>();// add(key): 如果key不存在，则插入，返回ture// 如果key存在，返回falseset.add("smallye");set.add("shengmengyao");set.add("wangyi");set.add("zhoushiyu");//迭代器遍历Iterator<String> iterator = set.iterator();while (iterator.hasNext()){System.out.println(iterator.next());}//shengmengyao//smallye//wangyi//zhoushiyu}
}

4、哈希表的介绍

4.1 引入哈希表

顺序结构以及平衡树中，元素关键码与其存储位置之间没有对应的关系，因此在查找一个元素时，必须要经过关键码的多次比较。顺序查找时间复杂度为O(N)，平衡树中为树的高度，即O(log2^N )，搜索的效率取决于搜索过程中元素的比较次数。

理想的搜索方法：可以不经过任何比较，一次直接从表中得到要搜索的元素。如果构造一种存储结构，通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立一一映射的关系，那么在查找时通过该函数可以很快找到该元素。

如此当向该结构中：

插入元素：根据待插入元素的关键码，以此函数计算出该元素的存储位置并按此位置进行存放

搜索元素：对元素的关键码进行同样的计算，把求得的函数值当做元素的存储位置，在结构中按此位置取元素比较，若关键码相等，则搜索成功

该方式即为哈希(散列)方法，哈希方法中使用的转换函数称为哈希(散列)函数，构造出来的结构称为哈希表(Hash Table)(或者称散列表)

        例如：数据集合{1，7，6，4，5，9}；

        哈希函数设置为：hash(key) = key % capacity; capacity为存储元素底层空间总的大小。详细解析如下图所示：

        用该方法进行搜索不必进行多次关键码的比较，因此搜索的速度比较快

但是会引出一个新的问题：按照上述哈希方式，向集合中插入元素44，会出现什么问题？

由此我们引入冲突这个概念。

4.2 冲突及冲突避免

对于两个数据元素的关键字 Ki 和 Kj(i != j)，有Ki !=K j，但有：Hash(Ki ) == Hash(K j )，即：不同关键字通过相同哈希哈数计算出相同的哈希地址，该种现象称为哈希冲突或哈希碰撞。

把具有不同关键码而具有相同哈希地址的数据元素称为“同义词”。

首先，我们需要明确一点，由于我们哈希表底层数组的容量往往是小于实际要存储的关键字的数量的，这就导致一个问题，冲突的发生是必然的，但我们能做的应该是尽量的降低冲突率。（即冲突是没发避免消除的只能尽量降低）

4.3 哈希函数设计避免冲突

引起哈希冲突的一个原因可能是：哈希函数设计不够合理。哈希函数设计原则：

哈希函数的定义域必须包括需要存储的全部关键码，而如果散列表允许有m个地址时，其值域必须在0到m-1之间

哈希函数计算出来的地址能均匀分布在整个空间中

哈希函数应该比较简单

常见哈希函数有以下几种：

1、直接定制法–(常用)
        取关键字的某个线性函数为散列地址：Hash（Key）= A*Key + B

优点：简单、均匀

缺点：需要事先知道关键字的分布情况

使用场景：适合查找比较小且连续的情况

2、除留余数法–(常用)
        设散列表中允许的地址数为m，取一个不大于m，但最接近或者等于m的质数p作为除数，按照哈希函数：Hash(key) = key% p(p<=m),将关键码转换成哈希地址

3、平方取中法–(了解)
        假设关键字为1234，对它平方就是1522756，抽取中间的3位227作为哈希地址；再比如关键字为4321，对它平方就是18671041，抽取中间的3位671(或710)作为哈希地址平方取中法比较适合：不知道关键字的分布，而位数又不是很大的情况

4、折叠法–(了解)
        折叠法是将关键字从左到右分割成位数相等的几部分(最后一部分位数可以短些)，然后将这几部分叠加求和，并按散列表表长，取后几位作为散列地址。折叠法适合事先不需要知道关键字的分布，适合关键字位数比较多的情况

5、随机数法–(了解)
        选择一个随机函数，取关键字的随机函数值为它的哈希地址，即H(key) = random(key),其中random为随机数函数。

通常应用于关键字长度不等时采用此法

6、数学分析法–(了解)
        设有n个d位数，每一位可能有r种不同的符号，这r种不同的符号在各位上出现的频率不一定相同，可能在某些位上分布比较均匀，每种符号出现的机会均等，在某些位上分布不均匀只有某几种符号经常出现。可根据散列表的大小，选择其中各种符号分布均匀的若干位作为散列地址。例如：

        假设要存储某家公司员工登记表，如果用手机号作为关键字，那么极有可能前7位都是相同的，那么我们可以选择后面的四位作为散列地址，如果这样的抽取工作还容易出现冲突，还可以对抽取出来的数字进行反转(如1234改成4321)、右环位移(如1234改成4123)、左环移位、前两数与后两数叠加(如1234改成12+34=46)等方法。

        数字分析法通常适合处理关键字位数比较大的情况，如果事先知道关键字的分布且关键字的若干位分布较均匀的情况

注意：哈希函数设计的越精妙，产生哈希冲突的可能性就越低，但是无法避免哈希冲突

4.4 负载因子调节避免冲突

负载因子和冲突率的关系粗略演示：

所以当冲突率达到一个无法忍受的程度时，我们需要通过降低负载因子来变相的降低冲突率。已知哈希表中已有的关键字个数是不可变的，那我们能调整的就只有哈希表中的数组的大小。

4.5 冲突解决

解决哈希冲突两种常见的方法是：闭散列和开散列

4.5.1 闭散列

也叫开放定址法，当发生哈希冲突时，如果哈希表未被装满，说明在哈希表中必然还有空位置，那么可以把key存放到冲突位置中的“下一个” 空位置中去，下面介绍两种方法来寻找下一个空位置：

1. 线性探测

比如上面的场景，现在需要插入元素44，先通过哈希函数计算哈希地址，下标为4，因此44理论上应该插在该位置，但是该位置已经放了值为4的元素，即发生哈希冲突。线性探测：从发生冲突的位置开始，依次向后探测，直到寻找到下一个空位置为止。

插入：

1、通过哈希函数获取待插入元素在哈希表中的位置

2、如果该位置中没有元素则直接插入新元素，如果该位置中有元素发生哈希冲突，使用线性探测找到下一个空位置，插入新元素。图解如下图所示：

2. 二次探测

线性探测的缺陷是产生冲突的数据堆积在一块，这与其找下一个空位置有关系，因为找空位置的方式就是挨着往后逐个去找，因此二次探测为了避免该问题，找下一个空位置的方法为：Hi = (H0 +i^2 )% m, 或者：Hi= (H0 -i ^2 )% m。其中：i = 1,2,3…，是通过散列函数Hash(x)对元素的关键码 key 进行计算得到的位置，m是表的大小。对于2.1中如果要插入44，产生冲突，使用解决后的情况为：

研究表明：当表的长度为质数且表装载因子a不超过0.5时，新的表项一定能够插入，而且任何一个位置都不会被探查两次。因此只要表中有一半的空位置，就不会存在表满的问题。在搜索时可以不考虑表装满的情况，但在插入时必须确保表的装载因子a不超过0.5，如果超出必须考虑增容。

4.5.2 开散列/哈希桶

开散列法又叫链地址法(开链法)，首先对关键码集合用散列函数计算散列地址，具有相同地址的关键码归于同一子集合，每一个子集合称为一个桶，各个桶中的元素通过一个单链表链接起来，各链表的头结点存储在哈希表中

从上图可以看出，开散列中每个桶中放的都是发生哈希冲突的元素。开散列，可以认为是把一个在大集合中的搜索问题转化为在小集合中做搜索了。

4.6 性能分析

虽然哈希表一直在和冲突做斗争，但在实际使用过程中，我们认为哈希表的冲突率是不高的，冲突个数是可控的，也就是每个桶中的链表的长度是一个常数，所以，通常意义下，我们认为哈希表的插入/删除/查找时间复杂度是 O(1) 。

4.7 和 java 类集的关系

        1. HashMap 和 HashSet 即 java 中利用哈希表实现的 Map 和 Set

        2. java 中使用的是哈希桶方式解决冲突的

        3. java 会在冲突链表长度大于一定阈值后，将链表转变为搜索树（红黑树）

        4. java 中计算哈希值实际上是调用的类的 hashCode 方法，进行 key 的相等性比较是调用 key 的 equals 方法。所以如果要用自定义类作为 HashMap 的 key 或者 HashSet 的值，必须覆写 hashCode 和 equals 方法，而且要做到 equals 相等的对象，hashCode 一定是一致的。

ps：本次的内容就到这里了，大家感兴趣的话就请一键三连哦！！！