事务--03---分布式系统唯一ID-编程知识

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

分布式ID
- 一、什么是分布式系统唯一ID
- 2. 二、分布式系统唯一ID的特点
分布式ID-----实现方案
- 1、使用UUID生成分布式ID
- 2、基于数据库自增ID
- 3、Redis生成ID
- 4、号段模式
- - - 滴滴的开源项目TinyId使用的就是这个原理：
- 5、snowflake（雪花算法）方案
- - - 优点：
    - 缺点：
    - 应用举例Mongdb objectID
- 6、分布式开源项目

分布式ID

一、什么是分布式系统唯一ID

在复杂分布式系统中，往往需要对大量的数据和消息进行唯一标识。

如在金融、电商、支付、等产品的系统中，数据日渐增长，对数据分库分表后需要有一个唯一ID来标识一条数据或消息，数据库的自增ID显然不能满足需求，此时一个能够生成全局唯一ID的系统是非常必要的。

2. 二、分布式系统唯一ID的特点

全局唯一：必须保证ID是全局性唯一的，基本要求
高性能：高可用低延时，ID生成响应要快，否则反倒会成为业务瓶颈
高可用：100%的可用性是骗人的，但是也要无限接近于100%的可用性
好接入：要秉着拿来即用的设计原则，在系统设计和实现上要尽可能的简单
趋势递增：最好趋势递增，这个要求就得看具体业务场景了，一般不严格要求

分布式ID-----实现方案

在这里插入图片描述

1、使用UUID生成分布式ID

优点：

实现方式简单，本地生成，性能高，没有网络消耗。

   public static void main(String[] args) {System.out.println(UUID.randomUUID());//75a90ba3-8bc9-4b37-992f-2d205de1b704}

缺点：

1、UUID太长，占用存储空间多。
2、UUID作为主键建立索引和基于索引进行查询存在性能问题，尤其是在InnoDB存储引擎下，UUID的无序性会导致索引位置频繁变动，导致分页。
注：UUID可能重复吗？
UUID理论上来说是可能重复的，经过16^32+1次生成之后会产生一次重复的值。但这是一个特别大的值，需要经过很长、很长、很长时间后可能出现一次重复值，所以UUID可以看成是不可重复的值。

2、基于数据库自增ID

单节点数据库生成分布式ID
需要一台单独的数据库服务器，创建一个张表：

CREATE TABLE sequence(id bigint(20) unsigned NOT NULL auto_increment,stub char(1) NOT NULL default '',PRIMARY KEY(id),UNIQUE KEY stub(stub)
) ENGINE=MyISAM;
REPLACE INTO sequence(stub) VALUES('a');
SELECT LAST_INSERT_ID();

以MySQL举例，利用给字段设置auto_increment_increment和auto_increment_offset来保证ID自增，每次业务使用下列SQL读写MySQL得到ID号。

这种方案的优缺点如下：

优点：

非常简单，利用现有数据库系统的功能实现，成本小，有DBA专业维护。
ID号单调自增，可以实现一些对ID有特殊要求的业务。

缺点： DB单点存在宕机风险，无法扛住高并发场景

强依赖DB，当DB异常时整个系统不可用，属于致命问题。
配置主从复制可以尽可能的增加可用性，但是数据一致性在特殊情况下难以保证。主从切换时的不一致可能会导致重复发号。
ID发号性能瓶颈限制在单台MySQL的读写性能。

如果你想到了扩展数据库服务器数量，那么又会引入一个新的问题。

如果要增加数据库，那么之前每台数据库设置好的初始值和步长，就需要人工去修改了。这就需要停掉前面配置的所有数据库，去统一修改配制，这样是极其不方便的
并且我们为了生成自增的ID去扩展很多数据库服务器，不觉得有些大材小用吗？这就需要我们从新的角度考虑生成分布式ID的方案。

在这里插入图片描述

3、Redis生成ID

当使用数据库来生成ID性能不够要求的时候，我们可以尝试使用Redis来生成ID。

这主要依赖于Redis是单线程的，所以也可以用生成全局唯一的ID。可以用Redis的原子操作 INCR和INCRBY来实现。

比较适合使用Redis来生成每天从0开始的流水号。比如订单号=日期+当日自增长号。可以每天在Redis中生成一个Key，使用INCR进行累加。

优点：

1）不依赖于数据库，灵活方便，且性能优于数据库。

2）数字ID天然排序，对分页或者需要排序的结果很有帮助。

缺点：

1）如果系统中没有Redis，还需要引入新的组件，增加系统复杂度。

2）需要编码和配置的工作量比较大。

4、号段模式

号段模式的大致意思是服务每次从数据库获取ID时，获取ID的一段范围，表示服务获取到了这段范围的所有ID的使用权，比如[1，1000]，
表示当前生成的ID从这段范围内自增，每次服务从这段范围内返回一个自增的ID(可以通过AutomicLong实现)
这样就不用每次获取Id时都去请求数据库。直到ID自增到1000时，也就表示当前这段的ID使用完了，再去数据库取下一段的ID。

滴滴的开源项目TinyId使用的就是这个原理：

https://github.com/didi/tinyid/wiki/tinyid%E5%8E%9F%E7%90%86%E4%BB%8B%E7%BB%8D

5、snowflake（雪花算法）方案

这种方案大致来说是一种以划分命名空间（UUID也算，由于比较常见，所以单独分析）来生成ID的一种算法，这种方案把64-bit分别划分成多段，分开来标示机器、时间等，比如在snowflake中的64-bit分别表示如下图（图片来自网络）所示：
在这里插入图片描述

第一个bit位（1bit）：Java中long的最高位是符号位代表正负，正数是0，负数是1，一般生成ID都为正数，所以默认为0。
时间戳部分（41bit）：毫秒级的时间，不建议存当前时间戳，而是用（当前时间戳 -
固定开始时间戳）的差值，可以使产生的ID从更小的值开始；41位的时间戳可以使用69年，(1L << 41) / (1000L 60 60 24 365) = 69年
工作机器id（10bit）：也被叫做workId，这个可以灵活配置，机房或者机器号组合都可以。
序列号部分（12bit），自增值支持同一毫秒内同一个节点可以生成4096个ID

10-bit机器可以分别表示1024台机器。如果我们对IDC划分有需求，还可以将10-bit分5-bit给IDC，分5-bit给工作机器。这样就可以表示32个IDC，每个IDC下可以有32台机器，可以根据自身需求定义。12个自增序列号可以表示2^12个ID，理论上snowflake方案的QPS约为409.6w/s，这种分配方式可以保证在任何一个IDC的任何一台机器在任意毫秒内生成的ID都是不同的。

这种方式的优缺点是：