一、 内核剖析
ShardingSphere虽然有多个产品,但是他们的数据分片主要流程是完全一致的。
解析引擎
解析过程分为词法解析和语法解析。 词法解析器用于将SQL 拆解为不可再分的原
子符号,称为Token。 并根据不同数据库方言所提供的字典,将其归类为关键字,
表达式,字面量和操作符。 再使用语法解析器将SQL转换为抽象语法树(简称AST,
Abstract Syntax Tree)。
例如对下面一条SQL 语句:
SELECT id,name FROM t_user WHERE status ='ACTIVE' AND age >18
会被解析成下面这样一颗树:
为了便于理解,抽象语法树中的关键字的 Token 用绿色表示,变量的 Token 用红色表示,灰色表示需要进一步拆分。通过对抽象语法树的遍历,可以标记出所有可能需要改写的位置。
SQL 的一次解析过程是不可逆的,所有token按SQL 原本的顺序依次进行解析,性能 很高。并且在解析过程中,需要考虑各种数据库SQL方言的异同,提供不同的解析模版。
其中,SQL 解析是整个分库分表产品的核心,其性能和兼容性是最重要的衡量指标。ShardingSphere 在1.4x之前采用的是性能较快的Druid 作为SQL解析器。1.5.x 版本后,采用自研的SQL 解析器,针对分库分表场景,采取对SQL半理解的方式,提 高SQL 解析的性能和兼容性。然后从3.0.x版本后,开始使用ANLTR 作为SQL 解析引 擎。这是个开源的SQL 解析引擎,ShardingSphere 在使用ANLTR 时,还增加了一些AST 的缓存功能。针对ANLTR4 的特性,官网建议尽量采用PreparedStatement 的预编译方式来提高SQL 执行的性能。
sql 解析整体结构:
路由引擎
根据解析上下文匹配数据库和表的分片策略,生成路由路径。
ShardingSphere 的分片策略主要分为单片路由(分片键的操作符是等号)、多片路由 (分片键的操作符是IN)和范围路由(分片键的操作符是Between)。 不携带分片键的SQL 则是广播路由。
分片策略通常可以由数据库内置也可以由用户方配置。内置的分片策略大致可分为 尾数取模、哈希、范围、标签、时间等。 由用户方配置的分片策略则更加灵活,可以根据使用方需求定制复合分片策略。
实际使用时,应尽量使用分片路由,明确路由策略。因为广播路由影响过大,不利于集群管理及扩展。
改写引擎
用户只需要面向逻辑库和逻辑表来写SQL, 最 终 由ShardigSphere 的改写引擎将SQL 改写为在真实数据库中可以正确执行的语句。 SQL 改写分为正确性改写和优化改写。
执行引擎
ShardingSphere 并不是简单的将改写完的SQL 提交到数据库执行。执行引擎的目标是自动化的平衡资源控制和执行效率。
例如他的连接模式分为内存限制模式(MEMORY_STRICTLY) 和连接限制模式(CONNECTION_STRICTLY)。 内存限制模式只关注一个数据库连接的处理数量,通 常一张真实表一个数据库连接。而连接限制模式则只关注数据库连接的数量,较大的查询会进行串行操作。
归并引擎
将从各个数据节点获取的多数据结果集,组合成为一个结果集并正确的返回至请求
客户端,称为结果归并。
其中,流式归并是指以一条一条数据的方式进行归并,而内存归并是将所有结果集
都查询到内存中,进行统一归并。
二、ShardingSphere的SPI扩展 点
ShardingSphere为了兼容更多的应用场景,在源码中保留了大量的SPI扩展点。所
以在看源码之前,需要对JAVA的SPI机制有足够的了解。
1、 SPI机制
SPI的全名为:Service Provider Interface。在java.util.ServiceLoader的文档里有 比较详细的介绍。
简单的总结下 Java SPI 机制的思想。我们系统里抽象的各个模块,往往有很多不同 的实现方案,比如日志模块的方案,xml解析模块、jdbc模块的方案等。面向的对象 的设计里,我们一般推荐模块之间基于接口编程,模块之间不对实现类进行硬编码。
一旦代码里涉及具体的实现类,就违反了可拔插的原则,如果需要替换一种实现, 就需要修改代码。为了实现在模块装配的时候能不在程序里动态指明,这就需要一种服务发现机制。
Java SPI 就是提供这样的一个机制:为某个接口寻找服务实现的机制。有点类似IOC的思想,就是将装配的控制权移到程序之外,在模块化设计中这个机制尤其重要
Java SPI 的具体约定为:当服务的提供者,提供了服务接口的一种实现之后,在jar包 的META-INF/services/目录里同时创建一个以服务接口命名的文件。该文件里就是实现该服务接口的具体实现类。
而当外部程序装配这个模块的时候,就能通过该jar包META-INF/services/里的配置 文件找到具体的实现类名,并装载实例化,完成模块的注入。
基于这样一个约定就能很好的找到服务接口的实现类,而不需要再代码里制定。jdk 提供服务实现查找的一个工具类:java.util.ServiceLoader。
2、 ShardingSphere中的SPI扩展点
ShardingSphere的开发思想是对源码中主体流程封闭,而对SPI开放。在配套的官方文档《shardingsphere_docs_cn.pdf》的开发者手册部分详细列出了 ShardingSphere的所有SPI扩展点。
3、实现自定义主键生成策略
使用ShardingSphere提供的SPI扩展点,实现自定义分布式主键生成策略。参见示 例代码。