【MySQL】字符集与排序规则

在MySQL数据库中,字符集(Character Set)和排序规则(Collation,也称字符集校验规则)是重要的概念,它们对于正确存储和比较数据至关重要。

字符集与排序规则

字符集是一组字符的集合,与数字编码之间建立了对应关系。它定义了数据库中可以存储的字符种类和范围。常见的字符集有UTF-8、Latin1、GBK等。字符集决定了数据库可以处理的语言和字符的能力。

排序规则定义了字符在排序和比较操作中的顺序。它决定了字符串排序的方式,包括字母的大小写敏感性、特殊字符的处理等。排序规则也叫字符集校对规则

每个字符集可以有多个排序规则。即排序规则是和字符集结合使用的,二者配合规定了数据库对字符串的存储范围、排序方式、大小写美感性、特殊字符的处理等。

MySQL支持的字符集

MySQL 提供了 SQL 用于查看数据库支持的字符集。
MySQL 环境如下图所示:
在这里插入图片描述
执行 show charset; 查看该数据库支持的字符集。

mysql> show charset;
+----------+---------------------------------+---------------------+--------+
| Charset  | Description                     | Default collation   | Maxlen |
+----------+---------------------------------+---------------------+--------+
| armscii8 | ARMSCII-8 Armenian              | armscii8_general_ci |      1 |
| ascii    | US ASCII                        | ascii_general_ci    |      1 |
| big5     | Big5 Traditional Chinese        | big5_chinese_ci     |      2 |
| binary   | Binary pseudo charset           | binary              |      1 |
| cp1250   | Windows Central European        | cp1250_general_ci   |      1 |
| cp1251   | Windows Cyrillic                | cp1251_general_ci   |      1 |
| cp1256   | Windows Arabic                  | cp1256_general_ci   |      1 |
| cp1257   | Windows Baltic                  | cp1257_general_ci   |      1 |
| cp850    | DOS West European               | cp850_general_ci    |      1 |
| cp852    | DOS Central European            | cp852_general_ci    |      1 |
| cp866    | DOS Russian                     | cp866_general_ci    |      1 |
| cp932    | SJIS for Windows Japanese       | cp932_japanese_ci   |      2 |
| dec8     | DEC West European               | dec8_swedish_ci     |      1 |
| eucjpms  | UJIS for Windows Japanese       | eucjpms_japanese_ci |      3 |
| euckr    | EUC-KR Korean                   | euckr_korean_ci     |      2 |
| gb18030  | China National Standard GB18030 | gb18030_chinese_ci  |      4 |
| gb2312   | GB2312 Simplified Chinese       | gb2312_chinese_ci   |      2 |
| gbk      | GBK Simplified Chinese          | gbk_chinese_ci      |      2 |
| geostd8  | GEOSTD8 Georgian                | geostd8_general_ci  |      1 |
| greek    | ISO 8859-7 Greek                | greek_general_ci    |      1 |
| hebrew   | ISO 8859-8 Hebrew               | hebrew_general_ci   |      1 |
| hp8      | HP West European                | hp8_english_ci      |      1 |
| keybcs2  | DOS Kamenicky Czech-Slovak      | keybcs2_general_ci  |      1 |
| koi8r    | KOI8-R Relcom Russian           | koi8r_general_ci    |      1 |
| koi8u    | KOI8-U Ukrainian                | koi8u_general_ci    |      1 |
| latin1   | cp1252 West European            | latin1_swedish_ci   |      1 |
| latin2   | ISO 8859-2 Central European     | latin2_general_ci   |      1 |
| latin5   | ISO 8859-9 Turkish              | latin5_turkish_ci   |      1 |
| latin7   | ISO 8859-13 Baltic              | latin7_general_ci   |      1 |
| macce    | Mac Central European            | macce_general_ci    |      1 |
| macroman | Mac West European               | macroman_general_ci |      1 |
| sjis     | Shift-JIS Japanese              | sjis_japanese_ci    |      2 |
| swe7     | 7bit Swedish                    | swe7_swedish_ci     |      1 |
| tis620   | TIS620 Thai                     | tis620_thai_ci      |      1 |
| ucs2     | UCS-2 Unicode                   | ucs2_general_ci     |      2 |
| ujis     | EUC-JP Japanese                 | ujis_japanese_ci    |      3 |
| utf16    | UTF-16 Unicode                  | utf16_general_ci    |      4 |
| utf16le  | UTF-16LE Unicode                | utf16le_general_ci  |      4 |
| utf32    | UTF-32 Unicode                  | utf32_general_ci    |      4 |
| utf8mb3  | UTF-8 Unicode                   | utf8_general_ci     |      3 |
| utf8mb4  | UTF-8 Unicode                   | utf8mb4_0900_ai_ci  |      4 |
+----------+---------------------------------+---------------------+--------+
41 rows in set (0.04 sec)mysql> 

其中
Charset 指字符集名称;
Description 指字符集描述;
Default collation 指该字符集默认排序规则;
Maxlen 指该字符集存储字符的单位大小,一般情况下,该值越大,其可存储的字符范围越大

使用 SQL 语句也能查到以上字符集结果,语句如下:

select * from information_schema.character_sets order by character_set_name ;

编码集特性示例

编码集特性
ascii共收录128个字符,包括空格、标点符号、数字、大小写字母和一些不可见字符。由于总共才128个字符,所以可以使用1个字节来进行编码
latin1共收录256个字符,是在ASCII字符集的基础上又扩充了128个西欧常用字符(包括德法两国的字母),也可以使用1个字节来进行编码。
gb2312收录了汉字以及拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母。其中收录汉字6763个,其他文字符号682个,兼容ASCII字符集。这是一个变长字符集,如果该字符在ascii字符集中,则采用1字节编码,否则采用两字节。
gbkGBK是在gb2312基础上扩容后的标准。收录了所有的中文字符。同样的,这是一个变长字符集,如果该字符在ascii字符集中,则采用1字节编码,否则采用两字节。
utf8和utf8mb4收录地球上能想到的所有字符,而且还在不断扩充。这种字符集兼容ASCII字符集,采用变长编码方式,编码一个字符需要使用1~4个字节。MySQL为了节省空间,其中的utf8是标准 UTF8 阉割后的,只有1~3字节编码的字符集,基本包含了所有常用的字符。如果还要使用 enoji 表情,那么需要使用utf8mb4,这个是完整的 UTF8 字符集。
utf16不同于utf8,utf16用两个字节或者四个字节编码字符,可以理解为utf8的不节省空间的一种形式
utf32固定用四个字节编码字符,可以理解为utf8的不节省空间的一种形式

支持的排序规则

使用命令 show collation; 可以查看数据库支持的所有排序规则,由于太多,以下以查看 gb2312 字符集所属的排序规则。

mysql> show collation where Charset='gb2312';
+-------------------+---------+----+---------+----------+---------+---------------+
| Collation         | Charset | Id | Default | Compiled | Sortlen | Pad_attribute |
+-------------------+---------+----+---------+----------+---------+---------------+
| gb2312_bin        | gb2312  | 86 |         | Yes      |       1 | PAD SPACE     |
| gb2312_chinese_ci | gb2312  | 24 | Yes     | Yes      |       1 | PAD SPACE     |
+-------------------+---------+----+---------+----------+---------+---------------+

其中各字段含义如下

  • Collation :排序规则名
  • Charset :所属字符集
  • Id : 每个字符集校对规则的唯一标识符
  • Default : 是否是默认排序规则,YES 表示是所属字符集的默认排序规则
  • Compiled :如果某个字符集校对规则已编译,则该列的值为 Yes,否则为 No。
  • Sortlen :用于排序的最大字符数。
  • Pad_attribute :指示是否在比较字符串时使用填充。

使用如下SQL语句也能查到如上信息,

mysql> select * from information_schema.collations where character_set_name = "gb2312" order by collation_name;
+-------------------+--------------------+----+------------+-------------+---------+---------------+
| COLLATION_NAME    | CHARACTER_SET_NAME | ID | IS_DEFAULT | IS_COMPILED | SORTLEN | PAD_ATTRIBUTE |
+-------------------+--------------------+----+------------+-------------+---------+---------------+
| gb2312_bin        | gb2312             | 86 |            | Yes         |       1 | PAD SPACE     |
| gb2312_chinese_ci | gb2312             | 24 | Yes        | Yes         |       1 | PAD SPACE     |
+-------------------+--------------------+----+------------+-------------+---------+---------------+
2 rows in set (0.00 sec)mysql> 

排序规则命名特点

排序规则(字符集校验规则)名称命名有一定的规律。

  • 排序规则名称以与其关联的字符集的名称开头,可以用通过这个开头查询所有的字符集,也可以查询 information_schema.collations 精确指定字符集
  • 字符集后面跟着的是语言编码,因为utf8mb4包含了所有字符,不同国家的文字语言排序肯定不一样。
  • 最后末尾的ci代表case insensitive,大小写不敏感,所有可能的后缀如下所示:
符号含义
aiaccent insensitive 不区分重音
asaccent sensitive 区分重音
cicase insensitive 不区分大小写
cscase sensitive 区分大小写
binbinary 以二进制方式比较

例如,在字符序“utf8_general_ci”下,字符“a”和“A”是等价的;在字符序“utf8_general_cs”下,字符“a”和“A”是不等价的;在字符序“utf8_bin”下,直接比较字符编码,可以区分大小写,因为字符集的“A”和“a”的编码显然不同。

总结

尽管MySQL 支持众多字符集与排序规则,在使用 MySQL 时,确保数据库、表和列的字符集设置一致,以避免潜在的字符转换问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/322869.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Echart 属性设置

一、设置图形在容器的空间占比 通过设置option.grid属性 grid: {left: 0,right: 0,bottom: 0,top: 0,containLabel: true } 为了方便理解把值都设置成0,我们把图表当成一个子组件,上面的left,right,bottom,top的设置…

pyqtgraph 教程

pyqtgraph 教程 简介 PyQtGraph 是一个用于科学和工程数据可视化的开源库,基于 PyQt 和 NumPy 构建而成。它提供了丰富的绘图工具和交互功能,可以用于创建高性能的实时数据图表、图像显示和信号处理应用。 以下是 PyQtGraph 的一些特点和功能&#xf…

[Kubernetes]4. 借助腾讯云TKE快速创建Pod、Deployment、Service部署k8s项目

前面讲解了通过命令行方式来部署k8s项目,下面来讲讲通过腾讯云TKE来快速创建Pod、Deployment、Service部署k8s项目,云平台搭建Kubernetes可参考[Kubernetes]1.Kubernetes(K8S)介绍,基于腾讯云的K8S环境搭建集群以及裸机搭建K8S集群 一.通过腾讯云TKE创建集群 1.创建集群 参考上…

什么时候需要更换助听器?

什么时候需要更换助听器? 如果您现有的助听器无法完成工作,您如何知道是修理还是更换它们?助听器可能由于两个主要原因而失效,首先,它们可能出现故障,因此不再提供充分或适当的扩增。其次,您的听…

c++牛客总结

一、c/c语言基础 1、基础 1、指针和引用的区别 指针是一个新的变量,指向另一个变量的地址,我们可以通过这个地址来修改该另一个变量; 引用是一个别名,对引用的操作就是对变量本身进行操作;指针可以有多级 引用只有一…

GPU连通域分析方法

第1章连通域分析方法 连通域分析方法用于提取图像中相似属性的区域,并给出区域的面积,位置等特征信息。分为两种,基于游程(Runlength),和基于标记(Label)。 基于游程的方法,按照行对图像进行游…

上班经常迟到怎么办?

相信上班需要打卡的小伙伴都跟博主一样,经常可能因为迟一两分钟导致打开迟到而懊恼。 那么,如何避免这种问题呢?下面给大家提供一下博主自己试过的方法,效果还挺不错的 时间逆推法: 拿博主举例子,我住处到公司大概是…

Spring Security 6.x 系列(14)—— 会话管理之源码分析

一、前言 在上篇 Spring Security 6.x 系列(13)—— 会话管理之会话概念及常用配置 Spring Security 6.x 系列(14)—— 会话管理之会话固定攻击防护及Session共享 中了清晰了协议和会话的概念、对 Spring Security 中的常用会话配置进行了说明,并了解会话固定攻击防护…

计算机毕业设计——SpringBoot+vue仓库管理系统(附源码)

1,绪论 1.2,项目背景 随着电子计算机技术和信息网络技术的发明和应用,使着人类社会从工业经济时代向知识经济时代发展。在这个知识经济时代里,仓库管理系统将会成为企业生产以及运作不可缺少的管理工具。这个仓库管理系统是由&a…

展望2024: 中国AI算力能否引爆高性能计算和大模型训练的新革命?

★算力;算法;人工智能;高性能计算;高性能;高互联;生成式人工智能;StableDiffusion;ChatGPT;CoPilot;文本创建;图像生成;代码编写&…

就绪探针存活探针钩子

存活探针 livenessprobe 杀死容器,重启。 就绪探针 readinessProbe pod的状态是running ready状态是notready 容器不可以提供正常的业务访问,就绪探针不会重启容器 tcpSocket只是监听荣亲上的业务端口能否正常通信。8081没有,8080还在&am…

crontab 创建定时任务

1、创建crontab任务 crontab -ecrontab内容 */59 * * * * sh /home/restartAllSlave.sh >> /home/my-restartAllSlave.log 2>&12、创建执行脚本(restartAllSlave.sh) docker重启如下: docker restart slave_zllrp_gb_1 slav…