MySQL常用编码格式详解utf8、utf8mb4、utf8mb4_unicode_ci 、utf8mb4_0900_ai_ci

news/2025/2/6 13:18:33/文章来源:https://www.cnblogs.com/o-O-oO/p/18700909

前言常用字符集utf8utf8mb4排序规则（Collation）utf8mb4_general_ciutf8mb4_unicode_ciutf8mb4_0900_ai_ci总结对比使用建议示例

前言

在使用MySQL创建数据库时候免不了选择字符集和排序规则，不同的字符集对应不同的排序规则，不同的排序规则的性能和效果是不一样的。一般我们经常使用到的字符集是utf8mb4，使用到的排序规则是utf8mb4_general_ci、utf8mb4_unicode_ci、utf8mb4_0900_ai_ci三种。那么今天就来详细介绍下这几种字符集和排序规则，方便大家今后选用。

常用字符集

utf8 和 utf8mb4是我们常用的字符集。

utf8

定义：MySQL中的utf8字符集实际上是指utf8mb3，即每个字符最多使用3个字节进行编码。
支持字符范围：支持大部分Unicode字符，但不包括某些需要4个字节表示的字符（如部分表情符号、一些罕用汉字等）。
适用场景：适合不需要完整Unicode支持的场景，占用空间较小。

utf8mb4

定义：真正的UTF-8实现，每个字符最多使用4个字节进行编码。
支持字符范围：完全支持所有Unicode字符，包括表情符号和罕用汉字。
适用场景：适合需要处理全球语言和特殊字符的场景，虽然占用更多存储空间，但确保了数据完整性。

排序规则

不同的字符集对应不同的排序规则，一般我们字符集选择utf8mb4便于保存表情等特殊字符，那么我们的排序规则则主要介绍utf8mb4_general_ci、utf8mb4_unicode_ci、utf8mb4_0900_ai_ci。其中_ai表示“accent insensitive”，不区分重音。_ci表示“case insensitive”，不区分大小写。

utf8mb4_general_ci

定义：通用的不区分大小写的排序规则。
特点：
比较快，因为它的比较规则较为简单。
不完全符合Unicode标准，在某些情况下可能不够准确。
适用场景：适合对性能要求较高且对排序准确性要求不高的场景。

utf8mb4_unicode_ci

定义：基于Unicode标准的不区分大小写的排序规则。
特点：
更加准确，遵循Unicode标准。
性能稍差于_general_ci，但在大多数情况下可以接受。
适用场景：适合对排序准确性有较高要求的场景。

utf8mb4_0900_ai_ci

定义：MySQL 8.0引入的新排序规则，基于Unicode 9.0标准，不区分大小写和重音。
特点：
支持更多的语言和字符特性。
提供更准确的比较和排序结果。
性能优化较好，提供更好的国际化支持，适合现代应用。
适用场景：适合需要处理多语言文本和特殊字符的现代应用。

总结对比

通过选择合适的字符集和排序规则，可以在性能和功能之间找到最佳平衡，确保MySQL数据库在处理多语言和特殊字符时的正确性和高效性。

使用建议

如果需要支持表情符号或其他4字节字符：使用utf8mb4。
如果对性能要求较高且不需要严格的Unicode排序：选择utf8mb4_general_ci。
如果需要严格的Unicode排序和更好的国际化支持：选择utf8mb4_unicode_ci。
如果需要最新的Unicode标准和不区分重音的支持：选择utf8mb4_0900_ai_ci。

示例

创建数据库时设置字符集和排序规则

CREATE DATABASE mydb
CHARACTER SET utf8mb4
COLLATE utf8mb4_unicode_ci;

创建表时设置字符集和排序规则

CREATE TABLE mytable (
id INT PRIMARY KEY,
name VARCHAR(255)
) ENGINE=InnoDB
DEFAULT CHARSET=utf8mb4
COLLATE=utf8mb4_unicode_ci;

修改现有表的字符集和排序规则

ALTER TABLE mytable
CONVERT TO CHARACTER SET utf8mb4
COLLATE utf8mb4_unicode_ci;

原创 senfel 架构集结号

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/879626.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

MySQL常用编码格式详解utf8、utf8mb4、utf8mb4_unicode_ci 、utf8mb4_0900_ai_ci

前言

常用字符集

utf8

utf8mb4

排序规则

utf8mb4_general_ci

utf8mb4_unicode_ci

utf8mb4_0900_ai_ci

总结对比

使用建议

示例

相关文章

JS-50 事件类型之表单事件

第一章：计算机的历史

2025年打工人自救指南：四款工作计划管理APP对比

数字先锋 | 竞技科研蓝海，中南大学先“算”一步！

利用ima.copilot，打造你的AI知识库

openmv识别颜色--单颜色识别

flutter3-dymall仿抖音直播商城|Flutter3.27短视频+直播+聊天App实例

DeepSeek-R1本地部署使用

面向 Workload 级别的灵活可配置 Serverless 弹性解决方案

腾讯云 TI 平台部署与调用DeepSeek-R1大模型的实战指南

本地化部署deepseek For_Mac

数字先锋 | 车企，出海！天翼云AOne擦亮车企“智慧服务”新名片！