Clickhouse 学习笔记(6)—— ClickHouse 分片集群

前置知识:

Clickhouse学习笔记(5)—— ClickHouse 副本-CSDN博客

与副本对比:

副本虽然能够提高数据的可用性,降低丢失风险,但是每台服务器实际上必须容纳全量数据,对数据的横向扩容没有解决

要解决数据水平切分的问题,需要引入分片的概念。通过分片把一份完整的数据进行切分,不同的分片分布到不同的节点上,再通过 Distributed 表引擎把数据拼接起来一同使用

Distributed 表引擎本身不存储数据,有点类似于 MyCat 之于 MySql,成为一种中间件,通过分布式逻辑表来写入、分发、路由来操作多台节点不同分片的分布式数据

集群写入流程(3分片 2副本 共6节点)

一般来说internal_replication这一参数都是为true的,可以减轻distribute节点的压力

集群读取流程(3分片 2副本 共6节点)

所谓errors_count就是在通信过程中产生错误的次数

集群配置流程(2分片 只有1个分片有副本 3节点)

集群架构示意

1.新建配置文件metrika-shard.xml

在hadoop102上,进入/etc/clickhouse-server/config.d

新建文件metrika-shard.xml

也可以不创建外部文件,直接在 config.xml 的<remote_servers>中指定

先文件中写入内容(hadoop102):

<?xml version="1.0"?>
<yandex><remote_servers><gmall_cluster> <!-- 集群名称--> <shard> <!--集群的第一个分片--><internal_replication>true</internal_replication><replica> <!--该分片的第一个副本--><host>hadoop102</host><port>9000</port></replica><replica> <!--该分片的第二个副本--><host>hadoop103</host><port>9000</port></replica></shard><shard> <!--集群的第二个分片--><internal_replication>true</internal_replication><replica> <!--该分片的第一个副本--><host>hadoop104</host><port>9000</port></replica></shard></gmall_cluster></remote_servers><zookeeper-servers><node index="1"><host>hadoop102</host><port>2181</port></node><node index="2"><host>hadoop103</host><port>2181</port></node><node index="3"><host>hadoop104</host><port>2181</port></node></zookeeper-servers><macros><shard>01</shard> <!--不同机器放的分片数不一样--><replica>rep_1_1</replica> <!--不同机器放的副本数不一样--></macros></yandex>

hadoop103:(仅macros参数不同)

  <macros><shard>01</shard> <!--不同机器放的分片数不一样--><replica>rep_1_2</replica> <!--不同机器放的副本数不一样--></macros>

hadoop104:(仅macros参数不同)

  <macros><shard>02</shard> <!--不同机器放的分片数不一样--><replica>rep_2_1</replica> <!--不同机器放的副本数不一样--></macros>

2.修改config.xml

然后同步到hadoop103、104

3.重启服务

sudo clickhouse restart

查看是否启动成功:ps -ef | grep clickhouse

集群功能测试

在hadoop102创建表,会自动同步到hadoop103和104上

create table st_order_mt on cluster gmall_cluster (\id UInt32,\sku_id String,\total_amount Decimal(16,2),\create_time Datetime\
) engine =ReplicatedMergeTree('/clickhouse/tables/{shard}/st_order_mt','{replica}')\
partition by toYYYYMMDD(create_time)\
primary key (id)\
order by (id,sku_id);

其中on cluster后面要设置配置文件中自定义的集群名称

ReplicatedMergeTree中的分片和副本名称从配置文件的宏定义(marcos)中获取

可以看到在103和104上都有对应的表:

然后在 hadoop102 上创建 Distribute 分布式表

create table st_order_mt_all on cluster gmall_cluster\
(id UInt32, \sku_id String,\total_amount Decimal(16,2),\create_time Datetime\
)engine = Distributed(gmall_cluster,default, st_order_mt,hiveHash(sku_id));

参数含义:

Distributed(集群名称,库名,本地表名,分片键)

分片键必须是整型数字,所以用 hiveHash 函数转换,也可以 rand()

同样也可以同步到103和104上:

然后在hadoop102上插入数据:

insert into st_order_mt values\
(201,'sku_009',1000.00,'2020-06-01 12:00:00') ,\
(202,'sku_009',1000.00,'2020-06-01 12:00:00') ,\
(201,'sku_009',1000.00,'2020-06-01 12:00:00') ,\
(201,'sku_009',1000.00,'2020-06-01 12:00:00') ,\
(201,'sku_009',1000.00,'2020-06-01 12:00:00') ,\
(201,'sku_009',1000.00,'2020-06-01 12:00:00') ,\
(201,'sku_009',1000.00,'2020-06-01 12:00:00') ,\
(201,'sku_009',1000.00,'2020-06-01 12:00:00') ,\
(201,'sku_009',1000.00,'2020-06-01 12:00:00') ,\
(201,'sku_009',1000.00,'2020-06-01 12:00:00') ,\(202,'sku_002',2000.00,'2020-06-01 12:00:00'),\
(203,'sku_004',2500.00,'2020-06-01 12:00:00'),\
(204,'sku_002',2000.00,'2020-06-01 12:00:00'),\
(205,'sku_003',600.00,'2020-06-02 12:00:00');

查询分布式表和本地表即可得到结果;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/168789.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TCP触发海康扫码相机S52CN-IC-JQR-NNN25

PC环境设置 为保证客户端正常运行以及数据传输的稳定性&#xff0c;在使用客户端软件前&#xff0c;需要对 PC 环境 进行设置 关闭防火墙 操作步骤如下&#xff1a; 1. 打开系统防火墙。 2. 在自定义设置界面中&#xff0c;选择关闭防火墙的对应选项&#xff0c;并单击…

[工业自动化-14]:西门子S7-15xxx编程 - 软件编程 - STEP7 TIA博途是全集成自动化软件TIA portal快速入门

目录 一、TIA博途是全集成自动化软件TIA portal快速入门 1.1 简介 1.2 软件常用界面 1.3 软件安装的电脑硬件要求 1.4 入口 1.5 主界面 二、PLC软件编程包含哪些内容 2.1 概述 2.2 电机运动控制 一、TIA博途是全集成自动化软件TIA portal快速入门 1.1 简介 Siemens …

Flutter笔记:光影动画按钮、滚动图标卡片组等

Flutter笔记 scale_design更新&#xff1a;光影动画按钮、滚动图标卡片组 作者&#xff1a;李俊才 &#xff08;jcLee95&#xff09;&#xff1a;https://blog.csdn.net/qq_28550263 邮箱 &#xff1a;291148484163.com 本文地址&#xff1a;https://blog.csdn.net/qq_28550263…

OpenGL_Learn08(坐标系统与3D空间)

目录 1. 概述 2. 局部空间 3. 世界空间 4. 观察空间 5. 剪裁空间 6. 初入3D 7. 3D旋转 8. 多个正方体 9. 观察视角 1. 概述 OpenGL希望在每次顶点着色器运行后&#xff0c;我们可见的所有顶点都为标准化设备坐标(Normalized Device Coordinate, NDC)。也就是说&#x…

C++结构体定义 创建 赋值 结构体数组 结构体指针 结构体嵌套结构体

结构体是什么&#xff1f; struct是自定义数据类型&#xff0c;是一些类型集合组成的一个类型。结构体的定义方式 #include<iostream> using namespace std;struct Student {string name;int age;int score; };创建结构体变量并赋值 方式一&#xff0c;先创建结构体变…

2023年05月 Python(四级)真题解析#中国电子学会#全国青少年软件编程等级考试

Python等级考试(1~6级)全部真题・点这里 一、单选题(共25题,每题2分,共50分) 第1题 下列程序段的运行结果是?( ) def s(n):if n==0:return 1else:

【已验证-直接用】微信小程序wx.request请求服务器json数据并渲染到页面

微信小程序的数据总不能写死吧&#xff0c;肯定是要结合数据库来做数据更新&#xff0c;而小程序数据主要是json数据格式&#xff0c;所以我们可以利用php操作数据库&#xff0c;把数据以json格式数据输出即可。 现在给大家讲一下微信小程序的wx.request请求服务器获取数据的用…

51单片机应用从零开始(一)

1. 单片机在哪里 单片机是一种集成电路芯片&#xff0c;通常被嵌入到电子设备中用于控制和处理数据&#xff0c;例如家电、汽车、电子玩具、智能家居等。因此&#xff0c;你可以在许多电子设备中找到单片机的存在。单片机通常被放置在设备的主板或控制板上。 2. 单片机是什么…

【中间件篇-Redis缓存数据库04】Redis底层原理持久化、分布式锁

Redis底层原理 持久化 Redis虽然是个内存数据库&#xff0c;但是Redis支持RDB和AOF两种持久化机制&#xff0c;将数据写往磁盘&#xff0c;可以有效地避免因进程退出造成的数据丢失问题&#xff0c;当下次重启时利用之前持久化的文件即可实现数据恢复。 RDB RDB持久化是把当…

ElasticSearch7.x - HTTP 操作 - 索引操作

创建索引 对比关系型数据库,创建索引就等同于创建数据库 在 Postman 中,向 ES 服务器发 PUT 请求 :http://192.168.254.101:9200/shopping 说明 {"acknowledged"【响应结果】: true, # true 操作成功"shards_acknowledged"【分片结果】: true, # 分片操…

VB.NET—Bug调试(参数话查询、附近语法错误)

目录 前言: BUG是什么&#xff01; 事情的经过: 过程: 错误一: 错误二: 总结: 前言: BUG是什么&#xff01; 在计算机科学中&#xff0c;BUG是指程序中的错误或缺陷&#xff0c;它通过是值代码中的错误、逻辑错误、语法错误、运行时错误等相关问题&#xff0c;这些问题…

xcode SDK does not contain ‘libarclite‘

SDK does not contain libarclite at the path /Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/lib/arc/libarclite_iphonesimulator.a; try increasing the minimum deployment target解决方法 iOS13以上