0、技术选型

技术选型参考:

 系统数据流程图

框架发行版本选型

1)如何选择Apache/CDH/HDP版本?

(1)Apache:运维麻烦,组件间兼容性需要自己调研。(一般大厂使用,技术实力雄厚,有专业的运维人员) (建议使用)

(2)CDH:国内使用最多的版本,但CM不开源,今年开始收费,一个节点1万美金/年。

(3)HDP:开源,可以进行二次开发,但是没有CDH稳定,国内使用较少

2)云服务选择

(1)阿里云的EMR、MaxCompute、DataWorks

(2)亚马逊云EMR

(3)腾讯云EMR

(4)华为云EMR

具体版本型号

Apache框架版本

框架

版本

Hadoop

3.1.3

Zookeeper

3.5.7

MySQL

5.7.16

Hive

3.1.2

Flume

1.9.0

Kafka

3.0.0

Spark

3.0.0

DataX

3.0.0

Superset

1.3.2

DolphinScheduler

2.0.3

Maxwell

1.29.2

Flink

1.13.0

Redis

6.0.8

Hbase

2.0.5

ClickHouse

20.4.5.36-2

 

注意事项:框架选型尽量不要选择最新的框架,选择最新框架半年前左右的稳定版。

服务器选型:

服务器选择物理机还是云主机?

1)物理机:

以128G内存,20核物理CPU,40线程,8THDD和2TSSD硬盘,戴尔品牌单台报价4W出头。一般物理机寿命5年左右。

需要有专业的运维人员,平均一个月1万。电费也是不少的开销。

2)云主机

云主机:以阿里云为例,差不多相同配置,每年5W。

很多运维工作都由阿里云完成,运维相对较轻松

3)企业选择

金融有钱公司和阿里没有直接冲突的公司选择阿里云

中小公司、为了融资上市,选择阿里云,拉倒融资后买物理机。

有长期打算,资金比较足,选择物理机。

集群规模

1)如何确认集群规模?(假设:每台服务器8T磁盘,128G内存)

(1)每天日活跃用户100万,每人一天平均100条:100万*100条=1亿条

(2)每条日志1K左右,每天1亿条:100000000 / 1024 / 1024 = 约100G

(3)半年内不扩容服务器来算:100G*180天=约18T

(4)保存3副本:18T*3=54T

(5)预留20%~30%Buf=54T/0.7=77T

(6)算到这:约8T*10台服务器

2)如果考虑数仓分层?数据采用压缩?需要重新再计算

集群资源规划设计

在企业中通常会搭建一套生产集群和一套测试集群。生产集群运行生产任务,测试集群用于上线前代码编写和测试。

1)生产集群

(1)消耗内存的分开

(2)数据传输数据比较紧密的放在一起(Kafka 、Zookeeper)

(3)客户端尽量放在一到两台服务器上,方便外部访问

(4)有依赖关系的尽量放到同一台服务器(例如:Hive和mysql)

Master

Master

core

core

core

common

common

common

nn

nn

dn

dn

dn

JournalNode

JournalNode

JournalNode

rm

rm

nm

nm

nm

zk

zk

zk

hive

hive

hive

hive

hive

kafka

kafka

kafka

spark

spark

spark

spark

spark

datax

datax

datax

datax

datax

Ds-master

Ds-master

Ds-worker

Ds-worker

Ds-worker

maxwell

supset

mysql

flume

flume

flink

flink

clickhouse

redis

hbase

2)测试集群服务器规划

 

阿里云

外网:47.97.164.xxx

内网:172.25.249.xxx

外网:47.98.116.xxx

内网:172.25.249.xxx

外网:121.40.67.xxx

内网:172.25.249.xxx

服务名称

子服务

服务器

hadoop102

服务器

hadoop103

服务器

hadoop104

HDFS

NameNode

DataNode

SecondaryNameNode

Yarn

NodeManager

Resourcemanager

Zookeeper

Zookeeper Server

Flume(采集日志)

Flume

Kafka

Kafka

Flume(消费Kafka日志)

Flume

Flume(消费Kafka业务)

Flume

Hive

MySQL

MySQL

DataX

Maxwell

Maxwell

Spark

DolphinScheduler

ApiApplicationServer

AlertServer

MasterServer

WorkerServer

LoggerServer

Superset

Superset

Flink

ClickHouse

Redis

Hbase

服务数总计

21

11

12

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/9887.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据挖掘】时间序列教程【四】

3.3 划分变体 我们可以对上述 的主模型采用方差分析方法,并将中的总变异分解为 为残差平方和和可归因于各种频率的变化。 第二行是可能的,因为平方的所有交叉项都等于零,即对于所有 ,

《华尔街幽灵》的三大交易规则

规则1:只持有正确的仓位 如果你下单后经过一段时间,市场没有证明你的交易是正确的,那么应该立即平仓。交易者在每次建仓后,首先应关注保护本金,及早平掉不正确的仓位,而不是过多考虑盈利金额。 如何判断交…

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(7 月 3 日论文合集)

文章目录 一、检测相关(9篇)1.1 Federated Ensemble YOLOv5 - A Better Generalized Object Detection Algorithm1.2 Zero-shot Nuclei Detection via Visual-Language Pre-trained Models1.3 Federated Object Detection for Quality Inspection in Shared Production1.4 Comp…

Mac矢量绘图工具 Sketch

Sketch是一款适用于 UI/UX 设计、网页设计、图标制作等领域的矢量绘图软件, 其主要特点如下: 1. 简单易用的界面设计:Sketch 的用户界面简洁明了,使得用户可以轻松上手操作,不需要复杂的学习过程。 2. 强大的矢量绘图功…

【雕爷学编程】Arduino动手做(153)---2.4寸TFT液晶触摸屏模块

37款传感器与执行器的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止这37种的。鉴于本人手头积累了一些传感器和执行器模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的&am…

【网络安全入门】001、基础入门-概念名词

文章目录 基础入门-概念名词1、域名(1)什么是域名(2)域名在哪里注册(3)什么是二级域名多级域名(4)域名发现对于安全测试的意义? 2、DNS(1)什么是D…

如何制作html文件(合集)

在电脑桌面或者在文件夹中点击:鼠标右键-->新建-->文本文档,一般新建好的文档名字叫“新建文本文档.txt”。 如果您创建的文档没有后缀名“txt”,请不要急,下面的步骤将教您如何显示“txt”后缀名。在文件资源管理器中点击&#xff1a…

D盘不见了?3个方法,教你找回丢失的d盘!

谁能帮帮我呀!电脑使用的好好得,d盘突然就不见了。我还有很多很重要的文件都保存在里面呢!还有找回这些文件的希望吗? D盘作为电脑的一个重要磁盘,我们可能会将很多很重要的文件都保存在里面。但不知道大家有没有遇到过…

斯坦福发布最新LLM排行榜AlpacaEval,微软WizardLM登顶开源模型第一

斯坦福发布最新LLM排行榜AlpacaEval,微软WizardLM登顶开源模型第一 文章目录 Part 1. 众多LLM排行榜Part 2. AlpacaEval 技术细节2.1 AlpacaEval 评估效果2.2 如何使用AlpacaEval评估模型 Part 3. 微软 WizardLM 登顶开源模型第一3.1 关于 WizadLM 与 Evol-Instruc…

python代码练习:猜成语游戏

python代码练习:猜成语游戏 题目结果展示源代码 题目 成语填填乐,随机输出一条包含一个空格的成语,填写答案并判断是否正确,正确加2分,输出“正确,你真棒”,错误减2分,输出“错了”…

[uni-app]设置运行到微信小程序

1、设置微信小程序开发工具路径 2、检查微信小程序开发工具是否开启了服务端口 服务端口要是没有开启,会报 initialize。 3、在uni-app开发工具中点击运行微信开发者工具,微信开发工具运行成功。

OSPFv2基础01_整体介绍

目录 1.OSPF简介 2.OSPF工作原理简介 3.OSPF基础概念 3.1 OSPF系统 3.1.1 OSPF路由器分类 3.1.2 OSPF区域 (1)OSPF区域分类 (2)OSPF特殊区域 3.1.3 OSPF路由类型 3.2 OSPF报文 3.2.1 OSPF首部格式 3.2.2 OSPF报文格式 …