大数据技术架构

1 技术架构矩阵

大数据技术栈虽然比较多,但可以抽象为输入(数据接入)--处理(数据处理、数据分析)--输出(数据应用)。工作角色分工,数据处理以数据仓库开发人员为主,数据分析以数据分析师为主,其他所有组件、系统、技术相关归为数据平台。

2 数据源

大数据的数据来源虽然多,但不杂。

mysql是业务主流数据库,支持整表同步和binlog实时同步。整表同步数据量大,一般是数仓T+1方式同步,保证数据一条不丢;还有做到H+2近实时同步。binlog通过canal收集发送到kafka,用于实时数仓计算。

kafka用于同步消息中间件,一般是mysql binlog和埋点日志数据。埋点日志数据量非常大,比如APP的所有曝光、点击行为数据,收集之后用于实时推荐系统,实时推荐模型交互推荐和用户最相关的列表内容。

除此之外,有人会问,是否还有日志文件数据,这些数据一般都会转化为kafka消息,kafka消息统一收集。但凡是json数据都可以转为字符串消息发送到kafka收集。

3 数据接入

数据接入这一层任务量非常大,离线方面,每个表每天0点都到同步数据中心。实时方面则根据消息格式自动生成入库表结构,一直运行。这里需要使用数传平台工具化配置提升效率。

mysql数据最终会落入hive表存储在hdfs上,按天生成hive表分区。对于近实时数据ÿ

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/329287.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

线性规划基本原理与案例分析

线性规划(Linear Programming 简记LP)则是数学规划的一个重要分支。 什么叫做线性规划?一般来讲,目标函数和约束函数均是线性的叫做线性规划问题。线性规划必须满足以下三种基本性质 例1.1 某机床厂生产甲、乙两种机床,每台销售后的利润分别…

关键字:package关键字

在 Java 中,package关键字用于组织和管理类文件。它将类文件分组到不同的包中,以提供更好的代码组织和可读性。 以下是package关键字的用法: 1.package语句:在 Java 源代码的开头使用package关键字来声明当前类所属的包。例如&a…

Python从入门到网络爬虫(异常处理详解)

前言 异常即是一个事件,该事件会在程序执行过程中发生,影响了程序的正常执行。一般情况下,在python无法正常处理程序时就会发生一个异常。异常是python对象,表示一个错误。当python脚本发生异常时我们需要捕获处理它,…

【刷题日记】青少年CTF-Misc(一)

靶场链接 青少年CTF Markdown 题目难度:★ 题目描述:s0ng师傅发现M0x1n师傅特别喜欢用这个写文档,你知道M0x1n这次把FLAG放到哪里了吗?flag格式为:qsnctf{xxx}。 下载附件,打开即可看到flag flag qsnc…

大学物理实验重点——霍尔效应

霍尔系数 霍尔元件灵敏度,愈大愈好 负效应: 1. 不等位电势 V0:两个霍尔电极不可能绝对对 称地焊在霍尔元件两侧(图 2)、霍尔元件电阻率不均匀、工作电极的端面接触不良都 可能造成 C、D 两极不处在同一等位面上。R0 确…

Video classification with UniFormer基于统一分类器的视频分类

本文主要介绍了UniFormer: Unified Transformer for Efficient Spatial-Temporal Representation Learning 代码:https://github.com/Sense-X/UniFormer/tree/main/video_classification UNIFormer 动机 由于视频具有大量的局部冗余和复杂的全局依赖关系&#xf…

强化学习的数学原理学习笔记 - 时序差分学习(Temporal Difference)

文章目录 概览:RL方法分类时序差分学习(Temporal Difference,TD)TD for state valuesBasic TD🟡TD vs. MC 🟦Sarsa (TD for action values)Basic Sarsa变体1:Expected Sarsa变体2:n-…

HUAWEI WATCH 系列 eSIM 全新开通指南来了

HUAWEI WATCH 系列手表提供了eSIM硬件能力,致力为用户提供更便捷、高效的通信体验。但eSIM 业务是由运营商管理并提供服务的,当前运营商eSIM业务集中全面恢复,电信已经全面恢复,移动大部分省份已经全面放开和多号App开通方式&…

解决Typora笔记上传到CSDN上图片无法显示的问题

解决Typora笔记上传到CSDN上图片无法显示的问题 一、发现问题二、分析问题三、解决问题图床介绍所需工具PicGo软件安装操作下载安装PicGo配置PicGo 设置Typora 四、总结 一、发现问题 当我们使用Typora这款强大的Markdown编辑器记录笔记时,经常会遇到一个让人困扰的…

JVM中虚拟机栈和本地方法栈等

jvm Java虚拟机栈本地方法栈 Java虚拟机栈 Java虚拟机栈(VM Stack) ​ 虚拟机栈是线程执行Java程序时,处理Java方法中内容的内存区域。虚拟机栈也是线程私有的区域,每个Java方法被调用的时候,都会在虚拟机栈中创建出…

c++学习第八讲---类和对象---继承

继承: 使子类(派生类)拥有与父类(基类)相同的成员,以节约代码量。 1.继承的基本语法: class 子类名:继承方式 父类名{} ; 例: class father { public:in…

Hadolint:Lint Dockerfile 的完整指南

想学习如何使用 Hadolint 对 Dockerfile 进行 lint 处理吗?这篇博文将向您展示如何操作。这是关于 Dockerfile linting 的完整指南。 通过对 Dockerfile 进行 lint 检查,您可以及早发现错误和问题,并确保它们遵循最佳实践。 什么是Hadolint…