大数据导论(3)---大数据技术

文章目录

  • 1. 大数据技术概述
  • 2. 数据采集与预处理
    • 2.1 数据采集
    • 2.2 预处理
  • 3. 数据存储和管理
    • 3.1 分布式基础架构Hadoop
    • 3.2 分布式文件系统HDFS
    • 3.3 分布式数据库HBase
    • 3.4 非关系型数据库NoSQL
  • 4. 数据可视化与保护


1. 大数据技术概述

 大数据技术主要包括数据采集与预处理、数据存储、数据处理与分析、数据可视化、数据安全和隐私保护等几个层面的内容。

技术层面功能
数据采集与预处理利用ETL工具将分布的、异构数据源中的数据,如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;利用日志采集工具(如 Flume、Kafka 等)把实时采集的数据作为流计算系统的输入,进行实时处理分析;利用网页爬虫程序到互联网网站中爬取数据
数据存储和管理利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理
数据处理与分析利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理与分析
数据可视化对并行结果进行可视化呈现,帮助人们更好地理解数据、分析数据
数据安全和隐私保护在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全

2. 数据采集与预处理

2.1 数据采集

 1. 数据采集,又称 “数据获取”,是数据分析的入口,也是数据分析过程中相当重要的一个环节,它通过各种技术手段把外部各种数据源产生的数据实时或非实时地采集并加以利用。

 2. 数据采集的3大特点:① 全面性。 ② 多维性。 ③ 高效性。

 3. 数据采集的主要数据源包括传感器数据、互联网数据、日志文件、企业业务系统数据。

 4. 传统的数据采集与大数据采集区别:

传统的数据采集大数据采集
数据源来源单一、数据量相对较少来源广泛、数据量巨大
数据类型结构单一数据类型丰富,包括结构化、半结构化、非结构化
数据存储关系数据库和并行数据库分布式数据库、分布式文件系统

2.2 预处理

 1. 数据清洗(预处理)是将大量原始数据中的 “脏” 数据 “洗掉”,它是发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。

 2. 需要清洗的数据的主要类型:① 残缺数据。 ② 错误数据。 ③ 重复数据。

 3.数据清洗主要包括以下内容:

  • 一致性检查。
  • 无效值和缺失值的处理。常用方法有:估算、整例删除、变量删除、成对删除。

3. 数据存储和管理

 存储与管理贯穿大数据处理过程的始终,数据非结构化的特征明显,需要依靠分布式文件系统、分布式数据库、NoSQL 数据库、云数据库等技术来实现。

  • 分布式基础架构Hadoop
  • 分布式文件系统HDFS
  • 分布式数据库HBase
  • 非关系型数据库NoSQL

3.1 分布式基础架构Hadoop

 1. Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。Hadoop是基于Java语言开发,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。

在这里插入图片描述

 2. Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop在企业中的应用架构如下图所示。

在这里插入图片描述

3.2 分布式文件系统HDFS

 1. 分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群。

 2. 分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类,一类叫 “主节点”(Master Node)或者也被称为 “名称结点”(NameNode),另一类叫 “从节点”(Slave Node)或者也被称为 “数据节点”(DataNode)。

  • 在HDFS中,名称节点(NameNode)负责管理分布式文件系统的命名空间,名称节点记录了每个文件中各个块所在的数据节点的位置信息。
  • 数据节点是分布式文件系统HDFS的工作节点,负责数据的存储和读取,会根据
    客户端或者是名称节点的调度来进行数据的存储和检索,并且向名称节点定期
    发送自己所存储的块的列表。

在这里插入图片描述

 3. HDFS默认一个块128MB,一个文件被分成多个块,以块作为存储单位(块存储)块的大小远远大于普通文件系统,可以最小化寻址开销。

3.3 分布式数据库HBase

 1. HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表。

在这里插入图片描述

 2. 最基本的存储单位是列(Column),一个或者多个列构成一行(row)。若干个列组成一个列族(Column family)。传统关系数据库中行的结构是相同的。在HBase中两行的结构可以不同,甚至可以完全不同。

在这里插入图片描述

3.4 非关系型数据库NoSQL

 1. 通常,NoSQL数据库具有以下几个特点:(1)灵活的可扩展性。(2)灵活的数据模型。(3)与云计算紧密融合。

在这里插入图片描述

 2. NoSQL与关系数据库的比较总结:
 (1) 关系数据库
 优势:以完善的关系代数理论作为基础,有严格的标准,支持事务ACID四性,借助索引机制可以实现高效的查询,技术成熟,有专业公司的技术支持。
 劣势:可扩展性较差,无法较好支持海量数据存储,数据模型过于死板、无法较好支持Web2.0应用,事务机制影响了系统的整体性能等。
 (2) NoSQL数据库
 优势:可以支持超大规模数据存储,灵活的数据模型可以很好地支持Web2.0应用,具有强大的横向扩展能力等。
 劣势:缺乏数学理论基础,复杂查询性能不高,大都不能实现事务强一致性,很难实现数据完整性,技术尚不成熟,缺乏专业团队的技术支持,维护较困难等。

 3. NoSQL数据库虽然数量众多,但是归结起来,典型的NoSQL数据库通常包括键值数据库、列族数据库、文档数据库和图形数据库。

在这里插入图片描述

4. 数据可视化与保护

 1. 数据可视化的作用:让 “茫茫数据” 以可视化的方式呈现,让枯燥的数据以简单友好的图表形式展现出来,可以让数据变得更加通俗易懂,有助于用户更加方便快捷地理解数据的深层含义,有效参与复杂的数据分析过程,提升数据分析效率,改善数据分析效果。

 2. 数据安全技术:(1) 身份认证技术。 (2) 防火墙技术。 (3) 访问控制技术。 (4) 人脸检测技术。 (5) 加密技术。

参考资源:林子雨编著的《大数据导论》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/418212.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【网络安全】-入门版

secure 一、基本工具1、metasploit framework ps.本着兴趣爱好,加强电脑的安全防护能力,并严格遵守法律和道德规范。一、基本工具 1、metasploit framework msf(metasploit framework)是一个开源的渗透测试框架,用于…

回调地狱与解决方案

什么是回调地狱? 简单理解就是回调函数嵌套回调 示例: setTimeout(() > {console.log(1);setTimeout(() > {console.log(2);setTimeout(() > {console.log(3);}, 1000);}, 2000)}, 3000)如上代码所示,回调函数嵌套回调,就…

docker安装 mysql 8.0.32

首先下载 mysql 其次如果虚拟机以前安过mysql 需要把mysql关闭 命令 永久关闭mysql 但是当前不生效 需要重启虚拟机 systemctl enable mysqld 如果不想重启虚拟机 可以执行 systemctl stop mysqld //指定版本 docker pull mysql:8.0.32 // 拉取最新的…

keep-alive组件缓存

keep-alive组件缓存 从a跳b,a已经销毁,b重新渲染;b跳a,b销毁a重新渲染 源组件销毁,目标组件渲染 组件缓存:组件实例等相关( 包括vnode)存储起来 重新渲染指的是:把视图重…

2023年,世界在战,世界大战

一、前言 2023年,世界好不热闹,巴以冲突、俄乌战争、胡塞武装袭击、中美贸易战。可谓是一浪接着一浪,大有一种你方唱罢我方登场的气势。因此,今年给我印象最深的就是,这个世界怎么了?这些战争什么时候…

PGSQL安装PostGIS扩展模块

一、PostGIS简介 1、PostGIS介绍 PostGIS是一个空间数据库,空间数据库像存储和操作数据库中其他任何对象一样去存储和操作空间对象。 空间数据与数据库关联起来的三个要素:数据类型、索引和函数。 空间数据类型:用于指定图形为点&#xff0…

LLM:Scaling Laws for Neural Language Models (上)

论文:https://arxiv.org/pdf/2001.08361.pdf 发表:2020 摘要1:损失与模型大小、数据集大小以及训练所用计算量成比例,其中一些趋势跨越了七个量级以上。 2:网络宽度或深度等其他架构细节在很大范围内影响较小。3&…

使用STM32的GPIO口实现LED闪烁

✅作者简介:热爱科研的嵌入式开发者,修心和技术同步精进 代码获取、问题探讨及文章转载可私信。 ☁ 愿你的生命中有够多的云翳,来造就一个美丽的黄昏。 🍎获取更多嵌入式资料可点击链接进群领取,谢谢支持!&#x1f447…

ros2 基础教程-使用ROS 2进行相机标定

ROS 2进行相机标定(Camera Calibration) 相机(摄像头)是一种非常精密的光学仪器,对外界环境的感知非常敏感。由于摄像头内部和外部的一些原因,摄像头采集的图像常常会发生一定的畸变。如果直接将采集到的图…

ubuntu20遇到缺少qt4相关库的问题

最近需要做套接字通讯的工作,最好是有一个网络调试软件能够接受或者发送套接字,测试代码能够正常通讯。windows下有很多,但是linux下比较少,使用广泛的是下面这一款。 1、安装 首先从网盘(链接: https://pan.baidu.c…

【51单片机Keil+Proteus8.9】控制步进电机+LCD1602显示状态

步进电机控制 设计思路 电路设计: 选用AT89C51单片机作为电路核心部件,外加LM016L液晶显示屏作为显示,显示步进电机的Fast,Slow,Stop的三个状态将AT89C51单片机所选引脚与LM016L控制引脚相连,再将数据通…

ros2 基础学习16 - RQT:模块化可视化工具

RQT:模块化可视化工具 ROS中的Rviz功能已经很强大了,不过有些场景下,我们可能更需要一些简单的模块化的可视化工具,比如只显示一个摄像头的图像,使用Rviz的话,难免会觉得操作有点麻烦。 此时,我…