大数据(一)定义、特性

大数据(一)定义、特性

本文目录:

一、写在前面的话

二、大数据定义

三、大数据特性

3.1、大数据的大量 (Volume) 特性

3.2、大数据的高速(Velocity)特性

3.3、大数据的多样化 (Variety) 特性

3.4、大数据的价值 (value) 特性

3.5、大数据的真实性 (veracity)  特性

四、大数据的单位

五、大数据涉及的数据类型

六、大数据五大核心领域

七、大数据趋势


一、写在前面的话

2ab463de26a541818271efa176656ae6.png

   一个星期前,我到楼顶浇花,偶遇本楼邻居,她闲话中提起5楼某家的2位今年都走了,听到这个消息,我心里很难受,眼泪忍不住掉下来。。。

   其实我和五楼的那家人并不熟悉,仅有的几次交流也是在十几年前。那时我还在上班,回家时在家附近总能碰到那家的女主人在遛狗。女主人是我们华工大宣传部的一位老师,短发,为人很爽朗。狗狗是一只白色的长毛京巴,狗狗年纪有点大了,跑两步就呼哧呼哧直喘气,有时还会趴地上休息一下,每当这个时候,女主人总是耐心地站在路边等待狗狗,眼神很温柔宠溺,仿佛看着自家的孩子。我喜欢逗狗狗,摸摸它的脑袋,问它今天乖不乖,有没有好好吃饭。。。

   男主人也是我们华工大的老师,我没有机会和他认识,但知道他义务为我们这栋楼做了很多事情,例如处理很多电梯相关事情,到现在,电梯的持有人还是写着这位王老师的名字。

   后来我因为变故,没有再上班,留在家里做家务,基本都不出门,也没有什么机会碰到五楼的那两位邻居。我记得王老师曾用的签名是:给点阳光就灿烂,给个箩筐就下蛋。。。很幽默乐观的一个人。疫情开始后,王老师还在楼群里发过疫情搞笑图片,逗大家开心。。。

   一切仿佛就在昨天,没想到两位长辈走得那么突然。。。

   好人会有好报,今生的苦难修炼会换来来世的一切安好。谨以此文纪念曾经的老邻居。

   逆境清醒

2023.8.24

f3751a45350f4910835ba888fb79118a.gif

二、大数据定义

大数据定义

   大 数 据 (Big Data ) 指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

   大数据是指数据规模巨大、类型多样、传统数据处理工具无法高效处理的数据集合。它可以通过多种方式生成,包括互联网、社交媒体、传感器、金融交易等。

   大数据通常具有三个特点:数据规模大、数据类型多样和数据处理速度快。

   大数据的应用领域包括商业智能、金融、医疗保健、能源、农业、交通等。利用大数据技术可以从数据中获取有价值的信息和知识,以支持决策制定、预测分析、市场营销等方面的工作。

大公司对“大数据”的定义:

(1)、Oracle的定义

Oracle的大数据定义:

   简而言之,大数据指非常庞大、复杂的数据集,特别是来自新数据源的数据集,其规模之大令传统数据处理软件束手无策,却能帮助我们解决以往非常棘手的业务难题。

(2)、研究机构Gartner:

对于“大数据”(Big data)研究机构Gartner给出了这样的定义:

   “大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

(3)、麦肯锡全球研究所给出的定义是:

麦肯锡全球研究所的大数据定义:

   一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

三、大数据特性

大数据特性

   ♦ 大量 (Volume) :数据的大小决定所考虑的数据的价值和潜在的信息;
   ♦ 高速 (Velocity) :指获得数据的速度;
   ♦ 多样化 (Variety) :数据类型的多样性,数据类型众多;
   ♦ 价值 (value) :合理运用大数据,以低成本创造高价值。
   ♦ 真实性 (veracity) :数据的质量。 

3.1、大数据的大量 (Volume) 特性

   大数据的大量特性指的是数据量的巨大。这些数据通常由传感器、移动设备、社交媒体、金融数据、医疗记录等数据来源产生。

大数据的大量特性包括以下几个方面:

   ♦ 数据量巨大: 数据量从几个GB到数百PB不等,规模非常巨大。

   ♦ 数据增长快速:数据以指数级增长,需要使用不断升级的技术和架构才能处理大规模数据。

   ♦ 数据来源多样:数据来源包括传感器、移动设备、社交媒体、金融数据、医疗记录等多个领域。

   ♦ 数据类型多样:数据不仅包括结构化数据,还包括非结构化数据和半结构化数据,如文本、图像、音频和视频等多种类型。

   ♦ 数据复杂度高:数据往往是高度复杂的,包含大量的关联、交互和变化,因此需要高效的处理和分析技术。

   大量的数据给数据处理和分析带来了很大的挑战,需要使用高级技术和工具来处理和分析这些数据。

3.2、大数据的高速(Velocity)特性

   大数据的高速(Velocity)特性是指大数据在产生、传输、存储和处理的速度非常快,数据量巨大,常常是以毫秒或微秒级别计算的。

大数据的高速特性主要体现在以下几个方面:

   ♦ 数据实时产生:大数据往往是实时生成的,例如社交媒体上的用户行为、物联网设备产生的传感器数据等。这些数据需要实时获取和处理。

   ♦ 数据传输速度快:随着网络带宽和数据传输技术的不断提升,大量数据能够在短时间内快速的传输到目标系统,如云端存储和数据处理平台。

   ♦ 数据存储速度快:将大客户端数据快速地写入到数据库中、实时处理数据等。

   ♦ 数据处理速度快:大数据处理采用分布式计算和并行计算技术,能够快速地处理大量数据,例如实时数据挖掘、实时分析和报告等。

   ♦ 数据更新速度快:大数据处理需要非常高的数据更新速度,从而保证数据的实时性和准确性。

   综上所述,大数据的高速特性是指数据产生、传输、存储和处理的速度非常快,能够快速响应用户需求,实现实时的数据分析和决策。

3.3、大数据的多样化 (Variety) 特性

大数据的多样化主要体现在以下几个方面:

   ♦ 数据来源多样化:大数据可以来自各种各样的来源,如传感器、社交媒体、日志、传统数据库等。

   ♦ 数据类型多样化:大数据类型可以是结构化数据(如关系型数据库中的表格数据)、半结构化数据(如XML文件)和非结构化数据(如图片、视频和声音等)。

   ♦ 数据格式多样化:大数据可以采用各种不同的标准和格式进行存储和传输,如CSV、JSON、XML、Avro、ORC等。

   ♦ 数据内容多样化:大数据可以包含各种类型的信息,如文本、数字、图像、音频等,甚至包括无形的事物,如声音、情感、意见等。

   ♦ 数据规模多样化:大数据可以是海量、超大量、甚至是呈指数级别的数据,这也给数据分析和处理带来了很大的挑战。

3.4、大数据的价值 (value) 特性

大数据的价值特性包括以下几个方面:

   ♦ 体量:大数据具有庞大的数据量,这使得人们可以更全面、更准确地了解和预测事物的变化趋势,从而更好地做出决策。

   ♦ 多样性:大数据可以来自各种来源,如传感器、社交媒体、移动设备等等,因此可以包含不同类型的数据,如文本、图像、视频等,这种多样性促进了数据的整合和分析,从而产生更精确的结论。大数据包括结构化数据(如数据库中的数据)和非结构化数据(如社交媒体、日志和图片等),这些数据来源不同、类型不同、格式不同,为决策提供了更全面的信息基础。

   ♦ 速度:大数据的速度特征是指数据的处理速度和更新速度非常快,甚至是实时的。大数据具有高速处理数据的能力,可以在短时间内处理大量数据,从而快速地获取信息,这样的数据可以帮助企业快速做出决策,抢占市场获得市场的竞争优势。

   ♦ 规模:大数据的规模非常大,包含了数十亿或数百亿的数据点。这种数据规模使得企业可以从更大的数据集中获取更好的信息,从而更好地预测市场和客户需求。

   ♦ 价值:大数据的真正价值在于从数据中提取出有用信息,进行分析和应用。这对企业来说非常重要,因为它可以帮助企业做出更好的商业决策,改进产品和服务,优化市场营销等。

   ♦ 精确性:大数据的精确性是指数据的准确性和可信度。保证数据的质量将有助于企业做出更好的决策,提高效率和效益。

   ♦ 可视化:数据可视化可以让人们更好地理解数据,从而发现数据中的模式和趋势。

   ♦ 开放性:大数据需要以开放的方式进行共享和访问,以便更多的人可以使用和分析数据。

   总体来说,大数据价值特性的综合作用是帮助企业更好地理解他们的业务、客户和市场,并根据数据分析结果进行策略制定和执行,从而获得更大的商业价值。

3.5、大数据的真实性 (veracity)  特性

   大数据的真实性 (veracity) 特性指的是数据的精确性和可靠性。由于大数据通常来自各种不同的来源和格式,因此它们可能存在质量问题,例如错误、缺失、重复、歧义等。因此,对于大数据系统来说,确保数据的真实性非常重要,以确保系统的准确性和可靠性。

为了保证数据的真实性,可以采取以下措施:

   ♦ 数据清洗:通过清洗数据来去除错误、重复和不必要的信息,以提高数据的质量和准确性。

   ♦ 数据验证:对数据进行验证以确保其符合业务规则和标准,确保数据的正确性和可靠性。

   ♦ 数据监控:对数据源进行监控,及时发现和纠正数据质量问题,以保证数据的真实性。

   ♦ 数据库管理:对数据库进行管理,包括备份、恢复和维护,以确保数据的安全和一致性。

   ♦ 数据共享:对外共享数据时需要确保数据的真实性和安全性,确保数据不会被篡改或滥用。

   总之,大数据的真实性 (veracity) 特性是确保数据的质量和可靠性,保证大数据系统的正确性和可靠性的关键要素。

四、大数据的单位

   最小的基本单位是bit,按顺序给出所有单位:bitByteKBMBGBTBPBEBZBYBBBNBDB

   它们按照进率10242的十次方)来计算:

1 Byte =8 bit

1 KB = 1,024 Bytes = 8192 bit

1 MB = 1,024 KB = 1,048,576 Bytes

1 GB = 1,024 MB = 1,048,576 KB

1 TB = 1,024 GB = 1,048,576 MB

1 PB = 1,024 TB = 1,048,576 GB

1 EB = 1,024 PB = 1,048,576 TB

1 ZB = 1,024 EB = 1,048,576 PB

1 YB = 1,024 ZB = 1,048,576 EB

1 BB = 1,024 YB = 1,048,576 ZB

1 NB = 1,024 BB = 1,048,576 YB

1 DB = 1,024 NB = 1,048,576 BB

五、大数据涉及的数据类型

大数据涉及的数据类型

数据类型

概念

表现形式

典型场景

结构化数据

也称行数据,是具备统一的结构、能够用行列二维形式表达和管理的数据,如关系型数据库数据。

数据库表等

企业ERP、财务、HR数据库等

半结构化数据

是一种适于数据库集成的数据模型,也可以是一种标记服务的基础模型,用于Web上共享信息。

邮件、HTML、报表等

邮件系统、网页信息、报表系统等

非结构化数据

数据结构不规则,不方便用行列二维形式表达的数据,如图片、文本、音视频等。

视频、音频等

在线视频内容、音频内容、图形图像等

六、大数据五大核心领域

   ♦ 数据存储与计算、

   ♦ 数据管理、

   ♦ 数据流通、

   ♦ 数据应用、

   ♦ 数据安全。

七、大数据趋势

   ♦ 云计算:云计算已成为企业存储和处理大量数据的首选方式。
   ♦ 人工智能和机器学习:人工智能和机器学习技术正在越来越多地应用于大数据分析和预测。
   ♦ 区块链:区块链技术可以用于数据安全和隐私保护。
   ♦ 数据科学:数据科学领域的专业人士正在与大数据分析师一起工作,以更好地理解和利用大数据。
   ♦ 数据质量管理:数据质量管理已成为大数据管理中的一个重要领域,以确保数据的准确性和一致性。
   ♦ 数据可视化:大量数据需要通过数据可视化工具进行呈现,以便更好地理解和利用数据。
   ♦ 边缘计算:边缘计算技术可以在现场处理大量数据,从而减少数据传输和处理时间。

         推荐阅读:

[你找到牵手一辈子的人了吗?] 七夕情人节特辑
数字技术能让古籍“活过来”吗?
心情不好时,帮自己训练个AI情绪鼓励师吧(基于PALM 2.0 finetune)
深度学习框架TensorFlow
人工智能开发人员工作流程、看法、工具统计数据
2023 年6月开发者调查统计结果——最流行的技术(2)
2023 年6月开发者调查统计结果——最流行的技术(1)
让Ai帮我们画个粽子,它会画成什么样呢?

​​

​​

​​

给照片换底色(python+opencv)猫十二分类基于大模型的虚拟数字人__虚拟主播实例

​​

​​

​​

计算机视觉__基本图像操作(显示、读取、保存)直方图(颜色直方图、灰度直方图)直方图均衡化(调节图像亮度、对比度)

​​

​​

​​

 语音识别实战(python代码)(一)

 人工智能基础篇

 计算机视觉基础__图像特征

93d65dbd09604c4a8ed2c01df0eebc38.png​​

 matplotlib 自带绘图样式效果展示速查(28种,全)

074cd3c255224c5aa21ff18fdc25053c.png​​

Three.js实例详解___旋转的精灵女孩(附完整代码和资源)(一)

fe88b78e78694570bf2d850ce83b1f69.png​​

​​

cb4b0d4015404390a7b673a2984d676a.png​​

立体多层玫瑰绘图源码__玫瑰花python 绘图源码集锦

 Python 3D可视化(一)

 让你的作品更出色——词云Word Cloud的制作方法(基于python,WordCloud,stylecloud)

e84d6708316941d49a79ddd4f7fe5b27.png​​

938bc5a8bb454a41bfe0d4185da845dc.jpeg​​

0a4256d5e96d4624bdca36433237080b.png​​

 python Format()函数的用法___实例详解(一)(全,例多)___各种格式化替换,format对齐打印

 用代码写出浪漫__合集(python、matplotlib、Matlab、java绘制爱心、玫瑰花、前端特效玫瑰、爱心)

python爱心源代码集锦(18款)

dc8796ddccbf4aec98ac5d3e09001348.jpeg​​

0f09e73712d149ff90f0048a096596c6.png​​

40e8b4631e2b486bab2a4ebb5bc9f410.png​​

 Python中Print()函数的用法___实例详解(全,例多)

 Python函数方法实例详解全集(更新中...)

 《 Python List 列表全实例详解系列(一)》__系列总目录、列表概念

09e08f86f127431cbfdfe395aa2f8bc9.png​​

​​

用代码过中秋,python海龟月饼你要不要尝一口?

 python练习题目录

03ed644f9b1d411ba41c59e0a5bdcc61.png​​

daecd7067e7c45abb875fc7a1a469f23.png​​

17b403c4307c4141b8544d02f95ea06c.png​​

草莓熊python turtle绘图(风车版)附源代码

 ​草莓熊python turtle绘图代码(玫瑰花版)附源代码

 ​草莓熊python绘图(春节版,圣诞倒数雪花版)附源代码

4d9032c9cdf54f5f9193e45e4532898c.png​​

c5feeb25880d49c085b808bf4e041c86.png​​

 巴斯光年python turtle绘图__附源代码

皮卡丘python turtle海龟绘图(电力球版)附源代码

80007dbf51944725bf9cf4cfc75c5a13.png​​

1ab685d264ed4ae5b510dc7fbd0d1e55.jpeg​​

1750390dd9da4b39938a23ab447c6fb6.jpeg​​

 Node.js (v19.1.0npm 8.19.3) vue.js安装配置教程(超详细)

 色彩颜色对照表(一)(16进制、RGB、CMYK、HSV、中英文名)

2023年4月多家权威机构____编程语言排行榜__薪酬状况

aa17177aec9b4e5eb19b5d9675302de8.png​​​

38266b5036414624875447abd5311e4d.png​​

6824ba7870344be68efb5c5f4e1dbbcf.png​​

 手机屏幕坏了____怎么把里面的资料导出(18种方法)

【CSDN云IDE】个人使用体验和建议(含超详细操作教程)(python、webGL方向)

 查看jdk安装路径,在windows上实现多个java jdk的共存解决办法,安装java19后终端乱码的解决

​​

vue3 项目搭建教程(基于create-vue,vite,Vite + Vue)

fea225cb9ec14b60b2d1b797dd8278a2.png​​

bba02a1c4617422c9fbccbf5325850d9.png​​

37d6aa3e03e241fa8db72ccdfb8f716b.png​​

2023年春节祝福第二弹——送你一只守护兔,让它温暖每一个你【html5 css3】画会动的小兔子,炫酷充电,字体特

 别具一格,原创唯美浪漫情人节表白专辑,(复制就可用)(html5,css3,svg)表白爱心代码(4套)

SVG实例详解系列(一)(svg概述、位图和矢量图区别(图解)、SVG应用实例)

5d409c8f397a45c986ca2af7b7e725c9.png​​

6176c4061c72430eb100750af6fc4d0e.png​​

1f53fb9c6e8b4482813326affe6a82ff.png​​

【程序人生】卡塔尔世界杯元素python海龟绘图(附源代码),世界杯主题前端特效5个(附源码)HTML+CSS+svg绘制精美彩色闪灯圣诞树,HTML+CSS+Js实时新年时间倒数倒计时(附源代码)

 2023春节祝福系列第一弹(上)(放飞祈福孔明灯,祝福大家身体健康)(附完整源代码及资源免费下载)

fffa2098008b4dc68c00a172f67c538d.png​​

5218ac5338014f389c21bdf1bfa1c599.png​​

c6374d75c29942f2aa577ce9c5c2e12b.png​​

 tomcat11、tomcat10 安装配置(Windows环境)(详细图文)

 Tomcat端口配置(详细)

 Tomcat 启动闪退问题解决集(八大类详细)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/81962.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTTP原理与实现

一、基本概念 一、基本原理* 1、全称: HyperText Transfer Protocol (超文本传输协议) 2、底层实现协议:建立在 TCP/IP 上的无状态连接。 3、基本作用:用于客户端与服务器之间的通信,规定客户端和服务器之间的通信格式。包括请…

MyBatis分页与特殊字符处理

文章目录 一、分页1.1 分页插件PageHelper1.2 使用1.2.1 导入pom依赖1.2.2 Mybatis.cfg.xml配置拦截器1.2.3. 配置 Mapper.xml1.2.4 测试 二、特殊字符处理2.1 使用CDATA区段2.2 使用实体引用 一、分页 1.1 分页插件PageHelper PageHelper 是 Mybatis 的一个插件。官网 Page…

Git基础——基本的 Git本地操作

本文涵盖了你在使用Git的绝大多数时间里会用到的所有基础命令。学完之后,你应该能够配置并初始化Git仓库、开始或停止跟踪文件、暂存或者提交更改。我们也会讲授如何让Git忽略某些文件和文件模式,如何简单快速地撤销错误操作,如何浏览项目版本…

centos7安装MySQL8

Centos7安装MySQL8 MySQL版本:8.0.34 1.安装前准备 (1)查看是否安装mariadb [rootkb135 ~]# rpm -qa|grep mariadb (2)卸载mariadb并检查是否卸干净 [rootkb135 ~]# rpm -e --nodeps mariadb-libs-5.5.68-1.el7.x8…

Python代理池健壮性测试 - 压力测试和异常处理

大家好!在构建一个可靠的Python代理池时,除了实现基本功能外,我们还需要进行一系列健壮性测试来确保其能够稳定运行,并具备应对各种异常情况的能力。本文将介绍如何使用压力测试工具以及合适的异常处理机制来提升Python代理池的可…

记一次oracle数据库迁移至mysql数据库(表同步)

目录 一、利用Navicat将oracle迁移至mysql数据库 1、建立数据传输 2、选择需要迁移的数据库跟目标库 3、数据传输选项 4、选择需要迁移表信息 二、迁移之后遇到的一些问题 1、大小写问题 2、数据库函数问题 3、sql语句是否使用空格隔开问题 4、关于子查询别命名问题 …

SpringBoot---内置Tomcat 配置和切换

😀前言 本篇博文是关于内置Tomcat 配置和切换,希望你能够喜欢 🏠个人主页:晨犀主页 🧑个人简介:大家好,我是晨犀,希望我的文章可以帮助到大家,您的满意是我的动力&#x…

Linux:shell脚本:基础使用(5)《正则表达式-sed工具》

sed是一种流编辑器,它是文本处理中非常中的工具,能够完美的配合正则表达式使用,功能不同凡响。 处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用s…

【云原生】Docker Cgroups资源控制管理

目录 一、cgroups简介 cgroups有四大功能: 二、cpu时间片的概念 三、对CPU使用的限制 3.1 设置CPU使用率上限 (1)查看容器的默认CPU使用限制 (2)进行压力测试 (3)创建容器时设置CPU使用时…

哲讯科技携手无锡华启动SCM定制化项目,共谋数字化转型之路

无锡华光座椅弹簧有限公司启动SCM定制化项目 近日,无锡华光座椅弹簧有限公司顺利举行了SCM定制化项目的启动会。本次启动会作为该项目实施的重要里程碑,吸引了双方项目组核心成员的共同参与,并见证了项目的正式启动。 无锡华光座椅弹簧有限公…

CentOS KVM虚拟安装和开机启动

1. 配置系统 关闭SELinux setenforce 0持久化关闭配置 vi /etc/selinux/config2. 安装虚拟化软件 安装 KVM、QEMU等虚拟化软件。 yum install qemu-kvm qemu-img virt-manager libvirt virt-install virt-viewer 检查LVM模块是否已经加载 lsmod |grep kvm设置开机启动 s…

【android12-linux-5.1】【ST芯片】驱动移植后编译不通过

ST传感器芯片驱动移植后,编译报错timespec_to_ns未定义,这应该是内核版本的差异引起的。驱动的适配版本是4.19y,我实际使用的内核linux版本是5.1。 处理方法是使用timespec64_to_ns,如下图: 新代码如下: s…