【大数据开发--概念篇】

前言:
💞💞大家好,书生♡,今天主要和大家分享一下大数据的相关概念,以及我们大数据开发的环境,希望对大家有所帮助。
💞💞路漫漫,希望大家坚持下去,不忘初心,成为一名优秀的程序员

个人主页⭐: 书生♡
gitee主页🙋‍♂:闲客
专栏主页💞:大数据开发
博客领域💥:大数据开发,java编程,前端,算法,Python
写作风格💞:超前知识点,干货,思路讲解,通俗易懂
支持博主💖:关注⭐,点赞、收藏⭐、留言💬

在这里插入图片描述

目录

  • 1.大数据概念
  • 2. 大数据有什么用处?为什么要学习大数据?
  • 3.大数据的特性
  • 4. 大数据的应用场景
  • 5. Linux系统概述

1.大数据概念

什么是大数据?

麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

我们通过对这段话的简化其实就是:无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,因此需要新处理模式,该处理模式就是大数据。

2. 大数据有什么用处?为什么要学习大数据?

大数据就是为了解决以下两个问题:
1.海量数据存储
2.海量数据运算

那为什么要解决海量数据的存储和运算呢?又是怎么解决的呢?

  海量数据就是数据的量太大,正常计算时无法在短时间内得到最终的结果,没有最终的结果就不能一次性的装入内存,这时候就要分批次或者搭配合适的数据,最终才能达到目的。
  所谓的大数据其实比海量数据稍微升级了一点点,大数据其实就是把海量数据按一定的方法将其分解,再对其分解的每一个数据进行逐一的解决,并分别找出其结果,再组成最终的结果。

大数据跟海量数据有什么联系呢?

海量数据与大数据的关系 ,海量数据与大数据的关系其实是相互的,海量数据可以包含在大数据里面,同样大数据也可以包含在海量数据里面。
海量数据需要找合适的数据来进行计算时,大数据也可以将海量数据分解并帮助其计算完成。

  大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
  从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术
  随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
  大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它们按照进率1024(2的十次方)来计算:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB

3.大数据的特性

大数据的特点用五个字表述就是:大多值快信

大:全球数据体量大
全球: 35ZB(2020年)
百度:74PB、8PB(前面的是硬盘数据量,后面的是内存数据量)
阿里:60PB,7.2PB
腾讯: 100PB, 4PB

在这里插入图片描述

多:种类和来源多样化
数据受大量互联网用户等因素的影响,来源广泛,因此大数据的类型也多种多样。大数据按因果关系强弱可分为三类,即结构化数据、非结构化数据和半结构化数据,统称为大数据。数据显示,结构化数据在整个大数据中所占比例比较大,高达75%,但能够产生高价值的大数据是非结构化数据。

值:低价值密度
大数据价值在大数据特征中占有核心地位。大数据的总量与其价值密度成反比。同时,任何有价值的信息都是经过大量基础数据处理后提取出来的。在大数据蓬勃发展的今天,如何提高计算机算法处理海量大数据并提取有价值信息的速度一直是人们探索的问题。

快:速度快
大数据的高速特性主要体现在数据量的快速增长和处理。与传统媒体相比,在大数据时代的今天,信息的生产和传播发生了巨大的变化。在互联网和云计算的影响下,大数据可以快速产生和传播。此外,由于信息的时效性,在处理大数据的过程中也要求反应迅速,不能延迟数据的输入和提取。

信:数据的质量
数据的准确性和数据的可信赖度,也是我们大数据的必备要求之一。

4. 大数据的应用场景

大数据技术的应用领域有哪些?

1、电商领域:相信大数据在电商领域的应用,大家已经屡见不鲜了,淘宝京东等电商平台利用大数据技术,对用户信息进行分析,从而为用户推送用户感兴趣的产品,从而刺激消费。

2、政府领域:“智慧城市”已经在多地尝试运营,通过大数据,政府部门得以感知社会的发展变化需求,从而更加科学化、精准化、合理化的为市民提供相应的公共服务以及资源配置。

3、医疗领域:医疗行业通过临床数据对比、实时统计分析、远程病人数据分析、就诊行为分析等,辅助一声进行临床决策,规范诊疗路径,提高一声的工作效率。

4、传媒领域:传媒相关企业通过收集各式各样的信息,进行分类筛选、清洗、深度加工,实现对读者和受众葛新华需求的准确定位和把握,并追踪用户的浏览习惯,不断进行信息优化。

5、安防领域:安防行业可实现视频图像模糊查询、快速检索、精准定位,并能够进一步挖掘海量视频监控数据背后的价值信息,反馈内涵知识辅助决策判断。

6、金融领域:用户画像的基础上,银行可以根据用户的年龄、资产规模、理财偏好等,对用户群进行精准定位,分析出潜在的金融服务需求。

7、电信领域:电信行业拥有庞大的数据,大数据技术可以应用于网络管理、客户关系管理、企业运营管理等,并且使数据对外商业化,实现单独盈利。

5. Linux系统概述

  • linux发行时间: 1991年
  • linux的创始人: 林纳斯·托瓦兹
  • linux的吉祥物: 企鹅
  • linux的内核完全开源免费,但是linux的发行版不一定免费

常见的linux发行版有哪些?

  • redhat : 世界最大的linux发行版厂商, 已经被IBM收购
  • ubuntu: 桌面操作系统做的最好的
  • centos: 目前中国市场使用最多的linux版本,目前已经被redhat收购,但依然免费
  • deepin: 深度公司开发的linux版本.国内做的最好的linux发行版

  今天的内容理解较为简单并且大多数为概念问题。所以大家只需要了解就可以了,掌握最主要的几个知识点就可以,如大数据的特性以及什么是大数据,大数据的单位是什么,为什么要使用大数据,需要用它解决什么问题。
  欢迎大家沟通交流,点赞评论,互关三联,💖💖💖💖。
  愿各位在程序员的道路上越走越远,前途无限。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/535577.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【系统架构设计师】系统工程与信息系统基础 01

系统架构设计师 - 系列文章目录 01 系统工程与信息系统基础 文章目录 系列文章目录 前言 一、系统工程 ★ 二、信息系统生命周期 ★ 信息系统建设原则 三、信息系统开发方法 ★★ 四、信息系统的分类 ★★★ 1.业务处理系统【TPS】 2.管理信息系统【MIS】 3.决策支持系统…

ELK 安装部署

文章目录 1.日志收集规划2.Elasticsearch部署2.1.Elasticsearch安装2.2.Elasticsearch-head安装2.3.Elasticsearch设置分片数2.4.elasticsearch健康检查 3.Kibana部署4.Logstash部署5.Filebeat部署 开源中间件 # Elastic Stackhttps://iothub.org.cn/docs/middleware/ https:/…

【阿里云系列】-利用yaml文件部署NacosXxl-job到ACK

背景介绍 随着容器化的技术成熟落地,拥抱各种成熟的容器化集群平台是加速我们落地的必然之路,目前国内以阿里云、华为云、腾讯云为平台的供应商为主,国外则以AWS,Azure为主,让我们借助平台已有的优势进行快速落地提高…

VMware安装Ubuntu虚拟机

1. 安装VMware VMware中国官网:VMware - Delivering a Digital Foundation For Businesses VMware Workstation Player(官方个人免费版):VMware Workstation Player | VMware VMware Workstation Pro(商用收费版&am…

酷开系统走在前列,品牌重启增长,酷开科技成为品牌商合作目标

区别于火热的移动端,手机屏作为私密屏,往往面向的是用户个体,而电视作为家庭连接的重要枢纽,不仅仅定位于公共屏,同时也面向客厅场景发挥着其大屏传播的作用,这里不仅牵扯到大屏营销,也关联着大…

jQuery1.10.2升级到jQuery3.6.0返回结果异常

ajax请求代码: jQuery1.10.2 ajax返回结果: 取其TIPS的值,代码如下: let find $(data).find(TIPS); var resultfind[0].innerHTML; 返回值为空字符串。 jQuery3.6.0 ajax返回结果: 取其TIPS的值,代码如下&…

某赛通电子文档安全管理系统 DecryptApplication 任意文件读取漏洞复现

0x01 产品简介 某赛通电子文档安全管理系统(简称:CDG)是一款电子文档安全加密软件,该系统利用驱动层透明加密技术,通过对电子文档的加密保护,防止内部员工泄密和外部人员非法窃取企业核心重要数据资产,对电子文档进行全生命周期防护,系统具有透明加密、主动加密、智能…

力扣思路题:重复的子字符串

注意比较j与j-i是否相同 bool repeatedSubstringPattern(char* s) {int i;int nstrlen(s);bool flag;for(int i1;i<n/2;i){if(n%i0){flagtrue;}for(int ji;j<n;j){if(s[j]!s[j-i]){flagfalse;break;}}if(flagtrue){return true;}}return false; }

运行时错误‘53’:文件未找到:MathPage.WLL。Word粘贴复制时报错解决方案!

最近写文章使用 Word 时&#xff0c;粘贴复制总是出现这个报错&#xff0c;不能 ctrlc 和 v 好叫人苦恼。百度大致检索了一些过程&#xff0c;仍然有必要记录自己的问题解决过程。 快让本文进你的文件夹吃灰吧~ 报错如下&#xff1a; 运行时错误‘53’&#xff1a; 文件未找…

差旅补助解决方案|数字化差补赋能业务提效

长期以来&#xff0c;差旅补助一直是企业为了激励员工出差并表达对员工的关怀而采取的一种方式&#xff0c;以经济和福利支持来鼓励员工积极投入工作。然而&#xff0c;由于传统差旅补助的核算、发放和管理方式存在诸多问题&#xff0c;往往适得其反&#xff0c;无法实现企业的…

深入探索JavaScript:如何改变this的指向

目录 深入探索JavaScript&#xff1a;如何改变this的指向 一、call方法 二、apply方法 三、bind方法 四、箭头函数 区别&#xff1a; 执行方式和返回值&#xff1a; 参数传递方式&#xff1a; 使用场景&#xff1a; 总结 在JavaScript中&#xff0c;this关键字是一个…

String 底层是如何实现的?

1、典型回答 String 底层是基于数组实现的&#xff0c;并且数组使用了 final 修饰&#xff0c;不同版本中的数组类型也是不同的&#xff1a; JDK9 之前&#xff08;不含JDK9&#xff09; String 类是使用 char[ ]&#xff08;字符数组&#xff09;实现的但 JDK9 之后&#xf…