大数据分析|从七个特征理解大数据分析

 文献来源:Saggi M K, Jain S. A survey towards an integration of big data analytics to big insights for value-creation[J]. Information Processing & Management, 2018, 54(5): 758-790.

下载链接:链接:https://pan.baidu.com/s/14IGaCOc-plxAiaVhwOgUvA 
提取码:4w8k

        BDA是一个技术驱动的生态系统,在这个生态系统中,更好的决策将帮助许多组织以可解释和适当的形式从数据中提取知识。BDA是数据驱动的决策框架。本文旨在全面研究BDA,通过使用各种数据分析方法来解决挑战、获得洞察力并做出明智的决策。本文对BDA的各种工具和技术进行了广泛而系统的方法综述,并报告了有待进一步研究的研究差距。

        Strawn将大数据描述为“科学的第四范式”,而Hagstrom将其定义为“知识资产的新范式”,或者“创新、竞争和生产力的下一个前沿”。Gantz和Reinsel(2011)将大数据定义为“新一代技术和架构,旨在通过实现高速捕获、发现和分析,从大量各种数据中经济地提取价值”。它描述了一种综合的方法来组织、处理和分析六个特征(即体积、种类、速度、准确性、价和价值)

        BDA按照高级数据采集、数据存储、数据管理、数据分析和可视化的需求进行分类。要将BDA转化为价值创造的大见解,在不同应用的数据、流程、分析建模和管理方面都面临着巨大的挑战。它不应该被认为是通过互联网收集的数据的同义词,因为数据可以来自诸如超市,银行等发生的商业交易等来源。大数据也可以来源于传感器(来自手机的卫星和GPS跟踪数据)和行政数据(教育记录、医疗记录和税务记录)(Eagle, Pentland, & Lazer, 2009)。

领域现状描绘

        一些技术挑战与不同的“V”特征有关,特别是“Volume”(支持非常高的数据量)、“Velocity”(数据流的快速分析)、“Variety”(支持不同类型的数据)、“Veracity”(支持高数据质量)、“Value”(见解和利益的价值)、“Variability”(支持不断变化)和“Valence”(支持数据中的连通性)。

        BDA的七个特征包括对数据分析的不同步骤和过程的一些探索。这七个方面代表了大数据分析的不同难点。我们的主要目标是提供每个特征的全面描述,并描述它们的挑战。BDA的这七个特征如表4所示,

名称描述示例挑战
“Volume”(支持非常高的数据量)

大数据的量是用其规模和指数增长来解释的。大规模和绝对的数据量是一个巨大的挑战。

它被称为尺寸。

应用:-医疗数据,社交媒体

数据规模:

tb

pb

exabyte

-Yotabyte

-数据存储

-数据采集

-数据处理

-性能

-成本

“Velocity”(数据流的快速分析)

它是指大型数据集的复杂性,这些数据集可以是半结构化的、非结构化的或结构化的。这就是所谓的复杂性。

应用领域:气象数据,DNA测序,生物学

不同形式的数据:-文本、文档-图像、语音、音频、视频-地理空间数据-网络数据-传感器数据

-数据的异质性

-多样性

-不同的形式

“Variety”(支持不同类型的数据)

它是非同质结构的高数据流入率。这就是所谓的速度。

应用领域:金融市场、广告代理

流数据分析:-批处理-实时处理-流处理-数据处理缓慢且昂贵
“Veracity”(支持高数据质量)Veracity特性衡量数据的准确性及其用于分析的潜在用途。这就是质量。数据的不确定性:-日益复杂的数据结构,-大型数据集的不一致性

-数据的准确性

-数据源的可靠性

-分析中的上下文-不准确,延迟,主观性

“Value”(见解和利益的价值)

它指的是以图的形式将大数据连接起来。

这就是所谓的连通性。

应用程序:医疗保健数据

连接性的度量:-数据连接性

-更复杂的数据探索算法。

-价态变化的建模和预测。

-组事件检测。

-紧急行为分析

“Variability”(支持不断变化)

大数据=数据+价值?这是数据挑战的核心。它从大量的结构化和非结构化数据中提取知识价值,而不会丢失,为最终用户。

应用领域:商业或工业

七个V: -尺寸-复杂性-质量-连通性-速度-变化-价值(重要)-增加收入-降低运营成本-服务客户
“Valence”(支持数据中的连通性)

它指的是含义不断快速变化的数据。

这仍然是一个持续的挑战。

应用:股票市场,金融数据

数据流速率的变化——复杂性

-数据不一致

-峰值级计算需求

-周期性高峰和低谷

对于大数据的处理和分析,研究了最近使用的各种平台,用于大量物联网生成的数据:

(i)存储和处理大量数据的能力(Apache Hadoop, 2011),

(ii)高级数据分析的能力。提取、传输和加载(ETL) (1010data),

(iii)启用大数据物联网处理和分析能力(SAP-Hana, 2013),

(iv)启用支持Hadoop以进行大数据处理和分析的能力(Cloudera, 2008), (v)启用非结构化数据的并行处理、分析和安全能力(HP-HAVEn, 2013), (vi)启用基于Hadoop的大数据处理和分析能力(Hortonworks, 2011),

(vii)具备结合大规模并行处理(MPP) pb级数据量的分析数据库能力(Pivotal大数据套件,2016),(viii)具备数据分析和管理问题解决能力(Infobright, 2005),

(ix)具备快速处理、分析和预测能力(MapReduce, 2008)。

进一步,对顶级初级研究的结构进行了分类。分类结构基于(Jabbour, 2013)提出的方法。分类方案包括六个类别:研究、目标、重点、能力、效益及其结果,如表5所示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/444008.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

正则表达式补充以及sed

正则表达式: 下划线算 在单词里面 解释一下过程: 在第二行hello world当中,hello中的h 与后面第一个h相匹配,所以hello中的ello可以和abcde匹配 在world中,w先匹配h匹配不上,则在看0,r&#…

ML:2-2-3 多分类问题multicalss

文章目录 1. 多分类问题的定义2. softmax3. 神经网络的softmax输出 【吴恩达机器学习65-67】 1. 多分类问题的定义 classification问题可能的output大于2种。 multiclass的预测图像可能是右侧这样的。 2. softmax softmax regression算法是logistic regression的泛化&#x…

win11安装wsl作为linux子系统并当作服务器

wsl安装 打开控制面板,找到启用或关闭windows功能 开启windows虚拟机监控平台和适用于Linux的Windows子系统,重启电脑。 打开microsoft store搜索ubuntu,找到合适的版本下载安装 输入wsl -l如下所示,即为安装成功。 安装过程比较…

基于C++的面向对象程序设计:类与对象的深入剖析

面向对象程序设计的基本特点 面向对象程序设计的基本特点包括:抽象、封装、继承、多态。 抽象 抽象是指对具体问题或对象进行概括,抽出其公共性质并加以描述的过程。一般情况抽象分为数据抽象和行为抽象,其中数据抽象是指一个对象区别于另…

【lesson4】高并发内存池ThreadCache(线程缓存)层实现

文章目录 ThreadCache层的结构申请内存逻辑释放内存逻辑自由链表的实现自由链表的成员变量自由链表的成员函数自由链表的完整实现 ThreadCache申请内存过程的实现ThreadCache需要的成员变量ThreadCache需要的成员函数ThreadCache.h文件代码Allocate的实现Deallocate的实现 封装…

Maven安装,学习笔记,详细整理maven的一些配置

Maven 1. 初识Maven 2. Maven概述 Maven模型介绍 Maven仓库介绍 Maven安装与配置 3. IDEA集成Maven 4. 依赖管理 01. Maven课程介绍 1.1 课程安排 学习完前端Web开发技术后,我们即将开始学习后端Web开发技术。做为一名Java开发工程师,后端 Web开发技术…

Asp.net移除Server, X-Powered-By, 和X-AspNet-Version头

移除X-AspNet-Version很简单,只需要在Web.config中增加这个配置节: <httpRuntime enableVersionHeader"false" />移除Server在Global.asax文件总增加&#xff1a; //隐藏IIS版本 protected void Application_PreSendRequestHeaders() {HttpContext.Current.Res…

RabbitMQ(一):最新版rabbitmq安装

目录 1 简介1.1特性及好处 2 安装2.1 Ubuntu22.04 apt安装最新rabbitmq1、一键部署2、验证3、RabbitMQWeb管理界面及授权操作4、添加远程用户5、一些常用命令 2.2 Docker安装RabbitMQ - Ubuntu22.041、安装docker2、启动rabbitmq 1 简介 RabbitMQ是一个开源的遵循AMQP协议实现…

【大厂AI课学习笔记】1.3 人工智能产业发展(3)

1.3.1 供给侧 技术层面&#xff1a;从实验室走向大规模的商用。 数据层面&#xff1a;数据正式成为重要的生产要素。 市场&#xff1a;供需互促的正向市场环境建立。 资本&#xff1a;走出炒作泡沫&#xff0c;聚焦价值领域。 平台&#xff1a;大厂普遍开放生态。 MORE&am…

js中原型和原型链的特点

文章目录 一、原型二、原型链三、总结参考文献 一、原型 JavaScript 常被描述为一种基于原型的语言——每个对象拥有一个原型对象 当试图访问一个对象的属性时&#xff0c;它不仅仅在该对象上搜寻&#xff0c;还会搜寻该对象的原型&#xff0c;以及该对象的原型的原型&#x…

[C++历练之路]C++多态底层逻辑知多少

W...Y的主页 &#x1f60a; 代码仓库分享&#x1f495; 前言&#x1f354;&#xff1a;学习了继承与多态&#xff0c;我相信大家对其底层的运用逻辑非常之好奇&#xff0c;今天我们就来探索一下多态中的底层逻辑&#xff0c;话不多说&#xff0c;我们现在开始&#xff01; 目…

BUUCTF-Real-[ThinkPHP]5-Rce

1、ThinkPHP检测工具 https://github.com/anx0ing/thinkphp_scan 漏洞检测 通过漏洞检测&#xff0c;我们发现存在rce漏洞&#xff01; 2、漏洞利用 ---- [!] Name: Thinkphp5 5.0.22/5.1.29 Remote Code Execution VulnerabilityScript: thinkphp5022_5129.pyUrl: http://n…