数据治理的具体应用

数据治理架构

图 13 描述的是公安数据治理框架,平台架构主要包括数据存储、数据计算、数据管理、数据应用这 4 个部分。

(1) 数据存储:

基于分布式的大数据存储平台,具有很强的存储能力和扩张能力;

(2) 数据计算:

这是数据治理的最主要部分,包括数据的探查、提取、清洗、转换、集成等。这些计算任务都是基于大数据分布式的计算能力,应用 MapReduce 批处理和 spark streaming 流式处理技术,通过scheduler 任务调度器,实现对调度任务的执行、管理与监控。

数据探查:通过对数据量、数据质量、数据特征等指标的分析来评估后续数据治理任务的工
作量;

数据提取:抽取分布在各个系统中的各种类型的源数据,提取元数据,基于深度学习的语音识别、
图像识别、视频处理技术,实现对非结构化的数据提取;

数据清洗:对缺失数据的处理,过滤掉重复相似的记录,清除值错误的数据;

数据转换:将不符合规范的数据,按照规范化的处理规则,转化成符合标准的数据,如编码统一、
格式统一、元数据统一等;

数据集成:将转化后的规范化数据进行整合,按照一定方式重新组织,如数据属性的融合、关系融
合、数据的主题化、标签化等; 

(3) 数据管理:

对集成后的数据统一维护与管理,包括对数据质量的检测、数据安全控制、数据血缘的监控、元素管理等。

数据质量检测:从各个维度(唯一性、准确性、完整性、合法性等)检测,并形成数据质量报告;

数据安全控制:对数据的使用与访问,进行权限的管理与控制;

数据血缘监控:追踪数据的来源与去向的整个过程; 

元数据管理:数据知识库的建立与维护,包括对代码库、标准库、标签库、模型库、图谱库等的
管理; 

(4) 数据应用:这是数据价值最直接的体现,基于自然语言处理、数据挖掘算法模型等技术对数据分析挖掘,包括统计分析、比对碰撞、关联分析、数据挖掘等,将分析结果提供给上层应用,如构建专题库、主题库、构建知识图谱等。

数据处理流程

数据处理流程是对源数据到目标数据整个处理过程的监管,并描述了数据采集、数据处理及数据展现这 3个方面所用到的技术架构和处理逻辑。处理流程中主要有8个方面:数据接入、数据预处理、数据规范化、数据清洗、数据标签化、数据主题化、构建知识图谱以及数据分析与挖掘 。

(1) 数据接入

公安系统中的源数据,包括结构化文本、关系型数据库、非结构化的文本及视频、hadoop 平台中的数据以及流式数据,经过批处理引擎或流式计算引擎,接入到统一的数据源系统中,形成最初的数据集市。

(2) 数据预处理

在对数据集市中的数据做处理前,根据数据规则库定义的规则,首先对数据进行预处理,包括数据质量的评估、空值率的计算、数据特征分析、数据格式的分析等;然后判断数据是否有治理的价值;然后提取需要治理的数据、提取元数据,经过统一的编码转换处理后,过滤掉脏、乱、差的数据;然后进行数据去重等清洗处理。

(3) 数据规范化

数据规范是将预处理后的数据,根据数据标准知识库的标准,将数据统一处理成符合行业标准、省部级标准及国标等标准的规范化数据,提高数据的可移植性、共享性及复用性。数据规范过程(标准化过程)中所依赖的数据规范来源于权威性的行业规范、国标、部标等,对数据、名称、字段及元数据等进行标准化。

(4) 数据清洗

数据清洗是对不完整的数据、不一致的数据以及异常的数据进行清洗,并过滤掉重复相似的记录。

(5) 数据标签化

数据标签根据数据标签库可以分为技术标签和业务标签:技术标签是基于表、字段的技术元数据,例如空间占用、条目数、最新更新时间、更新频率、访问频率、数据格式、字段数据类型、是否压缩等,通过规则引擎进行规则计算,为库、表、字段等打上相应的技术标签,例如最近一天更新的数据、大数据集、小数据集、频繁更新数据集、压缩文件、图片、视频等;业务标签基于库、表、字段的业务定义、描述,值域的具体内容,对于数据进行业务标签生成,例如对于库表来说,数据来源/数据种类(人口、教育、医疗等)标签、数据内容标签(姓名、组织、地址、电话、商品等)。

(6) 数据主题化

数据按照一定的主题进行关联来构造一个模型。公安数据治理分别以人、物、时空、组织、虚拟标识、案件等作为主题,分别建立模型,如图 14 所示。

以人作为主题时,提取自然人为主体进行描述的数据资源,并按照公安部的数据分类进行主题模型的构建;

以物作为主题构建模型时,提取特定的物为主体进行描述的数据资源,针对不同情况涵盖不同的内容,包括物品、物证、微小痕迹、尸体等;

以时空作为主题时,提取以时间、地点为主体进行描述的数据资源来构建时空主体模型;

以组织作为主题时,提取法人、单位、特定人群组织结构(如:户)为主体进行描述的数据资源来构建组织类主题模型。

以虚拟标识作为主题时,以一个物品的标签或者分类信息作为主题进行构建模型;

以案件作为主题构建模型时,根据执行主体的不同,案件又分为侦查调查行为和违法犯罪行为:侦查调查行为是指公安机关行使打击犯罪,维护社会治安进行侦查破案的行为;而违法犯罪行为是指犯罪嫌疑人进行违法犯罪的行为。 

(7) 知识图谱构建

知识图谱按照目标数据可以分为实体、事件、关系这 3 种类型来建立数据之间的关联关系,将数据抽象化的内在联系,以可视化的形式有效表现出来。图 15 是以人为中心实体构建的一个简单的知识图谱,以人为中心实体,建立人与电话号码所属关系、人与护照所属关系及人与人的关系,同时建立了人与航班的出行事件、人与旅馆的住宿事件。

(8) 数据分析与挖掘

对治理后的标准化数据,采用一定的数据挖掘算法模型,对数据进行统计分析、关联分析、比对碰撞、数据挖掘等,为上层应用提供数据服务。公安机关作为侦查一线的最实用的技术是数据比对碰撞分析,数据比对碰撞分析是指运用计算机对数据进行分析,将两组以上同类型的数据集进行梳理,通过关联查询,筛选数据集取交集的一种方法。

数据治理的目标

数据治理的核心目标是在降低风险的同时,为企业增加价值。合理的数据治理,能够建立规范的数据应用标准,消除数据的不一致性,提高数据质量,推动数据广泛共享,充分发挥数据对政府及企业的业务、管理以及战略决策的重要作用。大数据治理对于确保大数据的优化、共享和安全是至关重要的,有效的大数据治理计划可通过改进决策、缩减成本、降低风险和提高安全合规等方式,将价值回馈于业务,并最终体现为增加收入和利润。根据上述几节的描述,数据治理包括元数据管理、数据质量管理、数据安全合规、数据模型设计以及数据的应用这 5 个基本功能。

一个组织数据治理的好坏是否达到自己预期的目标,可以通过以下几个方面进行评价。 

从数据的质量方面考虑:

a) 数据的准确性:经过数据治理后的数据应该是准确的,而不能在治理过程中给正确的数据带去
噪音;

b) 数据的完整性和一致性:数据治理之后,数据的完整程度以及数据的一致性; 

c) 数据的安全性:好的数据治理要充分地保护敏感数据;

从数据治理的效率进行考虑:使用每秒处理多少条数据进行直观对比,这直接影响到数据的及时性;

数据治理模型的成熟度:数据治理过程中,选择的数据模型的成熟度直接影响数据治理的结果;

从是否能追根溯源,找到数据质量问题产生的原因;

人工干预程度:发现质量问题以后,是系统自动处理,还是需要人工干预处理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/236703.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小语种翻译重要吗,如何做好小语种翻译

随着全球化不断推进,不同语言之间的交流日益密切,小语种翻译的重要性日益凸显。小语种翻译不仅有助于人们更好地相互理解与沟通,更能促进不同文化之间的交流与融合,做好小语种翻译至关重要。那么,如何做好小语种翻译呢…

mysql mybatis分页查询 大数据量 非常慢

查阅了很多博客和资料,这篇文章以思路为准,详细代码不细说,都是非常简单的方法,一看就明白。具体实现稍微百度一下就能出来。仅供参考。 如题:单表数据已经达到4千万条数据,通过mybatis的分页查询效率非常低…

同为科技(TOWE)品字型服务器自锁防脱扣电源线产品的应用

AC电源延长线,在数据中心机房中经常见到,机柜服务器是一组庞大的管理网络资源的计算机群,需要电源供电才能正常工作,因此,服务器电源线是连接电源分配器和服务器的基本配件。如果我们仔细观察服务器,就会发…

CMD命令切换至D盘

1.使用快捷键winr进入如下所示界面: 2.在框内输入CMD 后点击确定,即可进入如下界面; 3.输入d: 后按下enter即可转换成功; 补充一些CMD命令: 1. appwiz.cpl:程序和功能 2. calc:启动计算器 3.…

极兔快递查询入口,筛选出指定派件员的单号

批量查询极兔快递单号的物流信息,将指定派件员的单号筛选出来。 所需工具: 一个【快递批量查询高手】软件 极兔快递单号若干 操作步骤: 步骤1:运行【快递批量查询高手】软件,并登录 步骤2:点击主界面左上…

SAP BW层级结构小结属性数据源+专家例程实现层级结构增强加载

作者 idan lian 如需转载备注出处 BW信息对象-层级结构 RSH1 维护信息对象层级 这里的文本描述对应T表中的描述,文本数据源加载之后有数据 信息对象层级H表 以上描述都是根据自我理解翻译的,非官方翻译 层级标识:自动生成,其实…

力扣283题 移动零 双指针解法

移动零 给定一个数组 nums,编写一个函数将所有 0 移动到数组的末尾,同时保持非零元素的相对顺序。 请注意 ,必须在不复制数组的情况下原地对数组进行操作。 示例 1: 输入: nums [0,1,0,3,12] 输出: [1,3,12,0,0]示例 2: 输入: nums [0] 输出…

STC15-串口通信打印输出数据printf函数与sprintf函数

STC15-串口通信打印输出数据printf函数与sprintf函数 1.打印输出数据有二种printf函数与sprintf函数,不同之处有:(1)函数的声明不同(2)函数的功能不同(3)用法举例 该问题引用百度知道…

【JavaScript】3.2 JavaScript性能优化

文章目录 1. 避免全局查找2. 避免不必要的属性查找3. 使用快速的JavaScript方法4. 避免不必要的DOM操作5. 使用Web Workers进行后台处理总结 性能优化是任何编程语言的重要组成部分,JavaScript也不例外。在这个章节中,我们将探讨如何优化JavaScript代码&…

万字解析设计模式之策略模式、命令模式

一、策略模式 1.1概述 先看下面的图片,我们去旅游选择出行模式有很多种,可以骑自行车、可以坐汽车、可以坐火车、可以坐飞机。 策略模式(Strategy Pattern)是一个行为型设计模式,它定义了一组算法家族,分…

【SpringBoot系列】SpringBoot时间字段格式化

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

ROS报错:RLException:Invalid roslaunch XML Syntax: mismatched tag:

运行roslaunch文件提示&#xff1a; RLException:Invalid roslaunch XML Syntax: mismatched tag: line 45&#xff0c; column 2 The traceback for the exception was written to the log file. j 解决办法&#xff1a; line45 行多了标签&#xff1a;</node> 另外…