数据治理之考评指标类

正则表达式

  1. [] 表述一个字符应该是什么样子
    • [abc] 表示一个字符可以是a\b\c
    • [a-z] 表示所有小写
    • [a-zA-Z]所有大小写
    • [ a-zA-Z0-9_ ] 所有大小写字母及数字和下划线 -> \w
    • [0-9] \d
    • \s 空格
    • . 表示任意字符
  2. {} 表示有多少个这样的字符
    • [a-z]{1,10}最少有一个,最多有10个
    • [a-z]{,10}最多10个
    • [a-z]{2,}至少2个
    • {1,} -> + 至少一个可以用+代替
    • {0,1} -> ? 最多一个
    • {,} -> * 多少个都行,可以没有
    • .* 表示任意字符有任意多个
  3. ()修饰可以是一个什么样的词组
    • (zhang3 | li4)可以是zhang3或者li4
  4. ^ 表示以什么开头
    • [^] 表示非
    • $ 表示以什么结尾

在这里插入图片描述

代码使用

public static void main(String[] args){String email = "windyzj@qq.com";Pattern emailPattern = Pattern.compile("正则");Matcher matcher = emailPttern.matcher(email);if(matcher.matches()){sout("符合规范");}else{sout("不符合规范 ");}
}

时间复杂度

O(1) : 根据key从map中查询,从set中查询某个值是否存在

集合转换

可以使用.stream().

指标类之读写访问权限检查

  1. 文件目录是否超过建议权限
  2. 指标code: FILE_ACCESS_PERMISION
  3. 领域:SECURITY
  4. 建议权限:
    • 目录权限:755
    • 文件权限:644
  5. 处理步骤:
    • 提取相关元数据
    • 准备递归遍历
      • 递归工具 FileSystem
      • 递归起点 一级子目录
      • 递归的容器 收集所有超过权限的文件、目录,位置
      • 判断权限的参数 perssion
    • 递归执行
      • 循环起点目录
      • 如果是中间节点(目录):采集处理,张开下一层次,递归回调自己
      • 如果是叶子节点(文件):采集处理,权限检查
    • 根据结果容器进行评价:如果容器有内容,差评,填写问题位置

考评领域划分

  1. calc 计算
  2. quality安全
  3. spec 规范
  4. storage存储

mysql相关命令

  1. 启动sudo systemctl restart mysqld
  2. 配置文件 /etc/my.cnf
  3. 日志: /var/lib/mysqld.log
  4. 如果执行启动脚本出错:sudo journalctl -xe

表产出数据监控

  1. 先判断为日分区表
  2. 当日产出的数据量,超过前x天产出量{upper_limit}%, 或低于{lower_limit}%
  3. 当日分区的数据量 / 前n天平均值
  4. 表目录/ dt , 递归累加计算

Dolphinscheduler面向数据治理

  1. 不要每层一个节点,而是每个表一个节点
  2. ds中的sql节点实际上是使用jdbc方式的方式执行SQL,需要使用hiveserver2,但是hiveserver2在大数据量时非常不稳定
  3. 由于经过hiveserver2,会丢失掉yarn_id
  4. 而做数据治理时,yarn_id是用来找到对应任务日志的唯一标识
  5. ds.3 bug比较多,功能也较多,3.x版本不采集yarn_id,需要改源码重新编译
  6. 如何根据表名查询该表对应的流程节点,把节点名命名为库名+表名

要从DS中获取哪些东西

  1. 任务定义:获得SQL,总共一份。在表t_ds_task_definition
  2. 任务运行状况(每天一份):在表 t_ds_task_instance
    • 是否运行成功 state 成功是7,失败是6
    • 耗时: end_time - submit_time
    • yarn_id 用于提取日志 app_link

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/207096.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vs调试输出,不显示线程已退出

如题:一堆线程退出的信息,招人烦。 其实在vs设置里可以关闭: 工具-->选项-->调试-->输出窗口:

2018年全国硕士研究生入学统一考试管理类专业学位联考数学试题——解析版

文章目录 2018 年考研管理类联考数学真题一、问题求解(本大题共 5 小题,每小题 3 分,共 45 分)下列每题给出 5 个选项中,只有一个是符合要求的,请在答题卡上将所选择的字母涂黑。真题(2018-01&a…

记录小白第一次EDUsrc:任意密码漏洞

目录 一、漏洞说明: 二、漏洞复现: 三、漏洞修复建议: 一、漏洞说明: xxxx学院身份认证系统有严重的逻辑设计缺陷:账户登录、手机登录、密码找回三个接口找到n个逻辑漏洞包括任意账号密码修改、信息泄露&#xff0…

【Python大数据笔记_day11_Hadoop进阶之MR和YARNZooKeeper】

MR 单词统计流程 已知文件内容: hadoop hive hadoop spark hive flink hive linux hive mysql ​ input结果: k1(行偏移量) v1(每行文本内容)0 hadoop hive hadoop spark hive 30 flink hive linux hive mysql map结果:k2(split切割后的单词) v2(拼接…

Java注解(Annotation)的基本知识

Java注解(Annotation)的基本知识 此文的目的只在于了解的注解的基本知识,知道注解的一些概念,使能够看懂注解的使用。 注解概述 Java 注解(Annotation)又称 Java 标注,使 JDK5.0 引入的一种注释机制。Java 语言中的…

基于Acconeer的A121-60GHz毫米波雷达传感器SDK移植及测距示例(STM32L496为例)

基于Acconeer的A121-60GHz毫米波雷达传感器SDK移植及测距示例(STM32L496为例) 工程: Keil工程资源 参考资料: A121 datasheet 1.3 A121 HAL Software Integration User Guide A121 STM32CubeIDE User Guide 官方参考示例工程&a…

2023.11.22 数据仓库2-维度建模

目录 1.数仓建设方案 2.数仓结构图,项目架构图 2.1项目架构图 2.2数仓结构图 3.建模设计 4.维度建模 什么是事实表: 什么是维度表: 数据发展模式y以及对应的模型 5.数仓建设规范 数据库划分规范 表命名规范 表字段类型规范 1.数仓建设方案 ODS: 源数据层(临时存储层) 贴…

笔记59:序列到序列学习Seq2seq

本地笔记地址:D:\work_file\(4)DeepLearning_Learning\03_个人笔记\3.循环神经网络\第9章:动手学深度学习~现代循环神经网络 a a a a a a a a a a a a a a a

智慧物流仓储仓库温湿度管理采集器钡铼技术远程终端RTU的使用

智慧物流仓储是当今物流行业的一个重要发展方向,它通过应用先进的技术和设备,实现对仓储环境的监控和管理。在智慧物流仓储中,温湿度管理是十分关键的一项工作。为了解决温湿度管理的问题,采集器钡铼技术远程终端RTU被广泛应用于仓…

智能污水处理系统有哪些设备

智能污水处理系统通常包括以下设备: 智能医用污水一体化处理设备:包括医用污水处理一体化设备,以及设置于医用污水处理一体化设备的消毒区的微波无极紫外杀菌装置、流量检测器、温度检测器、溶氧浓度检测器、固体颗粒检测器、金属离子检测器…

虚拟机VMware+Ubuntu系统的自定义安装教程(详细图文教程)

VMware可以帮助你在一个操作系统的环境下安装和运行另一个操作系统,从而提高IT效率,降低运维成本,加快工作负载部署速度,提高应用性能,提高服务器可用性,消除服务器数量剧增情况和复杂性。 目录 一、VMwar…

AI原生应用为百度带来新增量

我是卢松松,点点上面的头像,欢迎关注我哦! AI将彻底改变每一个行业!得益于AI和基础模型的驱动,百度在AI原生应用领域厚积薄发。 11月21日,百度Q3财报发布,数据显示:三季度营收达344.47亿元&…