入门指南 | Datavines 安装部署篇

news/2024/12/24 8:20:06/文章来源:https://www.cnblogs.com/simple-focus/p/18401422

摘要:本文主要介绍基于源码部署 Datavines 和执行检查作业,内容主要分为以下几个部分:

  • 平台介绍
  • 快速部署
  • 运行数据质量检查作业

Datavines 的目标是成为更好的数据可观测性领域的开源项目,为更多的用户去解决元数据管理和数据质量管理中遇到的问题。在此我们真诚欢迎更多的贡献者参与到社区建设中来,和我们一起成长,携手共建更好的社区。

https://github.com/datavane/datavines
https://github.com/datavane/datavines/issues
https://github.com/datavane/datavines/pulls


平台介绍

Datavines 是一站式开源数据可观测性平台,提供元数据管理、数据概览报告、数据质量管理,数据分布查询、数据趋势洞察等核心能力,致力于帮助用户全面地了解和掌管数据,让您做到心中有数.

快速部署

环境准备

在安装 Datavines 之前请确保你的服务器上已经安装下面软件

  • Git,确保 git clone的顺利执行
  • JDK,确保 jdk >= 8
  • Maven, 确保项目的顺利打包(当然你也可以在本地打包以后上传至服务器)
  • MySQL, 确保版本 >=5.7

下载代码

git clone https://github.com/datavane/datavines.git
cd datavines

数据库准备

Datavines 的元数据是存储在关系型数据库中,目前支持 MySQL ,下面以 MySQL 为例说明安装步骤:

  • 创建数据库 datavines
  • 执行 script/sql/datavines-mysql.sql 脚本进行数据库的初始化

项目构建

打包并解压

mvn clean package -Prelease
cd datavines-dist/target
tar -zxvf datavines-1.0.0-SNAPSHOT-bin.tar.gz

解压完成以后进入目录

cd datavines-1.0.0-SNAPSHOT-bin

编辑配置信息

cd conf
vi application.yaml

修改数据库信息

spring:datasource:driver-class-name: com.mysql.cj.jdbc.Driverurl: jdbc:mysql://127.0.0.1:3306/datavines?useUnicode=true&characterEncoding=UTF-8username: rootpassword: 123456

如果你是使用 Spark 做为执行引擎,并且是提交到 yarn 上面去执行的,那么需要在 common.properties 中配置 yarn 相关的信息

  • standalone 模式
yarn.mode=standalone
yarn.application.status.address=http://%s:%s/ws/v1/cluster/apps/%s #第一个%s需要被替换成yarn的ip地址
yarn.resource.manager.http.address.port=8088
  • ha 模式
yarn.mode=ha
yarn.application.status.address=http://%s:%s/ws/v1/cluster/apps/%s
yarn.resource.manager.http.address.port=8088
yarn.resource.manager.ha.ids=192.168.0.1,192.168.0.2

启动服务

cd bin
sh datavines-daemon.sh start mysql

查看日志,如果日志里面没有报错信息,并且能看到
[INFO] 2022-04-10 12:29:05.447 io.datavines.server.DatavinesServer:[61] - Started DatavinesServer in 3.97 seconds (JVM running for 4.69) 的时候,证明服务已经成功启动。

访问前端页面

在浏览器输入: 服务器IP:5600 ,就会跳转至登录界面,输入账号密码 admin/123456

运行数据质量检查作业

创建数据源

进入首页后,点击右上角 创建数据源 按钮,输入数据源的名称,然后选择数据源类型。以 MySQL 为例,输入 MySQL 的连接信息,点击 测试连接 按钮。如果成功,请单击 保存

进入数据源

点击并进入数据源,找到 作业管理 页面

创建检查作业

  • 点击 创建规则作业 按钮,选择 数据质量作业

  • 进入规则的配置页面

  • 进行规则配置

    • 选择 枚举值[不在]检查 规则
    • 依次选择数据库、表和列
    • 输入枚举数组 [0,1]
  • 进行期望值配置

    • 如果没有期望值则选择
  • 进行校验配置

    • 选择 实际值 检查公式、 > 比较符并输入阈值 10
    • 这样就构成 【实际值 > 10】 公式 ,公式成立时表示检查结果为成功,否则是失败。
  • 进行错误数据配置

    • 选择保存在源数据源中,填写已创建好的数据库
  • 完成配置后点击 保存并运行 来执行检查作业。

查看规则作业的信息

作业列表 找到刚刚创建并执行的检查作业。

点击 执行记录 页面, 你可以看到执行历史列表。

点击 日志 按钮,你可以看到规则执行的日志信息。

点击 结果 按钮,你可以看到规则执行的检查结果。

点击 错误数据 按钮,你可以看到规则执行的错误数据。

结束语

本文详细介绍了Datavines平台的部署安装到运行的整个过程,每个环节图文并茂,相信很多小伙伴都跃跃欲试了,动起来吧,更多精彩等着你来挖掘。

关于Datavane

Datavane 是一个专注于大数据领域的开源组织(社区),由一群大数据领域优秀的开源项目作者共同创建,旨在帮助开源项目作者更好的建设项目、为大众提供高质量的开源软件,宗旨是:只为做一个好软件。目前已经聚集了一批优质的开源项目,涉及到数据集成、大数据组件管理、数据质量等。

在 Datavane 社区中,所有的项目都是开源开放的,代码质量和架构设计优质的潜力项目。社区保持开放中立、协作创造、坚持精品,鼓励所有的开发者、用户和贡献者积极参与我们的社区、共同合作,创新创造,建设一个更加强大的开源社区。

官 网: http://www.datavane.org/
Github : https://github.com/datavane

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/793519.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VUE0003:Naive UI库:滑动条,单选,多选组件

1,滑动条,单选,多选组件 <template><n-scrollbar class="show-scrollbar"><n-space class="map-setting" vertical><n-space style="flex-flow: row; align-items: center;"><n-text class="color-white&quo…

图特征工程实践指南:从节点中心性到全局拓扑的多尺度特征提取

图结构在多个领域中扮演着重要角色,它能有效地模拟实体间的连接关系,通过从图中提取有意义的特征,可以获得宝贵的信息提升机器学习算法的性能。 本文将介绍如何利用NetworkX在不同层面(节点、边和整体图)提取重要的图特征。 本文将以NetworkX库中提供的Zachary网络作为示例…

软件工程个人第一次作业

软件工程作业📖📖 🚗预览课程 软件工程作业要求 要求作业目标 熟悉github与博客园,并且掌握最基础的操作。编辑博客页面,感受AGIC的生成效果学号 1022013111. 个人logo生成任务🐱 使用搭载DALL-E3的Coplit尝试生成logo的演示过程 ![]设计思路: graph TD A[薛定谔的猫…

git 推送本地文件

引言 参考文章:Git操作全流程介绍Git 的工作流程如下所示:1. 创建仓库 1.1 新建 gitee 仓库 在 gitee 中创建一个仓库 HelloWorld,如下所示:1.2 初始化本地仓库 假设本机有一个 MyCode 文件夹,进入该文件夹目录下,在该处打开 git bash。,输入命令将该文件夹初始化为 git…

Redis 哨兵模式搭建

1.Redis: Redis是一款基于内存的非关系型数据库(5种类型String 哈希 List Set Zset) 可能会发生的故障(缓存击穿:某热点数据或者没有缓存的时候 直接打到数据库上、缓存穿透:大量请求查询不存在的数据,直接打到数据库上、缓存雪崩:缓存过期或者不存在 打到数据库上) 持久化R…

mysql在linux安装

在Linux上安装MySQL 5.7版本的步骤可以分为多个部分,包括下载、安装、配置以及启动MySQL服务。以下是一个详细的步骤指南: 一、下载MySQL 5.7安装包 访问MySQL官方网站: 前往MySQL官方网站下载适用于Linux的MySQL 5.7安装包。通常,你会找到如mysql-5.7.xx-linux-glibc2.xx-…

洛谷P3128 [USACO15DEC] Max Flow P 树上差分

传送门:P3128 [USACO15DEC] Max Flow P 首先要学会差分qwq 题目意思: 给定一个节点数为 \(n\) 的树,有 \(m\) 次操作。 每次操作给你两个数 \(s\) 和 \(t\),你需要在 \(s\) 到 \(t\) 的路径所经过点的运输压力 \(+1\)。 求最后运输压力最大的点的压力。 思路: 发现 \(s\) …

洛谷 P3034 Cow Photography G/S——题解

洛谷P3034题解传送锚点摸鱼环节 [USACO11DEC] Cow Photography G/S 题面翻译 题目描述 今天的奶牛们特别调皮!Farmer John 想做的只是给排成一排的奶牛拍照,但是在他拍下照片之前,奶牛们一直在移动。 具体地说,FJ 有 \(N\) 头奶牛(\(1 \leq N \leq 20\,000\)),每头奶牛都…

记一次.net使用httpclient中代码中使用response.EnsureSuccessStatusCode()引发的误会

1.问题背景 有一个拉取第三方数据存储到本地的需求,使用.net开发,使用httpClient发送post请求。第三方接口里面会校验我们发送的json数据,如果我们的数据格式不正确会抛出异常。 2.返回的结果不同? 第一步,我用postman做了测试,对方的接口可以调用,正确和错误都可以返回…

等保安全设备配置

这篇文章带你了解等保2.0 二级和三级安全设备配置!本文介绍了不同等级的等保规划设计,包括二级等保(基础版)、三级等保(基础版、增强版、豪华版)。其中,各版本均需配备主机杀毒软件和日志审计系统等,增强版和豪华版还需增加 IPS、Anti-DDoS 等。此外,文章还提到内网安…

触想全新Z系列工控机扩展IIoT应用潜能

8月31日,触想重磅推出全新Z系列高性能、扩展型工控机——TPC05/06/07-WIPC,提供标准版/双卡槽/四卡槽3款机型选择。作为边缘计算、机器视觉、AI智能和工业应用的理想机型,Z系列工控机支持Intel第12/13/14代Core™ i3/i5/i7/i9处理器,最多搭载4个PCIe/PCI的扩展能力,可外接…

K8S怎么删除一个Node节点

驱逐Pod 本次node为172.16.5.103# kubectl drain 172.16.5.103 --force --ignore-daemonsets查看该节点无法调度删除node# kubectl delete node 172.16.5.103