大数据 DataX-Web 详细安装教程

目录

一、DataX-Web 介绍

1.1 DataX-Web 是什么

1.2 DataX-Web 架构

二、DataX-Web 安装部署 

2.1 环境要求

2.2 安装

2.3 部署

2.4 数据库初始化

2.5 配置

2.6 启动服务

2.6.1 一键启动所有服务

2.6.2 一键取消所有服务

2.7 查看服务(注意!注意!)

2.8 访问 Web UI

2.9 运行日志

三、DataX-Web 任务部署

3.1 创建项目

3.2 执行器管理

3.3 创建数据源

3.3.1 mysql 数据源

3.3.2 hive 数据源

3.4 创建任务模板

3.5 任务创建

3.5.1 构建 reader

3.5.2 构建 writer

3.5.3 设置字段映射

3.5.4 构建

四、DataX-Web 任务管理


 

一、DataX-Web 介绍

1.1 DataX-Web 是什么

项目地址:https://github.com/WeiYe-Jing/datax-web

        datax-web 是一个在 DataX 之上开发的分布式数据同步工具,提供简单易用的操作界面,降低用户使用 DataX 的学习成本,缩短任务配置时间,避免配置过程中出错。用户可以通过页面选择数据源,即可创建数据同步任务。支持 RDBMS、Hive、HBase、ClickHouse、MongoDB 等数据源。RDBMS 数据源可以批量创建数据同步任务,支持实时查看数据同步进度及日志,并提供终止同步功能,集成并二次开发 xxl-job,可根据时间、自增主键增量同步数据。

        任务“执行器”支持集群部署,支持执行器多节点路由策略选择,支持超时控制、失败重试、失败告警、任务依赖,执行器CPU、内存、负载的监控等等。

1.2 DataX-Web 架构

二、DataX-Web 安装部署 

2.1 环境要求

环境要求
操作系统mac、Windows、Linux
JavaJava8,jdk 的版本建议在 1.8.201 以上
Python

Python (2.x) (支持 Python3 需要修改替换 datax/bin 下面的三个 python 文件,替换文件在doc/datax-web/datax-python3 下) 必选,主要用于调度执行底层 DataX 的启动脚本,默认的方式是以 Java 子进程方式执行 DataX,用户可以选择以 Python 方式来做自定义的改造

MySQLMySQL 5.7+
MavenApache Maven 3.6.1+,编译安装包需要(可选)
DataXDataX 3

对应的基础环境可以查看这篇文章安装:大数据 DataX 详细安装教程-CSDN博客 

2.2 安装

        直接将安装包下载下来(下载地址:https://pan.baidu.com/s/13yoqhGpD00I82K4lOYtQhg,提取码:cpsk),解压安装到指定的路径即可:

(base) [root@hadoop03 ~]# ls
datax-web-2.1.2.tar.gz
(base) [root@hadoop03 ~]# tar -zxvf datax-web-2.1.2.tar.gz -C /usr/local/

2.3 部署

        执行一键安装脚本,进入解压后的目录,找到 bin 目录下面的 install.sh 文件,如果选择交互式的安装,则直接执行:

(base) [root@hadoop03 ~]# cd /usr/local/datax-web-2.1.2/
(base) [root@hadoop03 /usr/local/datax-web-2.1.2]# ./bin/install.sh

        在交互模式下,对各个模块的 package 压缩包的解压以及 configure 配置脚本的调用,都会请求用户确认,可根据提示查看是否安装成功,如果没有安装成功,可以重复尝试; 如果不想使用交互模式,跳过确认过程,则执行以下命令安装:

./bin/install.sh --force

2.4 数据库初始化

如果你的本地服务上安装有 mysql 命令,在执行安装脚本的过程中则会出现以下提醒:

Scan out mysql command, so begin to initalize the database
Do you want to initalize database with sql: [{INSTALL_PATH}/bin/db/datax-web.sql]? (Y/N)y
Please input the db host(default: 127.0.0.1): 
Please input the db port(default: 3306): 
Please input the db username(default: root): 
Please input the db password(default: ): 
Please input the db name(default: exchangis)

        按照提示输入数据库地址,端口号,用户名,密码以及数据库名称,大部分情况下即可快速完成初始化。 如果本地服务上并没有安装 mysql 命令(我这台服务器没有安装 mysql),则可以取用目录下 /bin/db/datax-web.sql脚本去手动执行,完成后修改相关配置文件:

(base) [root@hadoop03 /usr/local/datax-web-2.1.2]# vim modules/datax-admin/conf/bootstrap.properties 
#Database
DB_HOST=192.168.170.136
DB_PORT=3306
DB_USERNAME=root
DB_PASSWORD=xxx
DB_DATABASE=dataxweb

按照具体情况配置对应的值即可。

2.5 配置

        安装完成之后,在项目目录下 /modules/datax-execute/bin/env.properties 指定PYTHON_PATH 的路径(即 DataX 的 python 脚本路径):

(base) [root@hadoop03 /usr/local/datax-web-2.1.2]# vim modules/datax-executor/bin/env.properties 
······
## PYTHON脚本执行位置
#PYTHON_PATH=/home/hadoop/install/datax/bin/datax.py
PYTHON_PATH=/usr/local/datax/bin/datax.py

2.6 启动服务

2.6.1 一键启动所有服务

./bin/start-all.sh

中途可能发生部分模块启动失败或者卡住,可以退出重复执行,如果需要改变某一模块服务端口号,则:

vi ./modules/{module_name}/bin/env.properties

找到 SERVER_PORT 配置项,改变它的值即可。 当然也可以单一地启动某一模块服务:

./bin/start.sh -m {module_name}

2.6.2 一键取消所有服务

./bin/stop-all.sh

当然也可以单一地停止某一模块服务:

./bin/stop.sh -m {module_name}

2.7 查看服务(注意!注意!)

        在 Linux 环境下使用 JPS 命令,查看是否出现 DataXAdminApplication 和DataXExecutorApplication 进程,如果存在这表示项目运行成功:

        如果项目启动失败,请检查启动日志:modules/datax-admin/bin/console.out 或者modules/datax-executor/bin/console.out


Tips: 脚本使用的都是 bash 指令集,如若使用 sh 调用脚本,可能会有未知的错误。

2.8 访问 Web UI

        部署完成后,在浏览器中输入 http://ip:port/index.html 就可以访问对应的主界面(ip 为 datax-admin 部署所在服务器 ip,port 为 datax-admin 指定的运行端口 9527),输入用户名 admin 密码 123456 就可以直接访问系统:

如果你登录不进去,显示账号密码错误,可以先去数据库看看是否有 dataxweb 数据库生成,如果没有则需要我们手动把 datax_web.sql 导入 dataxweb 数据库中,先创建 dataxweb 数据库再进入此数据库,最后导入 datax_web.sql 文件 即可:

(base) [root@hadoop03 /usr/local/datax-web-2.1.2/bin/db]# pwd
/usr/local/datax-web-2.1.2/bin/db
(base) [root@hadoop03 /usr/local/datax-web-2.1.2/bin/db]# ls
datax_web.sql

2.9 运行日志

        部署完成之后,在 modules/对应的项目/data/applogs 下(用户也可以自己指定日志,修改application.yml 中的 logpath 地址即可),用户可以根据此日志跟踪项目实际启动情况

如果执行器启动比 admin 快,执行器会连接失败,日志报"拒绝连接"的错误:

解决办法是是先启动 admin,再启动 executor,30 秒之后会重连,如果成功请忽略这个异常。

(base) [root@hadoop03 /usr/local/datax-web-2.1.2/bin]# ./start.sh -m datax-admin# 30s 后再启动
(base) [root@hadoop03 /usr/local/datax-web-2.1.2/bin]# ./start.sh -m datax-executor

三、DataX-Web 任务部署

3.1 创建项目

3.2 执行器管理

在这里会列举所有在线的 Executor 列表:

3.3 创建数据源

3.3.1 mysql 数据源

3.3.2 hive 数据源

        datax-web 是通过 ThriftServer 连接到 Hive 的。因此需要保证 Hive 的 hiveserver2 服务是开启的状态。  

3.4 创建任务模板

3.5 任务创建

3.5.1 构建 reader

3.5.2 构建 writer

3.5.3 设置字段映射

3.5.4 构建

四、DataX-Web 任务管理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/217017.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AtomicReference原子引用类-线程安全

简介与作用: AtomicReference是Java中的一个原子类,它的主要作用是提供了一种原子操作的方式来更新对象的引用。它通常用于多线程环境下,用来解决并发访问共享对象时可能出现的竞态条件问题。 (实际开发中用于某个数据模型更新&a…

【pandas】数据透视表【pivot_table】

pivot_table pandas的pivot_table函数是一个非常有用的工具,用于创建一个数据透视表,这是一种用于数据总结和分析的表格形式。 以下是pivot_table的基本语法: pandas.pivot_table(data, valuesNone, indexNone, columnsNone, aggfuncmean,…

Python---函数的参数类型----位置参数(不能顺序乱)、关键词参数(键值对形式,顺序可乱)

位置参数 理论上,在函数定义时,可以为其定义多个参数。但是在函数调用时,也应该传递多个参数,正常情况,要一一对应。 相关链接:Python---函数的作用,定义,使用步骤(调用…

OpenCV- 学习笔记(Python)图像处理基础

本专栏:主要记录OpenCV(Python)学习笔记 OpenCV 图像处理基础 灰度图 import cv2 #opencv读取的格式是BGR import numpy as np import matplotlib.pyplot as plt#Matplotlib是RGB %matplotlib inline ​ imgcv2.imread(cat.jpg) img_gray…

Leetcode—94.二叉树的中序遍历【简单】

2023每日刷题(四十) Leetcode—94.二叉树的中序遍历 C语言实现代码 /*** Definition for a binary tree node.* struct TreeNode {* int val;* struct TreeNode *left;* struct TreeNode *right;* };*/ /*** Note: The returned array mus…

FFmpeg零基础学习(一)——初步介绍与环境搭建

目录 前言正文一、开发环境二、搭建环境三、测试代码End、遇到的问题2、Qt 在线安装容易报错,断开问题1、在线安装QMaintainTool很慢2、Qt5.15 无法调试FFmpeg 参考 前言 FFmpeg是一个开源的跨平台多媒体处理框架,它包含了一组用于处理音频、视频、字幕…

Python函数式编程:让你的代码更优雅更简洁

概要 函数式编程(Functional Programming)是一种编程范式,它将计算视为函数的求值,并且避免使用可变状态和循环。 函数式编程强调的是函数的计算,而不是它的副作用。 在函数式编程中,函数是第一类公民&a…

路由器DHCP分配IP地址规则

路由器DHCP分配IP地址的机制: 先设置一个IP地址池,假设是192.168.1.100-192.168.1.199一共100个。 来一个请求,看一下是不是以前请求过的地址,如果是,还是返回以前给过的IP,然后将到期时间(有些路由器默认…

XShell新建会话指南

XShell新建会话 我们先登录我们的xshell,连接我们的远程服务器 为了方便我们以后的使用,我们可以新建一个会话记住用户 新建好后,我们可以打开这个会话 我们选择记住用户名 然后继续输密码就可以了 之后我们每次打开xshell的时候&#xff0c…

机器学习与因果推断的高级实践 | 数学建模

文章目录 因果推断因果推断的前世今生(1)潜在结果框架(Potential Outcome Framework)(2)结构因果模型(Structual Causal Model,SCM) 身处人工智能爆发式增长时代的机器学…

计算机编程零基础编程学什么语言,中文编程工具构件简介软件下载

计算机编程零基础编程学什么语言,中文编程工具构件简介软件下载 给大家分享一款中文编程工具,零基础轻松学编程,不需英语基础,编程工具可下载。 这款工具不但可以连接部分硬件,而且可以开发大型的软件,象如…

哨兵1号回波数据(L0级)包格式解析与成像参数提取

坑爹的格式,具体有多坑往下看就知道了。matlab代码在文末。 先上首字母缩写: 再来回波数据包的格式图 1. 数据包格式 众所周知,解包的第一步是找帧头和帧长,找到第4~5字节,帧长码为“0x3761”,转十进制为14777,然而实际第一帧整帧的长度是14184。。。你要是加6我还能…