数据抽取平台pydatax介绍--实现和项目使用

  数据抽取平台pydatax实现过程中,有2个关键点:

    1、是否能在python3中调用执行datax任务,自己测试了一下可以,代码如下:
    这个str1就是配置的shell文件     

try:result = os.popen(str1).read()
except Exception as e:print(e)

  2、是否能获取datax执行后的信息:用来捕获执行的情况和错误信息

         上面执行后的result就包含了datax的执行信息,对信息进行筛选,就可以获得

   pydatax的表设计 

        在上面的2个关键点解决后,其他问题就比较简单,设计相关的表:

datax_config   datax抽取表的模板配置(源表名,目标表名,模板id,抽取的字段,抽取条件(增量,全量,特殊),抽取时间,执行顺序等)

datax_config_repair   datax的出错修复表,结构和datax_config一样,用于datax出错后,修复数据用

datax_etl_error    datax的etl的报错信息(非异常字符的报错)

datax_json   datax的模板id配置(全量和增量2个模板文件名)

datax_log   datax运行抽取表的执行信息(是否执行完成,抽取行数,速度,读出行数,流量等)

datax_row_error  datax执行中,字段有异常字符的报错信息

 pydatax在项目中使用

       项目1: 直接配置datax的模板json,从oracle 11g抽取到postgresql中,

                     因postgresql中会对"0x"这些异常字符报错,如oracle中字段有这样字段,必须在抽取字段使用:

                    使用 replace(name,chr(0),'\'\'') as name 来代替 以前的字段 name

       项目2: 客户有9个分公司,用的ERP有9套,有9个库,不同版本,抽取的同一个表字段长度有不一样,字段可能有多有少,客户ERP核心分公司ERP几个月后有大版本升级。

                     因项目2中:数据仓库使用的GreePlum,datax的驱动用的是gpdbwriter-v1.0.4-hashdata.jar,该驱动自动删除"0x"非法字符,就不存在该错误

                     不可能写9个抽取json模板,再抽取,只能原有json模板上修改

                     字段长度不同: 取9个库的最大值,作为目标表字段的字段长度

                     字段个数不同:   取其一个核心分公司库表为基础建表,其他8个库表,如果有就保留,没有就字段数据为NULL,每次执行查询取出8个库的字段:                         

# 获取分公司库该表的字段,如对比核心库表字段的缺失,使用null as 字段替换,如果多余则废弃,
# 字段对比以核心库为标准
def get_org_src_columns(src_columns,org_name,tab_name):src_columns = src_columns# 分公司字段org_cols = get_org_cols(org_name,tab_name)lst = src_columns.split(",")cols1 = (org_cols + ',')src_columns1 = (src_columns + ',')for i in lst:str1 =i.strip() + ','  # 去掉空格,对比使用,字段名+',',这样避免有重复前缀的字段名,导致误判if (cols1.find(str(','+str1)) == -1):src_columns1 = src_columns1.replace(str(','+str1), ',NULL as ' + str1)return src_columns1.rstrip(',')# 获取分公司库的表的字段用','合并成一个字符串
def get_org_cols(org_name,tab_name):conn = ora_conn()cur = conn.cursor()cols=""sql="select WM_CONCAT(COLUMN_NAME) cols from (SELECT  COLUMN_NAME FROM  all_tab_columns WHERE OWNER=upper('"+org_name+"') " \"and  table_name =upper('"+tab_name+"') order by COLUMN_ID asc) t ";cur.execute(sql)datas = cur.fetchall()for row in datas:cols= str(row[0])return cols;

       修改json模板支持同时抽取9个数据库,修改的9个库同时抽取oracle数据到greeplum全量json模板,见下载文件的:oracle_gp_table_df_job.json:  

    src_table_columns=row.get("src_table_column")# 其他8家分公司库src_table_columns_fz=get_org_src_columns(src_table_columns,"FZ",src_table_name)src_table_columns_jcg=get_org_src_columns(src_table_columns,"JCG",src_table_name)src_table_columns_ks=get_org_src_columns(src_table_columns,"KS",src_table_name)src_table_columns_qzdf=get_org_src_columns(src_table_columns,"QZDF",src_table_name)src_table_columns_sdsht=get_org_src_columns(src_table_columns,"SDSHT",src_table_name)src_table_columns_wfjx=get_org_src_columns(src_table_columns,"WFJX",src_table_name)src_table_columns_wst=get_org_src_columns(src_table_columns,"WST",src_table_name)src_table_columns_std=get_org_src_columns(src_table_columns,"STD",src_table_name)str1 = "/usr/bin/python /opt/module/datax/bin/datax.py /opt/module/datax/job/json/"+etl_mode+" -p  \" " \" -Dsrc_table_name='"+src_table_name+"' " \" -Ddes_table_name='"+des_table_name+"' " \" -Dsplit_pk_field='"+split_pk_field+"'   " \" -Drelation='"+relation+"' " \" -Dcondition='"+dcondition+"' " \" -Dsrc_table_columns='"+src_table_columns+"' " \" -Dsrc_table_columns_fz='" + src_table_columns_fz + "' " \" -Dsrc_table_columns_jcg='" + src_table_columns_jcg + "' " \" -Dsrc_table_columns_ks='" + src_table_columns_ks + "' " \" -Dsrc_table_columns_qzdf='" + src_table_columns_qzdf + "' " \" -Dsrc_table_columns_sdsht='" + src_table_columns_sdsht + "' " \" -Dsrc_table_columns_wfjx='" + src_table_columns_wfjx + "' " \" -Dsrc_table_columns_wst='" + src_table_columns_wst + "' " \" -Dsrc_table_columns_std='" + src_table_columns_std + "' " \" -Ddes_table_columns='"+des_table_columns+"' \" "

      这样修改后,就可以同时抽取9个库的数据,同时配置时,只需要配置核心库的相关字段等数据即可!  

   执行的datax_log表数据:

    说明: 1,该平台没有可视化页面的后台管理系统,如果加上后台管理系统,就更完美,但目前是足够使用的!

      DATAX的GreePlum驱动plugin下载:  

                  https://files.cnblogs.com/files/zping/gpdbwriter.rar?t=1708999240&download=true

     pydatax源码下载地址:

                 https://files.cnblogs.com/files/zping/pydatax.rar?t=1708755764&download=true

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/505284.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【机器学习】包裹式特征选择之递归特征消除法

🎈个人主页:豌豆射手^ 🎉欢迎 👍点赞✍评论⭐收藏 🤗收录专栏:机器学习 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进…

测试面试精选题:可用性测试主要测试哪些方面,举例说明

1.界面设计: 评估软件的用户界面设计是否直观、美观、易于理解和操作。 测试用例:打开软件,查看界面布局是否合理,各个功能是否容易找到,是否符合用户习惯。 2.导航和布局: 评估用户在软件中导航和查找…

QoS简单配置案例

1、两边两个方向做相同的配置:入口复杂流分类用mqc方式配置,ds内设备入口配简单流分类。 2、两边两个方法做拥塞管理配置,拥塞管理配置思路: 拥塞管理的两种配置方法(全部用一种也可以,这里学习就用了两种…

【计算机是怎么跑起来的】软件,体验一次手工汇编

【计算机是怎么跑起来的】软件,体验一次手工汇编 二进制机器语言汇编语言操作码操作数寄存器内存地址和I/O地址参考书:计算机是怎么跑起来的 第三章外设在路上。。。先整理一下本书涉及的理论知识,反正后面做视频也要重写QAQ 程序的作用是驱动硬件工作,所以在编写程序之前必…

硬派越野车之争,坦克400和方程豹5谁值得买

文 | AUTO芯球 ​作者 | 雷歌 堂堂一个2.9吨的硬派越野车,被一辆1吨多重的轿车撞掉了后轮。成了硬派越野车圈的舆论爆炸点。 最近车圈都在吐槽方程豹豹5,车祸是发生在几天前,撞车的是广汽埃安S max,被撞的是豹5。 一个硬派越野…

ubuntu个人系统软件安装配置备忘

1. 替换软件源 /etc/apt/source.list 2. 安装必要软件 安装基础软件 sudo apt update sudo apt install -y python3-pip git vim curl wget clang clang-format flameshot docker升级pip3 python3 -m pip install --upgrade pip 安装google浏览器 https://deb.pkgs.org/…

足底筋膜炎的症状及治疗

足底筋膜炎症状:足底筋膜炎通常表现为足跟部疼痛,尤其是在晨起或长时间站立、行走后加重。疼痛可能向足底前部或足弓处放射,严重时可能影响行走。此外,患者还可能出现足跟部肿胀、皮肤温度升高、局部压痛等症状。 足底筋膜炎治疗方…

Gateway网关实战

目录 什么是API网关? 网关为什么出现? 什么是Spring Cloud Gateway? 核心概念 Spring Cloud Gateway实战 路由断言工厂(Route Predicate Factories)配置 路径匹配 Header匹配 过滤器工厂( Gateway…

Netty的InboundHandler 和OutboundHandler

一、InboundHandler 和OutboundHandler的区别 在Netty中,"inbound"表示来自外部来源(如网络连接)的数据,而"outbound"则表示从应用程序发送到外部目标(如网络连接或其他服务)的数据。…

YOLOv9有效改进|使用空间和通道重建卷积SCConv改进RepNCSPELAN4

专栏介绍:YOLOv9改进系列 | 包含深度学习最新创新,主力高效涨点!!! 一、改进点介绍 SCConv是一种即插即用的空间和通道重建卷积。 RepNCSPELAN4是YOLOv9中的特征提取模块,类似YOLOv5和v8中的C2f与C3模块。 …

【数据结构】B树,B+树,B*树

文章目录 一、B树1.B树的定义2.B树的插入3.B树的中序遍历 二、B树和B*树1.B树的定义2.B树的插入3.B*树的定义4.B树系列总结 三、B树与B树的应用 一、B树 1.B树的定义 1. 在内存中搜索效率高的数据结构有AVL树,红黑树,哈希表等,但这是在内存…

若依框架使用mars3d的环境配置,地球构建

因项目需要,原本使用过的cesium依赖,现在想使用火星科技mars3d的一些功能,所以需要引入mars3d依赖,整个过程非常的坎坷,以至于我都不知道到底是哪些部分是标准的。。。先把我认为对的记录一下: 1.vue.conf…