CyberData统一元数据服务

CyberData统一元数据服务功能完善,实现了湖仓平台元数据在整个平台的统一管理以及外部数据源元数据的主动发现和多计算引擎间元数据的互通互联。

同时,我们支持跨多元计算场景,以及在元数据基础上的统一数据权限管理和数据湖的自动化优化加速。

满足多元异构大数据计算引擎对元数据的需求。支持与Hive Metastore集成,通过Hive的标准化的元数据能力,为不同的分析计算引擎提供元数据管理和服务;支持基于Spark和Flink的自定义Catalog扩展机制,支持支持更大范围的数据源元数据管理能力,使Spark和Flink引擎能够访问关系型数据库,以及实现与湖仓数据源之间的跨源数据访问。

通过统一调度引擎的能力,满足元数据采集高性能、高可用,通过全文搜索引擎和图引擎能力提高元数据全文快速、高可用查询。

数据血缘支持API自定义血缘模型,灵活性高;基于Antlr语法解析,扩展性高;支持异构数据源间血缘构建;架构简洁,易接入,不强绑定和依赖数据底座引擎;准确率能够达到98%以上。

元数据部署规格可根据用户元数据体量灵活适配。

01 元数据架构设计

元数据统一存储:

MySQL+ElasticSearch+Graph Engine;

统一元数据服务,高度抽象元数据对外API、支持高可用集群部署。

统一Catalogo模型设计优势:

  • 支持用户自定义Catalog;

  • 同源数据源自动绑定已有Catalog;

  • 元数据集中管理,统一Catalog数据目录:规范元数据检索、存储;

  • 支持异构数据源间数据交互场景:如通过Catalog数据·目录去做Oracle数据源JOIN MySQL数据源查询;

  • 联邦查询:更好的跨数据源的查询。

图片

元数据guid的唯一模型设计:

通过guid快速的定位一个表或者列,例如定位元数据表列信息可通过catalogName、schema、tableName、columnName 快速定位,从而确保元数据的唯一性,避免了数据重复、冲突和混淆,更方便的对外透出统一查询元数据的能力。

02 统一数据血缘技术

通过数据开发、埋点、API导入与血缘应用四种方式触发血缘,以消息队列(MQ)的形式接受血缘;通过API(Http/REST)的方式构建统一血缘入口,进行统一血缘的解析后转化为统一的模型进行存储。

图片

目前血缘支持JDBCSQL、离线同步、实时任务、FlinkSQL四种任务类型。

当下血缘解析具有以下优势:

  • 灵活性高,支持API自定义血缘模型,通过API快速构建血缘;

  • 扩展性高,基于Antlr语法进行解析,灵活适配不同的数据库SQL语法;

  • 支持异构数据源间血缘构建,如MySQL到Hive,Oracle到Starrocks等;

  • 架构简洁,易接入;

  • 不强绑定和依赖数据底座引擎(如HiveHook机制);

  • 当下血缘解析淮确率>98%。

图片

通过Antlr定义的语法树编译自动构建解析代码后,用户通过Antllr Vistor访问模式构建血缘信息。

基于Antlr的血缘解析流程高度灵活,可兼容所有SQl语法;扩展性极高,支持自定义的抽象语法;同时具有强大的自动生成代码后实现解析逻辑。

03 元数据技术优势

元数据采集高可用容灾

图片

元数据高性能、高可用查询

  • 集群部署多节点,支持多种维度检索元数据,查询速度快,血缘全链路查询,根据用户元数据体量灵活部署;

  • 血缘构建方式多样:DTS、SQL解析、API构建、Hook引擎;

  • 血缘准实时解析;

  • 血缘解析支持的引擎:Hive、SparkSQL、FlinkSQL、 Gauss、StarRocks, Doris、OceanBase、ClickHouse、MaxCompute等15+;

  • 数据源支持情况 MySQL、SQLServer、Oracle、PG、DM、DB2、PolarDB、Sysbase、GBase + 等。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/651337.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mac: docker安装及其Command not found: docker

已经安装了docker desktop,没安装的 点击安装 傻瓜式安装即可 接着打开终端:好一个 Comand not found:docker 看我不把你整顿,解决如下: 如果你在 macOS 上安装了 Docker Desktop,但是终端无法识别 docker 命令&…

【JVM】从i++到JVM栈帧

【JVM】从i到JVM栈帧 本篇博客将用两个代码例子,简单认识一下JVM与栈帧结构以及其作用 从i与i说起 先不急着看i和i,我们来看看JVM虚拟机(请看VCR.JPG) 我们初学JAVA的时候一定都听到过JAVA“跨平台”的特性,也就是…

Linux之线程管理

目录 第1关:创建线程 任务描述 相关知识 使用pthread_create函数创建线程 编程要求 答案: 第2关:线程挂起 任务描述 相关知识 使用pthread_join挂起线程 编程要求 答案: 第3关:线程终止 任务描述 相关知识 使用pthread…

运行游戏提示dll文件丢失,分享多种有效的解决方法

在我们日常频繁地利用电脑进行娱乐活动,特别是畅玩各类精彩纷呈的电子游戏时,常常会遭遇一个令人困扰的问题。当我们满怀期待地双击图标启动心仪的游戏程序,准备全身心投入虚拟世界时,屏幕上却赫然弹出一条醒目的错误提示信息&…

【中级软件设计师】上午题12-软件工程(3):项目活动图、软件风险、软件评审、软件项目估算

【中级软件设计师】上午题12-软件工程(3) 1 软件项目估算1.1 COCOMO估算模型1.2 COCOMOⅡ模型 2 进度管理2.1 gantt甘特图2.2 pert图2.3 项目活动图2.3.1 画项目图 3 软件配置管理4 软件风险4.1 风险管理4.2 风险识别4.3 风险预测4.4 风险评估4.5 风险控…

Rest微服务案例

Rest 父工程构建microservicecloud-api公共子模块Modulemicroservicecloud-provider-dept-8001部门微服务提供者Modulemicroservicecloud-consumer-dept-80部门微服务消费者Module 以Dept部门模块做一个微服务通用案例 Consumer消费者(Client)通过REST调…

react项目发布后,浏览器源码泄露的解决方案

在使用create-react-app时,打包生产环境npm run build,浏览器打开后仍然是可以看到源码的。源码都没上传,为啥线上能看到源码 。 例:线上与服务器 线上与源码 react-scripts build和npm run build 有什么不同 react-scripts bui…

PID算法学习

PID算法介绍 在过程控制中,按偏差的比例(P)、积分(I)和微分(D)进行控制的PID控制器(亦称PID调节器)是应用最为广泛的一种自动控制器。它具有原理简单,易于实…

嵌入式Linux学习——Ubantu初体验

Ubuntu 和Windows 的最大差别 Windows中的每一个分区都对应着一个盘符,盘符下可以存放目录与文件,而在Ubantu中没有盘符的概念,只有目录结构。实际上不同的目录可能挂载在不同的分区之下,如果想要查看当前目录位于磁盘的哪个分区…

【java数据结构-优先级队列向下调整Topk问题,堆的常用的接口详解】

🌈个人主页:努力学编程’ ⛅个人推荐:基于java提供的ArrayList实现的扑克牌游戏 |C贪吃蛇详解 ⚡学好数据结构,刷题刻不容缓:点击一起刷题 🌙心灵鸡汤:总有人要赢,为什么不能是我呢 …

递归的层序遍历

最近遇到一个业务需求:一颗依赖树,其实就是一颗递归树,如何一层一层的数据放在一起,可以近似理解为二叉树的层序遍历。 业务理解为递归树的层序遍历 代码示例: public class RecursionErgodic {public static void…

使用Kimi的一些体会

1、https://kimi.cn 这个回答问题还比较专业,感觉比以前chatgpt要好一些 2、Moonshot AI - 开放平台 可以通过注册账号,或微信扫描就可以登录进去 通过postman可以体会一下功能 2.1 POST https://api.moonshot.cn/v1/chat/completions 2.2 授权选择下…