中电金信:技术实践|Flink维度表关联方案解析

导语:Flink是一个对有界和无界数据流进行状态计算的分布式处理引擎和框架,主要用来处理流式数据。它既可以处理有界的批量数据集,也可以处理无界的实时流数据,为批处理和流处理提供了统一编程模型。

维度表可以看作是用户来分析数据的窗口,它区别于事实表业务真实发生的数据,通常用来表示业务属性,以便为分析者提供有用的信息。在实际场景中,由于数据是实时变化的,因此需要通过将维度表进行关联,来保证业务的时效性和稳定性。本文主要围绕Flink维度表关联方案进行论述,分析不同关联方案的作用和特点,与各位读者共飨。

维度表与事实表的关联是数据分析中常见的一种分析方式,在传统数仓系统中,由于数据是有界的,因此关联实现相对简单。但是在实时系统或实时数仓中,数据是无界的,关联时需要考虑的问题就会复杂很多,如数据迟到导致的关联结果不准确、缓存数据消耗资源过大等等。

在典型的实时系统中,维表数据一般来源于源系统的OLTP数据库中,采用CDC技术将维表数据实时采集到Kafka或其他消息队列,最后保存到HBase、Hudi、Redis等组件中供数据分析使用。一个比较常见的架构图如下:

Flink维度表关联有多种方案,包括实时lookup数据库关联、预加载维表关联、广播维度表、Temporal Table Function Join等。每种方案都有各自的特点,需要结合实际情况综合判断,维表关联方案主要考虑的因素有如下几个方面:

■ 实现复杂度:实现维表关联复杂度越低越好

■ 数据库负载:随着事实表数据量增大,数据库吞吐量能否满足,数据库负载能否支撑

■ 维表更新实时性:维表更新后,新的数据能否及时被应用到

■ 内存消耗:是否占用太多内存

■ 横向扩展:随着数据量增大,能否横向扩展

■ 结果确定性:结果的正确性是否能够保证

01 实时lookup数据库关联

所谓实时lookup数据库关联,就是在用户自定义函数中通过关联字段直接访问数据库实现关联的方式。每条事实表数据都会根据关联键,到存储维度表的数据库中查询一次。

实时lookup数据库关联的特点是实现简单,但数据库压力较大,无法支撑大数据量的维度数据查询,并且在查询时只能根据当时的维度表数据查询,如果事实表数据重放或延迟,查询结果的正确性无法得到保证,且多次查询结果可能不一致。

实时lookup数据库关联还可以再细分为三种方式:同步lookup数据库关联、异步lookup数据库关联和带缓存的数据库lookup关联。

1.1 同步lookup数据库关联

同步实时数据库lookup关联实现最简单,只需要在一个RichMapFunction或者RichFlat-MapFunction中访问数据库,处理好关联逻辑后将结果数据输出即可。上游每输入一条数据就会前往外部表中查询一次,等待返回后输出关联结果。

同步lookup数据库关联的参考代码如下:

创建类并继承RichMapFunction抽象类。

public class HBaseMapJoinFun extends RichMapFunction<Tuple2<String,String>,Tuple3<String,String,String>> {

在open方法中实现连接数据库(该数据库存储了维度表信息)。

public void open(Configuration parameters) throws Exception {org.apache.hadoop.conf.Configuration hconf= HBaseConfiguration.create();InputStream hbaseConf = DimSource.class.getClassLoader().getResourceAsStream("hbase-site.xml");InputStream hdfsConf = DimSource.class.getClassLoader().getResourceAsStream("hdfs-site.xml");InputStream coreConf = DimSource.class.getClassLoader().getResourceAsStream("core-site.xml");hconf.addResource(hdfsConf);hconf.addResource(hbaseConf);hconf.addResource(coreConf);if (User.isHBaseSecurityEnabled(hconf)){String userName = "dl_rt";String keyTabFile = "/opt/kerberos/kerberos-keytab/keytab";LoginUtil.setJaasConf(ZOOKEEPER_DEFAULT_LOGIN_CONTEXT_NAME, userName, keyTabFile);}else {LOG.error("conf load error!");}connection = ConnectionFactory.createConnection(hconf);
}

在map方法中实现关联操作,并返回结果。

@Override
public Tuple3<String, String, String> map(Tuple2<String, String> stringStringTuple2) throws Exception LOG.info("Search hbase data by key .");String row_key = stringStringTuple2.f1;String p_name = stringStringTuple2.f0;byte[] familyName = Bytes.toBytes("cf");byte[] qualifier = Bytes.toBytes("city_name");byte[] rowKey = Bytes.toBytes(row_key);table = connection.getTable(TableName.valueOf(table_name));Get get = new Get(rowKey);get.addColumn(familyName,qualifier);Result result = table.get(get);for (Cell cell : result.rawCells()){LOG.info("{}:{}:{}",Bytes.toString(CellUtil.cloneRow(cell)),Bytes.toString(CellUtil.cloneFamily(cell)),Bytes.toString(CellUtil.cloneQualifier(cell)),Bytes.toString(CellUtil.cloneValue(cell)));}String cityName = Bytes.toString(result.getValue(Bytes.toBytes("cf"),Bytes.toBytes("city_name")));return new Tuple3<String, String, String>(row_key,p_name,cityName);
}

在主类中调用。

//关联维度表
SingleOutputStreamOperator<Tuple3<String,String,String>> resultStream = dataSource.map(new HBaseMapJoinFun());
resultStream.print().setParallelism(1);

1.2 异步lookup数据库关联

异步实时数据库lookup关联需要借助AsyncIO来异步访问维表数据。AsyncIO可以充分利用数据库提供的异步Client库并发处理lookup请求,提高Task并行实例的吞吐量。

相较于同步lookup,异步方式可大大提高数据库查询的吞吐量,但相应的也会加大数据库的负载,并且由于查询只能查当前时间点的维度数据,因此可能造成数据查询结果的不准确。

AsyncIO提供lookup结果的有序和无序输出,由用户自己选择是否保证event的顺序。

示例代码参考如下:

创建Join类并继承RichAsyncFunction抽象类。

public class HBaseAyncJoinFun extends RichAsyncFunction<Tuple2<String,String>, Tuple3<String,String,String>> {

在open方法中实现连接数据库(存储了维度表的信息)。

public void open(Configuration parameters) throws Exception {org.apache.hadoop.conf.Configuration hconf= HBaseConfiguration.create();InputStream hbaseConf = DimSource.class.getClassLoader().getResourceAsStream("hbase-site.xml");InputStream hdfsConf = DimSource.class.getClassLoader().getResourceAsStream("hdfs-site.xml");InputStream coreConf = DimSource.class.getClassLoader().getResourceAsStream("core-site.xml");hconf.addResource(hdfsConf);hconf.addResource(hbaseConf);hconf.addResource(coreConf);if (User.isHBaseSecurityEnabled(hconf)){String userName = "dl_rt";String keyTabFile = "/opt/kerberos/kerberos-keytab/keytab";LoginUtil.setJaasConf(ZOOKEEPER_DEFAULT_LOGIN_CONTEXT_NAME, userName, keyTabFile);}else {LOG.error("conf load error!");}final ExecutorService threadPool = Executors.newFixedThreadPool(2,new ExecutorThreadFactory("hbase-aysnc-lookup-worker", Threads.LOGGING_EXCEPTION_HANDLER));try{connection = ConnectionFactory.createAsyncConnection(hconf).get();table=connection.getTable(TableName.valueOf(table_name),threadPool);}catch (InterruptedException | ExecutionException e){LOG.error("Exception while creating connection to HBase.",e);throw new RuntimeException("Cannot create connection to HBase.",e);}

在AsyncInvoke方法中实现异步关联,并返回结果。

@Override
public void asyncInvoke(Tuple2<String, String> input, ResultFuture<Tuple3<String, String, String>> resultFuture) throws Exception {LOG.info("Search hbase data by key .");String row_key = input.f1;String p_name = input.f0;byte[] familyName = Bytes.toBytes("cf");byte[] qualifier = Bytes.toBytes("city_name");byte[] rowKey = Bytes.toBytes(row_key);Get get = new Get(rowKey);get.addColumn(familyName,qualifier);CompletableFuture<Result> responseFuture = table.get(get);responseFuture.whenCompleteAsync((result, throwable) -> {if (throwable != null){if (throwable instanceof TableNotFoundException){LOG.error("Table '{}' not found", table_name,throwable);resultFuture.completeExceptionally(new RuntimeException("HBase table '"+table_name+"' not found.",throwable));}else {LOG.error(String.format("HBase asyncLookup error,retry times = %d",1),throwable);responseFuture.completeExceptionally(throwable);}}else{List list = new ArrayList<Tuple3<String, String, String>>();if (result.isEmpty()){String cityName="";list.add(new Tuple3<String,String,String>(row_key,p_name,cityName));resultFuture.complete(list);}else{String cityName = Bytes.toString(result.getValue(Bytes.toBytes("cf"),Bytes.toBytes("city_name")));list.add(new Tuple3<String,String,String>(row_key,p_name,cityName));resultFuture.complete(list);}}});}

在主方法中调用。

//异步关联维度表
DataStream<Tuple3<String,String,String>> unorderedResult = AsyncDataStream.unorderedWait(dataSource, new HBaseAyncJoinFun(),5000L, TimeUnit.MILLISECONDS,2).setParallelism(2);
unorderedResult.print();

此处使用unorderedWait方式,允许返回结果存在乱序。

1.3 带缓存的数据库lookup关联

带缓存的数据库lookup关联是对上述两种方式的优化,通过增加缓存机制来降低查询数据库的请求数量,而且缓存不需要通过 Checkpoint 机制持久化,可以采用本地缓存,例如Guava Cache可以比较轻松的实现。

此种方式的问题在于缓存的数据无法及时更新,可能会造成关联数据不正确的问题。

02 预加载维表关联

预加载维表关联是在作业启动时就把维表全部加载到内存中,因此此种方式只适用于维度表数据量不大的场景。相较于lookup方式,预加载维表可以获得更好的性能。

预加载维表关联还可以再细分为四种方式:启动时预加载维表、启动时预加载分区维表、启动时预加载维表并定时刷新和启动时预加载维表并实时lookup数据库。

预加载维表的各种细分方案可根据实际应用场景进行结合应用,以此来满足不同的场景需求。

2.1 启动时预加载维表

启动时预加载维表实现比较简单,作业初始化时,在用户函数的open方法中读取数据库的维表数据放到内存中,且缓存的维表数据不作为State,每次重启时open方法都被再次执行,从而加载新的维表数据。

此方法需要占用内存来存储维度表数据,不支持大数据量的维度表,且维度表加载入内存后不能实时更新,因此只适用于对维度表更新要求不高且数据量小的场景。

2.2 启动时预加载分区维表

对于维表比较大的情况,可以在启动预加载维表基础之上增加分区功能。简单来说就是将数据流按字段进行分区,然后每个Subtask只需要加在对应分区范围的维表数据。此种方式一定要自定义分区,不要用KeyBy。

2.3 启动时预加载维表并定时刷新

预加载维度数据只有在Job启动时才会加载维度表数据,这会导致维度数据变更无法被识别,在open方法中初始化一个额外的线程来定时更新内存中的维度表数据,可以一定程度上缓解维度表更新问题,但无法彻底解决。

示例代码参考如下:

public class ProLoadDimMap extends RichMapFunction<Tuple2<String,Integer>,Tuple2<String,String>> {private static final Logger LOG = LoggerFactory.getLogger(ProLoadDimMap.class.getName());ScheduledExecutorService executor = null;private Map<String,String> cache;@Overridepublic void open(Configuration parameters) throws Exception {executor.scheduleAtFixedRate(new Runnable() {@Overridepublic void run() {try {load();} catch (Exception e) {e.printStackTrace();}}},5,5, TimeUnit.MINUTES);//每隔 5 分钟拉取一次维表数据}@Overridepublic void close() throws Exception {}@Overridepublic Tuple2<String, String> map(Tuple2<String, Integer> stringIntegerTuple2) throws Exception {String username = stringIntegerTuple2.f0;Integer city_id = stringIntegerTuple2.f1;String cityName = cache.get(city_id.toString());return new Tuple2<String,String>(username,cityName);}public void load() throws Exception {Class.forName("com.mysql.jdbc.Driver");Connection con = DriverManager.getConnection("jdbc:mysql://172.XX.XX.XX:XX06/yumd?useSSL=false&characterEncoding=UTF-8", "root", "Root@123");PreparedStatement statement = con.prepareStatement("select city_id,city_name from city_dim;");ResultSet rs = statement.executeQuery();//全量更新维度数据到内存while (rs.next()) {String cityId = rs.getString("city_id");String cityName = rs.getString("city_name");cache.put(cityId, cityName);}con.close();}
}

2.4 启动时预加载维表并实时lookup数据库

此种方案就是将启动预加载维表和实时look两种方式混合使用,将预加载的维表作为缓存给实时lookup使用,未命中则到数据库里查找。该方案可解决关联不上的问题。

03 广播维度表

广播维度表方案是将维度表数据用流的方式接入Flink Job 程序,并将维度表数据进行广播,再与事件流数据进行关联,此种方式可以及时获取维度表的数据变更,但因数据保存在内存中,因此支持的维度表数据量较小。

示例代码参考如下:

首先将维度表进行广播。

//维度数据源
DataStream<Tuple2<Integer,String>> dimSource = env.addSource(new DimSource1());// 生成MapStateDescriptor
MapStateDescriptor<Integer,String> dimState = new MapStateDescriptor<Integer, String>("dimState",BasicTypeInfo.INT_TYPE_INFO,BasicTypeInfo.STRING_TYPE_INFO);
BroadcastStream<Tuple2<Integer,String>> broadcastStream = dimSource.broadcast(dimState);

实现BroadcastProcessFunction类的processElement方法处理事实流与广播流的关联,并返回关联结果。

SingleOutputStreamOperator<String> output = dataSource.connect(broadcastStream).process(new BroadcastProcessFunction<Tuple2<String, Integer>, Tuple2<Integer, String>, String>() {@Overridepublic void processElement(Tuple2<String, Integer> input, ReadOnlyContext readOnlyContext, Collector<String> collector) throws Exception {ReadOnlyBroadcastState<Integer,String> state = readOnlyContext.getBroadcastState(dimState);String name = input.f0;Integer city_id = input.f1;String city_name="NULL";if (state.contains(city_id)){city_name=state.get(city_id);collector.collect("result is : "+name+" ,"+city_id+" ,"+city_name);}}

实现BroadcastProcessFunction类的processBroadcastElement方法处理广播流数据,将新的维度表数据进行广播。

@Override
public void processBroadcastElement(Tuple2<Integer, String> input, Context context, Collector<String> collector) throws Exception {LOG.info("收到广播数据:"+input);context.getBroadcastState(dimState).put(input.f0,input.f1);
}

04 Temporal Table Function Join

Temporal Table Function Join仅支持在Flink SQL API中使用,需要将维度表数据作为流的方式传入Flink Job。该种方案可支持大数据量的维度表,且维度表更新及时,关联数据准确性更高,缺点是会占用状态后端和内存的资源,同时自行实现的代码复杂度过高。

Temporal Table是持续变化表上某一时刻的视图,Temporal Table Function是一个表函数,传递一个时间参数,返回Temporal Table这一指定时刻的视图。可以将维度数据流映射为Temporal Table,主流与这个Temporal Table进行关联,可以关联到某一个版本(历史上某一个时刻)的维度数据。

示例代码参考如下:

public class TemporalFunTest {public static void main(String[] args) throws Exception {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);EnvironmentSettings bsSettings = EnvironmentSettings.newInstance().inStreamingMode().build();StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env, bsSettings);env.setParallelism(1);//定义主流DataStream<Tuple3<String,Integer,Long>> dataSource = env.addSource(new EventSource2()).assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor<Tuple3<String,Integer,Long>>(Time.seconds(0)){@Overridepublic long extractTimestamp(Tuple3<String, Integer, Long> stringIntegerLongTuple3) {return stringIntegerLongTuple3.f2;}});//定义维度流DataStream<Tuple3<Integer, String, Long>> cityStream = env.addSource(new DimSource()).assignTimestampsAndWatermarks(//指定水位线、时间戳new BoundedOutOfOrdernessTimestampExtractor<Tuple3<Integer, String, Long>>(Time.seconds(0)) {@Overridepublic long extractTimestamp(Tuple3<Integer, String, Long> element) {return element.f2;}});//主流,用户流, 格式为:user_name、city_id、tsTable userTable = tableEnv.fromDataStream(dataSource,"user_name,city_id,ts.rowtime");//定义城市维度流,格式为:city_id、city_name、tsTable cityTable = tableEnv.fromDataStream(cityStream,"city_id,city_name,ts.rowtime");tableEnv.createTemporaryView("userTable", userTable);tableEnv.createTemporaryView("cityTable", cityTable);//定义一个TemporalTableFunctionTemporalTableFunction dimCity = cityTable.createTemporalTableFunction("ts", "city_id");//注册表函数tableEnv.registerFunction("dimCity", dimCity);Table u = tableEnv.sqlQuery("select * from userTable");u.printSchema();tableEnv.toAppendStream(u, Row.class).print("user streaming receive : ");Table c = tableEnv.sqlQuery("select * from cityTable");c.printSchema();tableEnv.toAppendStream(c, Row.class).print("city streaming receive : ");//关联查询Table result = tableEnv.sqlQuery("select u.user_name,u.city_id,d.city_name,u.ts " +"from userTable as u " +", Lateral table (dimCity(u.ts)) d " +"where u.city_id=d.city_id");//打印输出DataStream resultDs = tableEnv.toAppendStream(result, Row.class);resultDs.print("\t\t join result out:");env.execute("joinDemo");}
}

最后,总结各种维度表关联方案的特点如下:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/542542.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【AI+应用】一步步搭建聊天机器人搭配多种国内外大模型以及api接口调用

如果你看过我之前写的一篇文章 【AI应用】怎么快速制作一个类chatGPT套壳网站&#xff0c; 你可能顺利地使用chatGPT、Gemini&#xff0c; 用得很happy。 突然有一天&#xff0c;你发现一些网站&#xff0c;除了chatGPT、Gemini &#xff0c;还可以切换使用国内外其他的大模型…

你为什么是你,而不是别人?认识人格的力量

你为什么是你&#xff0c;而不是别人&#xff1f;让你做自我介绍&#xff0c;你会怎么描述自己呢&#xff1f; 人格心理学是心理学的一门重要分支学科。探求、描述和揭示个体思想、情绪及行为的独特模式&#xff0c;综合个人与环境诸多影响因素&#xff0c;对现实社会中的个人作…

鸿蒙Harmony应用开发—ArkTS声明式开发(容器组件:ColumnSplit)

将子组件纵向布局&#xff0c;并在每个子组件之间插入一根横向的分割线。 说明&#xff1a; 该组件从API Version 7开始支持。后续版本如有新增内容&#xff0c;则采用上角标单独标记该内容的起始版本。 子组件 可以包含子组件。 ColumnSplit通过分割线限制子组件的高度。初始…

电视盒子解析安装包失败,安卓4.4安装不了kodi的解决方法,如何安装kodi

有些安卓电视或者电视盒子的安卓系统版本太低、自身架构或者屏蔽了安装其他应用的功能&#xff0c;下载的Kodi apk安装包提示无法安装&#xff0c;解析程序包时出现问题、解析出错无法安装、[INSTALL_FAILED_OLDER_SDK]、此应用与您的电视不兼容。 解决方法&#xff1a; 1、3…

linux下重启ORACLE

切换到oracle用户 su - oracle 登录oracle sqlplus / as sysdba 启动数据库 startup 退出数据库 exit 启动监听 lsnrctl start FINISH

【Java设计模式】二十三、解释器模式

文章目录 1、解释器模式2、案例 1、解释器模式 计算一个表达式的值&#xff0c;比如12-34-7&#xff0c;单纯的定义方法或函数很难适配所有&#xff0c;因为数值和运算符可以有无数种组合。 //用于n个整数相加 public static int add(Integer ... arr) {int sum 0;for (Inte…

Xpay源支付2.8.8免授权聚合免签系统

产品介绍 XPay是专为个人站长打造的聚合免签系统&#xff0c;拥有卓越的性能和丰富的功能。采用全新轻量化的界面UI&#xff0c;让您可以更加方便快捷地解决知识付费和运营赞助的难题。同时&#xff0c;它基于高性能的ThinkPHP 6.1.2 Layui 2.8.10 PearAdmin架构&#xff0c…

Learn OpenGL 08 颜色+基础光照+材质+光照贴图

我们在现实生活中看到某一物体的颜色并不是这个物体真正拥有的颜色&#xff0c;而是它所反射的(Reflected)颜色。物体的颜色为物体从一个光源反射各个颜色分量的大小。 创建光照场景 首先需要创建一个光源&#xff0c;因为我们以及有一个立方体数据&#xff0c;我们只需要进行…

C语言从入门到熟悉------第四阶段

指针 地址和指针的概念 要明白什么是指针&#xff0c;必须先要弄清楚数据在内存中是如何存储的&#xff0c;又是如何被读取的。如果在程序中定义了一个变量&#xff0c;在对程序进行编译时&#xff0c;系统就会为这个变量分配内存单元。编译系统根据程序中定义的变量类型分配…

SIP调试之SIPP测试工具

SIPP是针对SIP协议的一个性能测试的命令行工具&#xff0c;可以动态显示测试的统计信息&#xff08;如呼叫速率、延时、消息统计等&#xff09;。用户可以通过XML场景配置文件&#xff0c;自定义模拟各种UAC/UAS测试场景的信令交互流程&#xff0c;可以被用来测试IP话机、SIP代…

pdf文件属性的删除

pdf文件属性的删除 投标过程中需要处理文件属性&#xff0c;特别是word文件属性以及pdf文件的处理 这里讲解pdf文件属性的处理 word处理在我的另外一个博客中&#xff0c;word文件属性的处理 https://ht666666.blog.csdn.net/article/details/134102504 一般用 adobe acroba…

八 超级数据查看器   讲解稿   详情3  分享和外观

八 超级数据查看器 讲解稿 详情3 分享和外观 app下载地址 下载地址4 ​ 讲解稿全文&#xff1a; 第3讲 分享 顶栏颜色 外观设置 现在讲解分享功能。点击&#xff0c;会打开分享对话框&#xff0c;我们这里演示2个&#xff0c;可以按照标题做出分享&#xff0c;在第一组…