大数据Doris(四十八):Steam Load案例和注意事项

文章目录

Steam Load案例和注意事项

一、Steam Load案例

1、准备数据

2、创建 Doris 表

3、创建 Stream Load 导入任务

4、查看任务

5、查询Doris 表结果

二、注意事项


Steam Load案例和注意事项

一、Steam Load案例

下面以导入Linux节点本地磁盘数据到Doris为例,演示Stream Load使用方式。 

1、准备数据

在node1节点中创建/root/csv-data/test.csv数据文件,内容如下:

1,zs,18,100
2,ls,19,200
3,ww,20,300
4,ml,21,400
5,tq,22,500

2、创建 Doris 

create table stream_load_t1(
id int,
name string,
age int,
score double
) 
ENGINE = olap
DUPLICATE KEY(id)
DISTRIBUTED BY HASH(`id`) BUCKETS 8;

3、创建 Stream Load 导入任务

[root@node1 ~]# curl --location-trusted -u root:123456 -T /root/csv-data/test.csv -H "label:test-label"  -H  "column_separator:," http://node1:8030/api/example_db/stream_load_t1/_stream_load
{"TxnId": 15016,"Label": "test-label","TwoPhaseCommit": "false","Status": "Success","Message": "OK","NumberTotalRows": 5,"NumberLoadedRows": 5,"NumberFilteredRows": 0,"NumberUnselectedRows": 0,"LoadBytes": 60,"LoadTimeMs": 223,"BeginTxnTimeMs": 2,"StreamLoadPutTimeMs": 7,"ReadDataTimeMs": 0,"WriteDataTimeMs": 125,"CommitAndPublishTimeMs": 86
}

注意:

  • 当前Doris内部保留30分钟内最近成功的label,重启集群后,30分钟前的lable会被删除。
  • 用户无法手动取消 Stream Load,Stream Load 在超时或者导入错误后会被系统自动取消,取消后,已写入的数据也会回滚,不会生效。

4、查看任务

Stream Load 任务执行后,可以查看对应的导入的任务,命令如下,通过该命令可以观察Stream Load 对应的Label 已经存在哪些,目的不是观察任务是否成功,因为Stream Load 本身是同步执行导入并返回导入结果。

mysql> show stream load order by starttime desc limit 1\G;
*************************** 1. row ***************************Label: test-labelDb: example_dbTable: stream_load_t1User: rootClientIp: 192.168.179.4Status: SuccessMessage: OKUrl: N/ATotalRows: 5LoadedRows: 5FilteredRows: 0
UnselectedRows: 0LoadBytes: 60StartTime: 2023-06-08 15:30:41.209FinishTime: 2023-06-08 15:30:41.432
1 row in set (0.03 sec)

5、查询Doris 表结果

mysql> select * from stream_load_t1;
+------+------+------+-------+
| id   | name | age  | score |
+------+------+------+-------+
|    5 | tq   |   22 |   500 |
|    1 | zs   |   18 |   100 |
|    3 | ww   |   20 |   300 |
|    4 | ml   |   21 |   400 |
|    2 | ls   |   19 |   200 |
+------+------+------+-------+

二、注意事项

1、开启BE上的Stream Load记录后,查询不到记录

这是因为拉取速度慢造成的,可以尝试调整下面的参数:

  • 调大 BE 配置 stream_load_record_batch_size,这个配置表示每次从 BE 上最多拉取多少条 Stream load 的记录数,默认值为50条,可以调大到500条。
  • 调小 FE 的配置 fetch_stream_load_record_interval_second,这个配置表示获取 Stream load 记录间隔,默认每120秒拉取一次,可以调整到60秒。
  • 如果要保存更多的 Stream load 记录(不建议,占用 FE 更多的资源)可以将 FE 的配置 max_stream_load_record_size 调大,默认是5000条。

2、用户无法手动取消 Stream Load,Stream Load 在超时或者导入错误后会被系统自动取消。用户无法手动取消 Stream Load,Stream Load 在超时或者导入错误后会被系统自动取消。

3、通过MySQL Client 执行help stream load 命令可以查询Steam Load 更多使用帮助。

4、关于FE配置参数

stream_load_default_timeout_second:导入任务的超时时间(以秒为单位),导入任务在设定的 timeout 时间内未完成则会被系统取消,变成 CANCELLED。默认的 timeout 时间为 600 秒。如果导入的源文件无法在规定时间内完成导入,用户可以在 stream load 请求中设置单独的超时时间。或者调整 FE 的参数stream_load_default_timeout_second 来设置全局的默认超时时间。

5、关于BE配置参数

streaming_load_max_mb:Stream load 的最大导入大小,默认为 10G,单位是 MB。如果用户的原始文件超过这个值,则需要调整 BE 的参数 streaming_load_max_mb。

6、关于Stream Load的更多使用方式,参考官网:STREAM-LOAD - Apache Doris


  • 📢博客主页:https://lansonli.blog.csdn.net
  • 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!
  • 📢本文由 Lansonli 原创,首发于 CSDN博客🙉
  • 📢停下休息的时候不要忘了别人还在奔跑,希望大家抓紧时间学习,全力奔赴更美好的生活✨

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/5561.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

爆肝整理,性能测试-测试工具选型(各个对比)卷起来...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 性能测试和功能测…

SciencePub学术 | 算法类重点SCIEEI征稿中

SciencePub学术 刊源推荐: 算法类重点SCI&EI征稿中!2区闭源好刊,对国人非常友好。信息如下,录满为止: 一、期刊概况: 算法类重点SCI&EI 【期刊简介】IF:6.0-6.5,JCR2区,中…

gcc编译过程详解

以一个简单的C代码为例,详细讲解gcc整个编译过程。 1、预处理 主要处理#开头的东西,例如头文件处理、条件编译处理、将宏定义进行替换,还可以去掉注释、添加行号等。预处理的命令如下: gcc -E hello.c -o hello.i #-E表示预处理…

Jenkins 持续集成:Linux 系统 两台机器互相免密登录

背景知识 我们把public key放在远程系统合适的位置,然后从本地开始进行ssh连接。 此时,远程的sshd会产生一个随机数并用我们产生的public key进行加密后发给本地,本地会用private key进行解密并把这个随机数发回给远程系统。 最后&#xf…

MeterSphere(基于JMeter)常用断言汇总

JSONPath方式断言 {"success": true,"errCode": null,"errMessage": null,"statDate":"6月28日","data": [{"name": "人口","value": "1","unit": "万人…

安装 Prometheus 指标存储 观测 dubbo /windows_exporter指标 windows 版本 其他系统换个语法思路一样

目录 下载 Prometheus 访问Prometheus Targets 发现服务 对应的 dubbo 指标就出来了 Dubbo脚手架生成个最简单的项目 导入 Prometheus 相关包 或者使用这个包即可 启动后就自动上报指标了 Windows_exporter or node_exporter 端口 9182 Prometheus 配置 windows_exp…

『手撕 Mybatis 源码』11 - 二级缓存

二级缓存 概述 启用二级缓存需要进行三步配置 开启映射器配置文件中的缓存配置 <settings><!--cacheEnabled值默认就为true--><setting name"cacheEnabled" value"true"/></settings>在需要使用二级缓存的 Mapper 配置文件中配…

【嵌入式Qt开发入门】在Ubuntu下编写C++

在 Ubuntu 上面编写 C&#xff0c;本文内容主要介绍在 Ubuntu 在终端窗口下使用 vi/vim 编辑一 个 C源文件。通过编写最简单的示例“Hello,World&#xff01;”。带领大家学习如何在 Ubuntu 终端下编辑和编译 C。这里要求大家会在 Ubuntu 上使用 vi/vim&#xff0c;也就是要求大…

迪赛智慧数——柱状图(象形动态图):高考填报专业考虑的因素

效果图 填报志愿是高考后的一大重要环节&#xff0c;你的职业生涯就在这里起航了。那么&#xff0c;应该怎么填报志愿呢&#xff1f;高考填报专业考虑的因素很多&#xff0c;过半的人会考虑专业就业前景及薪资&#xff0c;其次是个人兴趣和是否为双一流建设学科。 数据源&…

Andriod 开发 SearchView默认弹出软键盘

SearchView默认弹出软键盘&#xff0c;遮挡了主界面 这很明显是SearchView是默认自动获取了焦点&#xff0c;所以上网搜了一下如何清除焦点&#xff1a; SearchView searchView getActivity().findViewById(R.id.searchViewSearchbar); searchView.clearFocus(); 然而没用&…

Android 安卓开发语言kotlin与Java该如何选择

一、介绍 如今在Android开发中&#xff0c;应用层开发语言主要是Java和Kotlin&#xff0c;Kotlin是后来加入的&#xff0c;主导的语言还是Java。kotlin的加入仿佛让会kotlin语言的开发者更屌一些&#xff0c;其实不然。 有人说kotlin的引入是解决开发者复杂的逻辑&#xff0c;并…

【xss漏洞-svg标签】详解svg标签+触发XSS

目录 一、理论知识 SVG标签的使用 二、实战部分 一、理论知识 SVG标签的使用 代码中的SVG标签和onload事件本身并不依赖于其他特定的标签来触发弹窗。无论它们被放置在哪个标签内&#xff0c;只要浏览器解析并加载了这个SVG标签&#xff0c;onload事件就会被触发。 注&am…