Impala-架构与设计

架构与设计

  • 一、背景和起源
  • 二、框架概述
    • 1.设计特点
    • 2.框架优点
    • 3.框架限制
  • 三、架构图
    • 1.Impala Daemon
    • 2.Statestore
    • 3.Catalog
  • 四、Impala查询流程
    • 1.发起查询
    • 2.生成执行计划
    • 3.分配任务
    • 4.交换中间数据
    • 5.汇集结果
    • 6.返回结果
  • 总结
  • 参考链接


一、背景和起源

现有的大数据查询分析工具Hive更适合长时间批处理查询分析,并不能满足实时交互式场景。因此根据谷歌的Dremel设计思想,Cloudera公司开发了一款高效率实时查询工具Impala,其性能比Hive快10到100倍。Impala没有使用MapReduce进行计算,而是将整个查询转化成执行计划树,分发到各个机器执行,然后通过拉的方式获取结果并组合成最终结果。

二、框架概述

Impala是一款基于Hive的大数据分析查询引擎,直接使用Hive的元数据Metastore,因此如果使用Impala需要先安装Hive并启动Metastore服务。Impala不依赖MapReduce而是将执行计划树进行并行计算,使用拉的方式获取结果数据,把结果数据按执行树流是传递汇集,减少中间结果落盘。

1.设计特点

  • 本地化计算、减少数据的网络传输
  • 采用Hive Metastore进行元数据存储和管理
  • 无需进行格式转化
  • 支持即席查询无延迟
  • 采用大规模并行处理架构、硬件利用率高
  • 不依赖MapReduce,并行处理执行计划,避免启动MapReduce开销
  • 结果写入内存并通过网络汇总,节省读写磁盘开销

2.框架优点

  • 基于内存进行计算,适合实时交互式SQL查询和分析
  • 无需转化为MapReduce,直接访问HDFS以及Hbase数据,低延迟

3.框架限制

  • 数据需要写入内存,对内存消耗比较大
  • 没有容错逻辑,如果执行过程发生错误会直接返回错误
  • 不支持UDF定制

三、架构图

在这里插入图片描述
Impala采用MPP架构,主要由Impala Daemon、Statestore和Catalog等三个模块组成。

1.Impala Daemon

接收查询请求,将查询请求生成计划树,分发执行计划到其他节点。进行数据读写,将结果进行汇总并返回。
Impala Daemon服务包含三个模块:Query Planner、Query Coordinator和Query Executor。

2.Statestore

主要是收集集群中所有Deamon的节点信息和健康情况。每个Deamon会从Statestore拉取并缓存所有Deamon相关信息,用于执行计划的分配。

3.Catalog

Impala的元数据服务,集群启动时从Hive Metastore加载元数据信息,如需再次加载需要使用invalidate metadata、refresh命令。Catalog负责接收Statestore的元数据查询请求。在Impala执行SQL导致元数据发生变化时,Catalog会将元数据变化同步给Statestore,再由Statestore广播给所有Daemon节点。

四、Impala查询流程

在这里插入图片描述

1.发起查询

客户端向Impala集群任意节点发送查询SQL语句

2.生成执行计划

Query Planner对查询语句进行解析生成解析树,然后将解析树变成执行计划。

3.分配任务

Query Coordinator根据执行计划和从Statestore获取的集群Daemon节点情况,将任务分配给Query Executor节点进行计算。

4.交换中间数据

Query Executor对计算的中间结果进行交换。

5.汇集结果

Query Coordinator从集群中的Query Executor节点拉取结果并进行汇集。

6.返回结果

Query Coordinator将汇总后的结果返回给客户端。

总结

Impala是大数据进行实时交互式分析查询的一个工具,没有依赖MapReduce执行任务,而是将任务分配到各个Impala节点进行计算和汇总,从而避免了MapReduce的启动时间。直接使用内存进行结果的保存减少了读写磁盘的时间。经过以上架构设计Impala的性能比Hive高出10到100倍,非常适用于即席查询和交互式分析场景。


参考链接

1.Apache Impala
2.Impala: A Modern, Open-Source SQL Engine for Hadoop

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/466459.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

树状菜单(利用映射-bootstrap+jQuery实现折叠功能)

效果&#xff08;默认全部展开&#xff09;&#xff1a; <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, initial-scale1.0" /><…

Days 29 ElfBoard LCD屏双电荷泵电路原理

7寸LCD屏幕的屏幕排线中采用的供电电压是5V供电&#xff0c;但是在屏幕工作时需要VCOM-5.3V、AVDD-12.5V、VGL--7V、VGH-17V几组电压&#xff0c;所以要对初始的5V电源进行DC-DC电压变换&#xff0c;在这里我们用到了双电荷泵电路。 再此电路中VCC_5V为电源输入&#xff0c;E…

Codeforces Round 923 (Div. 3) E. Klever Permutation (Java)

比赛链接&#xff1a;Round 923 (Div. 3) EE题传送门&#xff1a;E. Klever Permutation 题目&#xff1a;E. Klever Permutation 样例 #1 样例输入 #1 5 2 2 3 2 10 4 13 4 7 4样例输出 #1 2 1 1 3 2 1 8 4 10 2 7 5 9 3 6 4 10 1 13 5 9 2 12 6 8 3 11 7 1 6 3 7 2 5 4分…

【Docker】Docker Container(容器)

文章目录 一、什么是容器&#xff1f;二、为什么需要容器&#xff1f;三、容器的生命周期容器OOM容器异常退出容器暂停 四、容器命令详解docker createdocker logsdocker attachdocker execdocker startdocker stopdocker restartdocker killdocker topdocker statsdocker cont…

《UE5_C++多人TPS完整教程》学习笔记5 ——《P6 在线子系统(Online Subsystem)》

本文为B站系列教学视频 《UE5_C多人TPS完整教程》 —— 《P6 在线子系统&#xff08;Online Subsystem&#xff09;》 的学习笔记&#xff0c;该系列教学视频为 Udemy 课程 《Unreal Engine 5 C Multiplayer Shooter》 的中文字幕翻译版&#xff0c;UP主&#xff08;也是译者&a…

LeetCode周赛384 题解

AK 第 384 场周赛 - 力扣&#xff08;LeetCode&#xff09; 前两题都是签到, 略。 第三题: 回文字符串的最大数量 1、题意: 给定一个字符串数组&#xff0c;总字符数量不超过1e6, 可以交换其中的任意两个字符&#xff0c;问能构造最多几个回文字符串。 2、题解: 首先我…

Java图形化界面编程—— ImageIO 笔记

2.8.4 ImageIO的使用 在实际生活中&#xff0c;很多软件都支持打开本地磁盘已经存在的图片&#xff0c;然后进行编辑&#xff0c;编辑完毕后&#xff0c;再重新保存到本地磁盘。如果使用AWT要完成这样的功能&#xff0c;那么需要使用到ImageIO这个类&#xff0c;可以操作本地磁…

二、ClickHouse简介

ClickHouse简介 前言一、行式存储二、DBMS功能三、多样化引擎四、高吞吐写入能力五、数据分区与线程级并行六、场景七、特定版本 前言 ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的列式存储数据库&#xff08;DBMS&#xff09;&#xff0c;使用 C 语言编写&#xff0c;主要…

Ubuntu Desktop - Terminal 输出全部选中 + 复制

Ubuntu Desktop - Terminal 输出全部选中 复制 1. Terminal2. Terminal 最大化3. Edit -> Select All4. Copy & PasteReferences 1. Terminal 2. Terminal 最大化 3. Edit -> Select All 4. Copy & Paste Edit -> Copy or Shift Ctrl C Edit -> Paste…

数据库管理-第150期 Oracle Vector DB AI-02(20240212)

数据库管理150期 2024-02-12 数据库管理-第150期 Oracle Vector DB & AI-02&#xff08;20240212&#xff09;1 LLM2 LLM面临的挑战3 RAG4 向量数据库LLM总结 数据库管理-第150期 Oracle Vector DB & AI-02&#xff08;20240212&#xff09; 作者&#xff1a;胖头鱼的鱼…

SHA-512在Go中的实战应用: 性能优化和安全最佳实践

SHA-512在Go中的实战应用: 性能优化和安全最佳实践 简介深入理解SHA-512算法SHA-512的工作原理安全性分析SHA-512与SHA-256的比较结论 实际案例分析数据完整性验证用户密码存储数字签名总结 性能优化技巧1. 利用并发处理2. 避免不必要的内存分配3. 适当的数据块大小总结 与其他…

通过QT制作一个模仿微信主界面的界面(不要求实现具体通信功能)

main.cpp #include "widget.h" #include "second.h"#include <QApplication>int main(int argc, char *argv[]) {QApplication a(argc, argv);Widget w;w.show();//实例化第二个界面Second s;QObject::connect(&w, &Widget::my_jump, &…