TEZ搭建

news/2024/11/27 9:12:27/文章来源:https://www.cnblogs.com/bjynjj/p/18571475

Hive集成Tez

Tez介绍:https://www.infoq.cn/article/apache-tez-saha-murthy

MR在hive2中已经被弃用了,推荐使用Tez或Spark作为执行引擎

1、编译

下载Tez源码并根据Hadoop版本进行

由于Tez官方所提供的安装包对某些Hadoop版本不支持,可采取手动编译方式

需准备好maven环境,手动编译难度较大

可参考https://tez.apache.org/install.html官方文档进行编译

若Hadoop为3.1系列版本,可直接使用所已经编译好的tez安装包:tez-0.10.2.tar.gz

2、上传并解压
# 将Tez安装包上传至任意位置,例如:放在/usr/local/soft/packages中
# 切换目录
cd /usr/local/soft/packages
# 创建解压后Tez存放的目录
mkdir /usr/local/soft/tez
# 将Tez解压到创建好的目录中
tar -zxvf tez-0.10.2.tar.gz -C /usr/local/soft/tez/
3、将tez安装包上传至HDFS
# 在HDFS上创建目录
hdfs dfs -mkdir -p /user/tez/
# 上传安装包并重命名,这里不需要解压,直接上传即可
hdfs dfs -put tez-0.10.2.tar.gz /user/tez/tez.tar.gz
4、修改环境变量
vim /etc/profile# 在最后加入一下内容
# 如果在HBase中配置了`hadoop classpath`则不需要再配置
HADOOP_CLASSPATH=`hadoop classpath`
HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop/
TEZ_HOME=/usr/local/soft/tez
export TEZ_CONF_DIR=$HADOOP_CONF_DIR
export TEZ_JARS=$TEZ_HOME/*.jar:$TEZ_HOME/lib/*.jar
export HADOOP_CLASSPATH=$TEZ_CONF_DIR:$TEZ_JARS:$HADOOP_CLASSPATH
5、增加tez-site.xml配置文件
# 切换到Hadoop的配置文件所在目录,一般将tez的配置文件也放在此位置
cd /usr/local/soft/hadoop-3.1.1/etc/hadoop
# 创建并编辑文件
vim tez-site.xml# 加入以下内容
<?xml version="1.0" encoding="UTF-8"?>
<configuration><!-- 指定在hdfs上的tez包文件 --><property><name>tez.lib.uris</name><value>hdfs://master:9000/user/tez/tez.tar.gz</value></property>
</configuration>
6、修改Hadoop相关配置文件

Hadoop是分布式模式运行,配置修改完成之后记得分发并重启集群

  • yarn-site.xml

    这里贴出完整配置文件,按需修改

    主要是yarn.nodemanager.vmem-check-enabled以及yarn.nodemanager.pmem-check-enabled这两项配置

    由于机器资源有限,故关闭对内存的检查,否则任务运行容易出现资源不够的问题

    <?xml version="1.0"?>
    <configuration><property><name>yarn.resourcemanager.hostname</name><value>master</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.log-aggregation-enable</name><value>true</value></property><property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property><property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value></property><property><name>yarn.nodemanager.pmem-check-enabled</name><value>false</value></property>
    </configuration>
    
  • mapred-site.xml

    主要是修改mapreduce.framework.name配置的值

    原本应该是yarn,现在改为yarn-tez,其他保持不变

        <property><name>mapreduce.framework.name</name><value>yarn-tez</value></property>
    
  • capacity-scheduler.xml

    主要调整一下容量调度中AM的资源占比,保证yarn中能同时运行多个任务

    yarn.scheduler.capacity.maximum-am-resource-percent:AM能够使用的最大资源占比

    原本为0.1,这里直接改为1,也可根据情况自行调整

    不调整的话会导致Tez启动等待资源时间过长,进而影响整个HQL的查询时间

      <property><name>yarn.scheduler.capacity.maximum-am-resource-percent</name><value>1</value><description>Maximum percent of resources in the cluster which can be used to runapplication masters i.e. controls number of concurrent runningapplications.</description></property>
    
  • 分发配置文件

    scp ./* node1:`pwd`
    scp ./* node2:`pwd`
    
  • 重启yarn

    由于并未涉及到HDFS配置文件,故只需重启Yarn服务即可

    stop-yarn.sh
    start-yarn.sh
    
7、修改Hive配置文件

1、主要修改Hive执行引擎为Tez

2、由于资源有限,故还需设置Tez默认执行容器内存大小,否则Tez任务运行容易出现资源问题

3、hive.cli.tez.session.async:是否异步启动Tez会话,默认为true

​ 建议禁止,否则在Tez会话启动前就进入了Hive命令行,容易导致任务首次执行不成功

​ 如若开启,则需进入hive命令行速度会快一些,但成功执行HQL得等待Tez会话创建成功

# 切换目录
cd /usr/local/soft/hive-3.1.3/conf/
# 编辑hive-site.xml
vim hive-site.xml# 增加下列配置,其他保持不变<property><name>hive.execution.engine</name><value>tez</value><description>Expects one of [mr, tez, spark].Chooses execution engine. Options are: mr (Map reduce, default), tez, spark. While MRremains the default engine for historical reasons, it is itself a historical engineand is deprecated in Hive 2 line. It may be removed without further warning.</description></property><property><name>hive.tez.container.size</name><value>1024</value><description>By default Tez will spawn containers of the size of a mapper. This can be used to overwrite.</description></property><property><name>hive.cli.tez.session.async</name><value>false</value><description>Whether to start Tezsession in background when running CLI with Tez, allowing CLI to be available earlier.</description></property>
8、解决log4j冲突问题

由于hadoop、hive、tez包中都包含了log4j的依赖,一起搭配使用会造成冲突

故只保留hadoop自带的即可,将hive、tez对应的jar包重命名即可

# 切换tez下的lib目录
cd /usr/local/soft/tez/lib
# 将log4j对应jar包进行重命名
mv slf4j-log4j12-1.7.25.jar slf4j-log4j12-1.7.25.jar.bak
mv slf4j-reload4j-1.7.36.jar slf4j-reload4j-1.7.36.jar.bak
9、启动Hive

切换Tez执行引擎后,hive启动以及HQL执行的日志较多,可参考前面第11步,将日志打印级别设为WARN或者ERROR

hive
10、验证Tez引擎

使用安装步骤第10步中test库下的students表进行查询验证

对比基于MR和Tez两种计算引擎的执行速度

-- 切换库
use test;-- 统计班级人数,并按人数降序排列
select clazz,count(*) as cnt from test.students group by clazz order by cnt desc;
  • 开启Tez引擎后执行会有如下输出

    未报错并有结果即说明Tez引擎切换成功

    Tez执行速度明显变快

    截屏2023-09-14 20.52.26.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/842114.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

半导体行业数据保护:内外网数据摆渡的前沿技术!

在半导体行业中,核心数据的保护至关重要,像设计图纸、源代码、工艺参数、生产数据、测试数据、研发数据等,这些数据不仅是企业的核心资产,还直接关系到产品的竞争力和市场占有率。基于网络和数据安全管理需求,半导体企业一般会将内部网络通过防火墙隔离为内网和外网两个网…

什么是Data URI?

Data URI,全称为 Data Uniform Resource Identifier,是一种将小型数据文件直接嵌入到HTML、CSS或JavaScript等Web资源中的方案。它允许将数据编码为Base64字符串并包含在URI中,而不是引用外部文件。 基本语法: data:[<mediatype>][;base64],<data>data: 前缀,…

怎么去掉点击a链接或者图片出现的边框?

要去掉点击 a 链接或者图片出现的边框,你可以使用 CSS 的 outline 属性将其设置为 none。 以下几种方法可以实现: 1. 通用方法 (推荐): a, img {outline: none; }这个方法最简单直接,会移除所有 a 标签和 img 标签的 outline。 2. 更精确的控制 - 针对特定链接或图片: 如…

windows上安装npm

npm是nodejs下的包管理器,要使用npm命令就要下载nodejs 首先进入nodejs官网进行下载Node.js — Run JavaScript Everywhere (nodejs.org) 下载好后next,安装到想要的路径下一直next就行 这一步选择APP to PATH,默认添加配置 打开cmd 输入echo %path%,查看所有配置 看到node…

Prometheus告警带图完美解决方案

转载自:https://mp.weixin.qq.com/s/dDmZaJ66tdEScCJyansyJA 需求背景 告警分析处理流程 通常我们收到 Prometheus 告警事件通知后,往往都需要登录 Alertmanager 页面查看当前激活的告警,如果需要分析告警历史数据信息,还需要登录 Prometheus 页面的在 Alerts 中查询告警 p…

360评估如何自动剔除掉最高分和最低分?

在 360 度评估中,为了确保数据的真实性和有效性,我们可以采取一些控制评分结果的严谨措施。比如前几期中提到的 评价时的得分分布控制、提交评价后HR管理后台对极端评价结果一键打回功能等这些手段。 但有的时候我们就是希望不人为去干预太多,比如一键打回那种方式HR要付出不…

Dumphash: 绕过杀软dumphash 离线读取工具

免责声明 工具仅供安全研究与学习之用,若将工具做其他用途,由使用者承担全部法律及连带责任,作者及发布者不承担任何法律及连带责任。信息及工具收集于互联网,真实性及安全性自测!!!项目介绍 Dumphash绕过国内全部杀软转存储 该工具无任何网络行为 编译完成后可以注释掉…

fsacn输出结果的图形化工具 - FscanParser

免责声明: 工具仅供安全研究与学习之用,若将工具做其他用途,由使用者承担全部法律及连带责任,作者及发布者不承担任何法律及连带责任。信息及工具收集于互联网,真实性及安全性自测!!!项目介绍 一个用于处理fsacn输出结果的图形化工具(尤其面对大量资产的fscan扫描结果…

【架构】高性能排名系统的核心架构原理

简介 Booking.com 利用复杂的排名系统优化每位用户的搜索结果。该系统采用先进的机器学习算法,并充分利用海量数据,包括用户行为、偏好和历史交互记录,为用户量身定制酒店列表和旅行推荐。 本文将带您深入了解支撑多个垂直领域(如住宿、航班等)个性化排名的排名平台架构。…

【java开发】一文理清 Java 日志框架的来龙去脉

一、引言二、日志概念三、日志框架的作用四、日志框架的发展历程4.1 早期阶段(1996年以前)4.2 Log4j的诞生(1996年)4.3 JUL的推出(2002年)4.4 JCL的推出(2002年)4.5 SLF4J和Logback的创建(2006年)4.6 Log4j 2的推出(2012年)五、主流日志框架5.1 日志门面5.2 日志实…

dotnet 简单写一个 pdb 符号文件下载器

本文将告诉大家如何读取 PE 文件头信息,拼接 PDB 符号文件下载地址,从微软公共符号服务器拉取符号文件本文将以拉取 ntdll.dll 为例子告诉大家如何从 msdl.microsoft.com 下载符号 我先将自己电脑上的 ntdll.dll 拷贝到输出路径,方便我进行访问。读取 C 盘的 Windows 文件夹…

读数据质量管理:数据可靠性与数据质量问题解决之道16数据认证

数据认证1. 对数据进行认证 1.1. 数据认证是指在数据资产满足关于数据质量、可观测性、权责分配、问题解决和沟通等公司内共同遵守的SLA后,批准它们被用于整个组织的过程 1.2. 数据认证为人员、框架和技术构建了关键流程,使其与核心业务政策保持一致 1.3. 数据认证的要求会因…