Hive的join操作

假设有三张表,结构和数据如下:
-- 创建表 test_a,test_b,test_c
CREATE TABLE test_a(
id int,
name string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';--分别导入数据到三个表中
--test_a
1   a1
2   a2
4   a4
--test_b
1   b1
3   b3
4   b4
--test_c
1   c1
4   c4
5   c5
hive只支持等值连接;
不支持非等值的join条件(可以通过其他方式实现,如left outer join),
因为它很难在mapreduce job实现这样的条件.

inner join

-- 内连接,显示两表匹配上的结果.
-- inner join 可以简写为 join
select * from test_a a inner join test_b b on a.id=b.id;

left join

在这里插入图片描述

-- 左外连接,左表数据全显示,右表数据匹配上的显示,未匹配上的显示NULL.
--left join是left outer join的简写
select a.*,b.* from test_a a left join test_b b on a.id=b.id;

right join

在这里插入图片描述

-- 右外连接,右表数据全显示,左表数据匹配上的显示,未匹配上的显示NULL.  
--right join是right outer join的简写
select a.*,b.* from test_a a right join test_b b on a.id=b.id;

full join

在这里插入图片描述

全外连接,相当于left join union right join,包括两个表的join结果(左边有,右边NULL union 右边有,左边NULL)  
-- full join是full outer join的简写
select a.*,b.* from test_a a full outer join test_b b on a.id=b.id;

join的应用

求id相同的所有用户

-- 求出三表中id相同的数据
select a.*,b.name,c.name 
from test_a a 
inner join 
test_b b on a.id=b.id 
inner join 
test_c c on b.id=c.id;

计算新增用户

--思路:
--1.使用右连接列出右表的所有数据; 
--2.通过左表的aid is null筛选除左表也就是以前不存在的数据; 
--3.通过count(1)计算出右表有而左表没有的数据总和(即新增用户数).select count(1) from
(select aid from user_install_status where dt='20141117' group by aid) a
right join
(select aid from user_install_status where dt='20141228' group by aid) b
on b.aid=a.aid where a.aid is null;

笛卡尔积

--笛卡尔积的SQL,是需要避免的查询操作.
select * from test_a inner join test_b;

自连接

-- 顾名思义,就是一张表自己连接自己;
--假设有表ods_self,只有一个字段a【string类型】,数据如下:
2
3
4
--需求:将ods_self表中a字段的值小于等于当前行的值拼接起来,最终得到的结果展示如下:
a b 
3 23 
2 2 
4 234
--解题思路:由于给定的条件就只有ods_self这一张表,所以要想得到结果中一张表有两个字段的效果,就需要ods_self表进行自连接
--第一步:自连接(也可以说是笛卡尔积,cross join 或者 join 不带 on 条件),并且对自连接之后的结果过滤(获取小于等于当前a值的数据)
create table dwd_self as 
select 
m.a as a,
n.a as b
from 
ods_self m
cross join 
ods_self n
where m.a>=n.a;
--第二步:将数据拼接成想要的结果
select
a, 
concat_ws('、',collect_list(b)) as nb
from dwd_self
group by a; 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/697748.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 力扣题目:买卖股票的最佳时机 IV

❤️❤️❤️ 欢迎来到我的博客。希望您能在这里找到既有价值又有趣的内容,和我一起探索、学习和成长。欢迎评论区畅所欲言、享受知识的乐趣! 推荐:数据分析螺丝钉的首页 格物致知 终身学习 期待您的关注 导航: LeetCode解锁100…

针对关键 PuTTY 私钥恢复漏洞的 PoC 发布

安全研究人员针对广泛使用的 PuTTY SSH 和 Telnet 客户端中的一个关键漏洞发布了概念验证 (PoC) 漏洞利用。 该漏洞CVE-2024-31497允许攻击者恢复 PuTTY 版本 0.68 至 0.80 中使用 NIST P-521 椭圆曲线生成的私钥。 该漏洞源于 PuTTY在使用 P-521 曲线时偏向生成ECDSA随机数。…

ATA-308C功率放大器的基本原理和性能参数是什么

功率放大器是一种用于放大电信号功率的电子器件。它将输入的小信号电压或电流经过放大后,输出一个较大的电信号功率,以驱动负载或其他设备。功率放大器在各个领域中都有广泛应用,例如音频放大器、无线通信系统、工业控制等。 功率放大器的基本…

Elasticsearch解决字段膨胀问题

文章目录 背景Flattened类型的产生Flattened类型的定义基于Flattened类型插入数据更新Flattened字段并添加数据Flattened类型检索 Flattened类型的不足 背景 Elasticsearch映射如果不进行特殊设置,则默认为dynamic:true。dynamic:true实际上支持不加约束地动态添加…

PCIE协议-2-事务层规范-Completion Rules

2.2.9 完成规则 所有Read、Non-Posted Write和AtomicOp请求都需要完成(Completion)。完成包含一个完成头标,对于某些类型的完成,完成头标之后会跟随一定数量的DWs数据。完成头标的每个字段的规则在以下各节中定义。 完成通过ID路…

打破边界:Facebook的社交实验与未来愿景

数字化时代,社交媒体已经成为人们日常生活的重要组成部分,而Facebook作为其中的佼佼者,一直在积极探索社交领域的新可能性。本文将探讨Facebook在社交实验和未来愿景方面的努力,以及其如何打破传统边界,开拓社交的新领…

UniGen:用于生成自动驾驶场景的初始智体状态和轨迹的统一建模

24年5月谷歌WayMo论文“UniGen: Unified Modeling of Initial Agent States and Trajectories for Generating Autonomous Driving Scenarios”。 本文介绍 UniGen,一种生成交通场景的新方法,用于通过仿真评估和改进自动驾驶软件。 其方法在一个统一的模…

【卫星影像三维重建-全流程代码实现】点云Mesh重构

点云—>Mesh模型 1.介绍1.1 背景1.2 效果示意 2 算法实现2.1 依赖库2.2 实验数据2.3 代码实现2.4 实验效果 3.总结 1.介绍 1.1 背景 (1)本文主要内容是将三维点云(离散的三维点)进行表面重建生成Mesh网格,之前有篇…

css中用于设置光标颜色的属性

caret-color 是一个 CSS 属性,它用于定义输入光标(caret)的颜色。这里的“插入光标”(insertion caret)指的是在网页的可编辑器区域内,用来指示用户的输入具体会插入到哪里的那个一闪一闪的形似竖杠 | 的东…

用Arm CCA解锁数据的力量

安全之安全(security)博客目录导读 目录 CCA将如何改变Arm架构呢? 在实践中部署CCA 释放数据和人工智能的全部力量和潜力 早期计算中最大的挑战之一是管理计算资源,以最大化计算效率同时提供给不同程序或用户分配资源的分离。这导致了我们今天大多数使用的时间…

QLExpress入门及实战总结

文章目录 1.背景2.简介3.QLExpress实战3.1 基础例子3.2 低代码实战3.2.1 需求描述3.2.1 使用规则引擎3.3.2 运行结果 参考文档 1.背景 最近研究低代码实现后端业务逻辑相关功能,使用LiteFlow作为流程编排后端service服务, 但是LiteFlow官方未提供图形界面编排流程。…

python获取网页表格数据

需求 需要网页中的基因(Gene Symbol),一共371个。 使用pandas读取网页表格 read_html 返回的是列表(a list of DataFrame) import pandas as pd import bioquest as bq url "http://exocarta.org/browse_resul…