HBase学习笔记(3)—— HBase整合Phoenix

目录

Phoenix Shell 操作

Phoenix JDBC 操作

Phoenix 二级索引

HBase整合Phoenix

Phoenix 简介

Phoenix 是 HBase 的开源 SQL 皮肤。可以使用标准 JDBC API 代替 HBase 客户端 API来创建表,插入数据和查询 HBase 数据

使用Phoenix的优点

  1. 在 Client 和 HBase 之间放一个 Phoenix 中间层不会减慢速度
  2. Phoenix 对于用户输入的 SQL 有大量的优化手段

Phoenix 安装部署

1.下载并解压

官网地址:Overview | Apache Phoenix

下载地址:Phoenix Downloads | Apache Phoenix

下载好tar包之后上传到服务器上,使用 tar -zxvf进行解压即可

2.server包配置

进入安装phoenix的路径下:cd /opt/module/phoenix

找到server包:

将其复制到hbase安装路径下的lib文件夹中,并同步到其余所有节点上;

3.配置环境变量

vim /etc/profile.d/my_env.sh(自定义的环境变量文件)

添加以下内容:

#phoenix
export PHOENIX_HOME=/opt/module/phoenix
export PHOENIX_CLASSPATH=$PHOENIX_HOME
export PATH=$PATH:$PHOENIX_HOME/bin

4.启动phoenix

首先需要重启hbase;

然后启动phoenix:

/opt/module/phoenix/bin/sqlline.py hadoop102,hadoop103,hadoop104:2181

出现以下界面说明启动成功:

如果出现以下错误:

警告: Failed to load history
java.lang.IllegalArgumentException: Bad history file syntax! 

说明之前之前使用过phoenix,存在历史记录,删除/home/用户名路径下的.sqlline文件夹即可;

我的路径就是:/home/why/.sqlline

Phoenix Shell 操作

使用语法可以查看官网:Grammar | Apache Phoenix

1.table

显示所有表

!table!tables

创建表

指定单个列作为RowKey:

CREATE TABLE IF NOT EXISTS student( id VARCHAR primary key, name VARCHAR, age BIGINT, addr VARCHAR);

在 phoenix 中,表名等会自动转换为大写,若要小写,使用双引号,如"us_population"。

指定多个列的联合作为 RowKey:

CREATE TABLE IF NOT EXISTS student1 (
id VARCHAR NOT NULL,
name VARCHAR NOT NULL,
age BIGINT,
addr VARCHAR
CONSTRAINT my_pk PRIMARY KEY (id, name));

注:Phoenix 中建表,会在 HBase 中创建一张对应的表。为了减少数据对磁盘空间的占用,Phoenix 默认会对 HBase 中的列名做编码处理。具体规则可参考官网链接:

Storage Formats | Apache Phoenix

若不想对列名编码,可在建表语句末尾加上 COLUMN_ENCODED_BYTES = 0;

插入数据
upsert into student values('1001','zhangsan', 10, 'beijing');
查询数据
select * from student;
select * from student where id='1001';
删除数据
delete from student where id='1001';
删除表
drop table student;
退出命令行

!quit

2.表的映射

默认情况下, HBase 中已存在的表,通过 Phoenix 是不可见的。如果要在 Phoenix 中操作 HBase 中已存在的表,可以在 Phoenix 中进行表的映射。映射方式有两种:视图映射和表映射

创建hbase表

在hbase shell中创建表test:create 'test','info1','info2'

视图映射

在phoenix中创建test的视图映射:

create view "test"(id varchar primary key,"info1"."name" varchar, "info2"."address" varchar);

注意:Phoenix 创建的视图是只读的,所以只能用来做查询,无法通过视图对数据进行修改等操作

在表中插入两条数据:

put 'test','10001','info1:name','why'
put 'test','10001','info2:address','10086'

在phoenix中查询:

select * from "test"

注意:这里的test一定要加双引号,否则会将其识别为表而不是视图;

查询结果如下:


如何删除视图:

drop view "test";

视图的删除不会对hbase中的表造成任何影响,在删除视图后依旧能在hbase中查询到表中的数据:

表映射
create table"test"(id varchar primary key,"info1"."name" varchar, "info2"."address" varchar) column_encoded_bytes=0;

进行表映射时,不能使用列名编码,需将 column_encoded_bytes 设为 0

在 Pheonix 创建表去映射 HBase 中已经存在的表,是可以修改删除 HBase 中已经存在的数据的。而且,删除 Phoenix 中的表,那么 HBase 中被映射的表也会被删除

首先查询表中的数据:

然后删除表映射:

drop table "test";

再去hbase中查询就会发现原表也被删除了:

3.数字类型说明

HBase 中的数字,底层存储为补码,而 Phoenix 中的数字,底层存储为在补码的基础上,将符号位反转。故当在 Phoenix 中建表去映射 HBase 中已存在的表,当 HBase 中有数字类型的字段时,会出现解析错误的现象

测试

在hbase中创建表,插入数据并扫描:

create 'test_number','info'
put 'test_number','1001','info:number',Bytes.toBytes(1000)
scan 'test_number',{COLUMNS => 'info:number:toLong'}

结果如下:

toLong的作用是将bytes转化为long类型的数据

否则扫描出来的数据格式就是这样的:

在phoenix中创建表映射:

create view "test_number"(id varchar primary key,"info"."number" bigint);

查询后发现结果有问题:

解决方法

1.使用无符号类型:

Phoenix 种提供了 unsigned_int,unsigned_long 等无符号类型,其对数字的编码解码方式和 HBase 是相同的,如果无需考虑负数,那在 Phoenix 中建表时采用无符号类型是最合适的选择

重新创建视图映射并查询:

create view "test_number"(id varchar primary key,"info"."number" unsigned_long);
select * from "test_number";

结果如下:

2.自定义函数:
如需考虑负数的情况,则可通过 Phoenix 自定义函数,将数字类型的最高位,即符号位反转即可

Phoenix JDBC 操作

添加依赖:

<dependency><groupId>org.apache.phoenix</groupId><artifactId>phoenix-client-hbase-2.4</artifactId><version>5.1.2</version>
</dependency>

编写标准的jdbc代码:

public static void main(String[] args) throws SQLException {//创建连接String url = "jdbc:phoenix:hadoop102,hadoop103,hadoop104:2181";//创建配置Properties properties = new Properties();//获取连接Connection connection = DriverManager.getConnection(url, properties);//编译sql语句PreparedStatement preparedStatement = connection.prepareStatement("select * from student");//执行语句ResultSet resultSet = preparedStatement.executeQuery();//输出结果while (resultSet.next()){System.out.println(resultSet.getString(1) + ":" + resultSet.getString(2) + ":" + resultSet.getString(3));}connection.close();//由于 Phoenix 框架内部需要获取一个 HBase 连接,所以会延迟关闭System.out.println("hello");
}

Phoenix 二级索引

添加如下配置到 HBase 的 HRegionserver 节点的 hbase-site.xml:

<!-- phoenix regionserver 配置参数-->
<property><name>hbase.regionserver.wal.codec</name><value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec</value>
</property>

全局索引(global index)

Global Index 是默认的索引格式,创建全局索引时,会在 HBase 中建立一张新表。也就是说索引数据和数据表是存放在不同的表中的,因此全局索引适用于多读少写的业务场景

写数据的时候会消耗大量开销,因为索引表也要更新,而索引表是分布在不同的数据节点上的,跨节点的数据传输带来了较大的性能消耗;在读数据的时候 Phoenix 会选择索引表来降低查询消耗的时间

语法:

  • 创建索引:CREATE INDEX my_index ON my_table (my_col);
  • 删除索引:DROP INDEX my_index ON my_table

示例:给age列添加索引

create index my_index on student(age); 
查看二级索引是否有效

通过explain语法进行查看:

explain select age from student where age = 10;

添加二级索引之后会变成范围扫描;

但如果查询的字段不是索引字段,将会变成全局扫描:

explain select id,name,addr from student where age = 10;

包含索引(covered index)

创建携带其他字段的全局索引(本质还是全局索引

语法:CREATE INDEX my_index ON my_table (v1) INCLUDE (v2);

示例:给age列添加索引,并包含addr列

create index my_index on student(age) include (addr);

查看执行计划:

本地索引(local index)

Local Index 适用于写操作频繁的场景。

索引数据和数据表的数据是存放在同一张表中(且是同一个 Region),避免了在写操作的时候往不同服务器的索引表中写索引带来的额外开销

语法:CREATE LOCAL INDEX my_index ON my_table(my_column);

创建本地索引:

CREATE LOCAL INDEX my_index ON student(age,addr);

查看执行计划:

explain select id,name,addr from student where age = 10;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/175926.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring 6 资源Resources 相关操作

Java全能学习面试指南&#xff1a;https://javaxiaobear.cn 1、Spring Resources概述 Java的标准java.net.URL类和各种URL前缀的标准处理程序无法满足所有对low-level资源的访问&#xff0c;比如&#xff1a;没有标准化的 URL 实现可用于访问需要从类路径或相对于 ServletCont…

ubuntu20安装opencv4和opencv_contrib 多版本共存

openCV 卸载 openCV 安装后的源码尽可能保留&#xff0c;因为可以直接从build文件夹下卸载已经安装的openCV. 参考链接&#xff1a;视觉学习笔记10——opencv的卸载、安装与多版本管理 如果已经安装完openCV,后续想重新装&#xff0c;需要先卸载掉安装的openCV. 在ubuntu终端…

量化交易:使用 python 进行股票交易回测

执行环境: Google Colab 1. 下载数据 import yfinance as yfticker ZM df yf.download(ticker) df2. 数据预处理 df df.loc[2020-01-01:].copy()使用了 .loc 方法来选择索引为 ‘2020-01-01’ 以后的所有行数据。通过 .copy() 方法创建了一个这些数据的副本&#xff0c;确…

Nginx 版本信息泄露解决方案

Nginx 【CVE-2021-23017;CVE-2022-41742】 【影响】 攻击者可能使用泄露的版本信息来确定该版本服务器有哪些安全漏洞&#xff0c;据此展开进一步的攻击。以下是百度的请求示例&#xff0c;也是有版本泄露&#xff1a; 【解决方案】 在Server节点增加以下配置&#xff1a; #…

SDL2 播放视频文件(MP4)

1.简介 这里引入FFmpeg库&#xff0c;获取视频流数据&#xff0c;然后通过FFmpeg将视频流解码成YUV原始数据&#xff0c;再将YUV数据送入到SDL库中实现视频播放。 2.FFmpeg的操作流程 注册API&#xff1a;av_register_all()构建输入AVFormatContext上下文&#xff1a;avform…

【原创课设】java+swing+mysql选课管理系统设计与实现

摘要&#xff1a; 随着学校规模的扩大和课程设置的多样化&#xff0c;传统的手工选课管理方式已经无法满足现代教育的需求。因此&#xff0c;开发一款高效、便捷的选课管理系统变得尤为重要。该系统可以提高选课工作的效率&#xff0c;减少人为错误&#xff0c;同时也能为学生…

verdi merge fsdb出现信号冲突的解决办法

前段时间介绍了verdi用 Edit Virtual File的方式把几个fsdb文件merge起来的方法 由于当时实验的时候只用了两个小的fsdb文件&#xff0c;每个fsdb文件中包含的信号量也比较少&#xff0c;所以并没有发现问题 我是用 Edit Virtual FIle把dump不同hier的fsdb文件merge到一起&am…

【Linux】:静动态库

静动态库 一.静态库1.设计静态库2.生成静态库3.发布静态库4.使用静态库 二.动态库1.设计动态库2.生成和发布动态库3.使用 三.进程地址空间1.程序在加载前的地址2.程序在加载后的地址3.动态库的地址 一.静态库 程序在编译链接的时候把库的代码链接到可执行文件中。程序运行的时候…

【算法练习Day48】回文子串最长回文子序列

​&#x1f4dd;个人主页&#xff1a;Sherry的成长之路 &#x1f3e0;学习社区&#xff1a;Sherry的成长之路&#xff08;个人社区&#xff09; &#x1f4d6;专栏链接&#xff1a;练题 &#x1f3af;长路漫漫浩浩&#xff0c;万事皆有期待 文章目录 回文子串最长回文子序列总结…

【文章学习系列之模型】DAGMM

本章内容 文章概况模型结构损失函数实验结果实验分析总结 文章概况 《Deep Autoencoding Gaussian Mixture Model for Unsupervised Anomaly Detection》是2018年发表于ICLR的一篇论文&#xff0c;该论文提出一种端到端的无监督异常检测方法DAGMM&#xff0c;取得了不错的效果…

数据结构-散列表

列表&#xff08;Hash Table&#xff09;&#xff0c;又称哈希表&#xff0c;是一种数据结构&#xff0c;特点是&#xff1a;数据元素的关键字与其存储地址直接相关 例&#xff1a;有一堆数据元素&#xff0c;关键字分别为&#xff5b;19&#xff0c;14&#xff0c;23&#xff…

Ansys Lumerical | 用于增强现实系统的表面浮雕光栅

在本示例中&#xff0c;我们使用 RCWA 求解器设计了一个斜面浮雕光栅 (SRG)&#xff0c;它将用于将光线耦合到单色增强现实 (AR) 系统的波导中。光栅的几何形状经过优化&#xff0c;可将正常入射光导入-1 光栅阶次。 然后我们将光栅特性导出为 Lumerical Sub-Wavelength Model …