HBase详解(1)

HBase

简介

概述

  1. HBase是Yahoo!公司开发的后来贡献给了Apache的一套开源的、分布式的、可扩展的、基于Hadoop的非关系型数据库(Non-Relational Database),因此HBase并不支持SQL(几乎所有的非关系型数据库都不支持SQL),而是提供了一套单独的命令和API操作

  2. 关系型数据库和非关系型数据库针对的数据是不同的

    1. 关系型数据库存储的数据都是结构化数据,即同一个表中所有的数据的结构都是完全相同的,所以此时可以采用SQL(Structed Query Language,结构化查询语言)来进行查询

    2. 非关系型数据库不只是可以存储结构化数据,还可以存储半结构化数据(数据本身可以拆分成基本组成单位,但是拆分完成之后,每条数据的结构不一定相同)甚至可以存储非结构化数据(数据本身没有结构)

  3. HBase本身是仿照了Google的<The Big Table>来实现的,因此HBase和Big Table的原理几乎一致,只是Big Table使用的是C语言实现的,HBase使用的是Java

  4. HBase支持对大量的数据进行随机且实时的读写,就意味着支持对数据进行修改

  5. HBase基于集群的硬件可以管理非常大的表:billions of rows X millions of columns

  6. 到目前为止,HBase一共提供了4个版本:HBase0.X~HBase3.X

    1. 其中HBase0.X和HBase1.X已经停止更新,所以市面上也几乎不再使用

    2. HBase2.x版本目前一直处在更新维护状态,所以市面上使用的比较多

    3. HBase3.x还处在测试状态,不推荐于生产环境使用

  7. HBase是使用Java语言实现的,还基于HDFS来完成数据的存储,所以在选择HBase的时候,必须考虑和JDK以及Hadoop版本的兼容性!

    1. HBase和JDK版本的兼容性

    2. HBase和Hadoop版本的兼容性

安装

  1. 环境:JDK8,Hadoop3.2.3+,Zookeeper

  2. 进入预安装目录

    cd /opt/presoftware/
    # 上传或者下载HBase的安装包
  3. 解压

    tar -xvf hbase-2.5.5-bin.tar.gz -C /opt/software/
  4. 进入HBase的配置目录

    cd /opt/software/hbase-2.5.5/conf/
  5. 编辑文件

    vim hbase-env.sh
    # 在文件中添加
    export JAVA_HOME=/opt/software/jdk1.8
    export HBASE_MANAGES_ZK=false
    # 保存退出,生效
    source hbase-env.sh
  6. 编辑文件

    vim hbase-site.xml

    在文件中添加

     <!-- 开启HBase的分布式 --><property><name>hbase.cluster.distributed</name><value>true</value></property><property><name>hbase.unsafe.stream.capability.enforce</name><value>false</value></property><!-- 指定HBase在HDFS上的存储位置 --><property><name>hbase.rootdir</name><value>hdfs://hadoop01:9000/hbase</value></property><!-- 指定Zookeeper的连接地址 --><property><name>hbase.zookeeper.quorum</name><value>hadoop01,hadoop02,hadoop03</value></property><!-- 指定WAL存放方式 --><property><name>hbase.wal.provider</name><value>filesystem</value></property>
  7. 指定子节点

    vim regionservers

    在文件中添加三台主机的主机名

    # 删除掉原来的localhost,添加自己的主机名
    hadoop01
    hadoop02
    hadoop03
  8. 将Hadoop的核心配置文件拷贝到HBase的配置目录下

    cp $HADOOP_HOME/etc/hadoop/core-site.xml ./
  9. 远程分发

    cd /opt/software/
    scp -r hbase-2.5.5/ root@hadoop02:$PWD
    scp -r hbase-2.5.5/ root@hadoop03:$PWD
  10. 配置环境变量

    # 编辑文件
    vim /etc/profile.d/hbasehome.sh
    # 在文件中添加
    export HBASE_HOME=/opt/software/hbase-2.5.5
    export PATH=$PATH:$HBASE_HOME/bin
    # 保存退出,生效
    source /etc/profile.d/hbasehome.sh
  11. 远程分发环境变量

    scp /etc/profile.d/hbasehome.sh root@hadoop02:/etc/profile.d/
    scp /etc/profile.d/hbasehome.sh root@hadoop03:/etc/profile.d/
  12. 分发完成之后,另外两个节点进行source

    [root@hadoop02 ~]# source /etc/profile.d/hbasehome.sh
    [root@hadoop03 ~]# source /etc/profile.d/hbasehome.sh
  13. 测试

    hbase version
  14. 三个节点上启动zookeeper

    # 启动zookeeper
    zkServer.sh start
    # 查看zookeeper状态
    zkServer.sh status
  15. 启动HDFS

    start-dfs.sh
  16. 启动HBase

    start-hbase.sh
  17. 通过jps命令查看,在第一个节点上应该出现HMaster,三个节点上都应该出现HRegioServer

  18. HBase同样提供了对外访问的端口:http://主机名或者IP:16010

基本操作

基本概念

  1. RowKey:行键

    1. 在HBase中,没有主键的概念,取而代之的是Rowkey

    2. 不同于关系型数据库,在HBase中,建表的时候不需要指定行键,而是在添加数据的时候手动指定行键

    3. 行键是表示数据是同一行的唯一标记

  2. Column Family:列族/列簇

    1. 在HBase中,没有表关联的概念,取而代之的是列族

    2. 一个表中可以包含1到多个列族,每一个列族中可以包含0到多个列

    3. 在HBase中,建表的时候,需要指定列族,且列族指定之后不可变,但是不关心列,列是可以动态增删的

  3. VERSION:版本

    1. 时间戳被称之为数据的版本

    2. 在HBase中,如果不指定,默认会存储数据的一个版本,也只会给用户返回一个版本

    3. 如果需要获取多个版本的数据,那么在建表的时候需要指定这个表中每一个列族能够存储数据的版本数,以及获取数据的时候需要指定获取版本的数量

  4. Cell:单元(格)。在HBase中,如果需要锁定唯一的一条数据,需要通过行键+列族名+列名+版本号/时间戳来锁定,这个结构称之为Cell

  5. namespace:名称空间

    1. 在HBase中,没有database的说法,取而代之的是namespace

    2. Hase启动的时候,自带了两个名称空间:hbasedefaulthbase空间下放的是HBase的元数据信息,所以hbase不要动!在建表的时候,如果不指定,表是放在default空间下

  6. DML和DDL

    1. DDL(Data Defined Language):数据定义语言,用于定义数据的结构的,例如createdrop

    2. DML(Data Manipulation Language):数据操纵语言,用于操作表中的数据的,例如putget

注意问题

  1. 在HBase中,所有的数据默认要么是数字,要么是字符串,如果是字符串,必须使用单引号引起来

  2. HBase适合于存储结构化和半结构化数据,或者也支持非结构化数据 - HBase中的数据的结构是稀疏

  3. HBase中的表需要先禁用才能被删除

  4. HBase本身作为数据库,提供了完整的增删改查的功能。HBase是将数据存储到HDFS上,但是HDFS的特点之一是简化的一致性模型(允许一次写入多次读取不允许修改,但是允许追加写入)。那么HBase是如何实现数据的"修改"的?HBase的修改功能,并没有违反HDFS的特点,而是在文件尾部追加写入,并且HBase默认会给每一条数据添加一个时间戳。当用户试图获取数据的时候,此时HBase默认会返回时间戳最大的一条数据给用户,那么从用户角度而言,就感觉数据被修改了

基本命令

  1. 进入HBase的命令行

    hbase shell
  2. 建表。建立person表,表中包含了3个列族:basic,info,extend

    create 'person', {NAME => 'basic'}, {NAME => 'info'}, {NAME => 'extend'}
    # 如果建表的时候不需要修改其他属性,那么可以简化
    create 'person', 'basic', 'info', 'extend'
  3. 在添加数据的时候,指定这个数据对应的行键和列。put命令既可以添加数据也可以修改数据

    put 'person', 'p1', 'basic:name', 'Bob'
    put 'person', 'p1', 'basic:age', 18
    put 'person', 'p1', 'info:height', 179.9
    put 'person', 'p2', 'basic:name', 'Amy'
    put 'person', 'p2', 'basic:gender', 'female'
    put 'person', 'p2', 'info:weight', 59.8
  4. 扫描整表

    scan 'person'
  5. 禁用表

    disable 'person'
  6. 删除表

    drop 'person'
  7. 添加数据

    append 'person', 'p1', 'basic:name', 'tom'
  8. 查询数据

    # get命令不能直接对整表进行查询,在使用的时候,必须指定表名和行键
    # 获取person表中p1行键对应的数据
    get 'person', 'p1'
    # 获取person表中p1行键对应的basic列族的数据
    get 'person', 'p1', {COLUMNS => 'basic'}
    get 'person', 'p1', 'basic'
    # 获取指定行键指定列的数据
    get 'person', 'p1', {COLUMNS => 'basic:name'}
    get 'person', 'p1', 'basic:name'
    get 'person', 'p1', {COLUMNS => ['basic:name', 'info:height']}
    get 'person', 'p1', 'basic:name', 'info:heignt'
  9. 获取指定列族的数据

    scan 'person', {COLUMNS => 'basic'}
  10. 获取指定列的数据

    scan 'person', {COLUMNS => 'basic:name'}
    scan 'person', {COLUMNS => ['basic:name', 'info:height']}
  11. 删除数据

    # 删除指定行键指定列的数据 - 不能删除一个列族的数据,也不能删除一行数据
    delete 'person', 'p2', 'basic:name'
    deleteall 'person', 'p2', 'basic:name'
    # 删除一行数据
    deleteall 'person', 'p1'
  12. 建表,指定版本数量

    # basic列族中的数据保留三个版本,info列族中的数据保留四个版本,extend列族中的数据保留1个版本
    create 'person', {NAME => 'basic', VERSIONS => 3}, {NAME => 'info', VERSIONS => 4}, {NAME => 'extend'}
  13. 获取数据

    get 'person', 'ab', {COLUMN => 'basic:age', VERSIONS => 3}
    # 获取指定时间范围内的数据
    get 'person', 'ab', {COLUMN => 'basic:age', TIMERANGE=>[0, 10000000000000]}
    get 'person', 'ab', {COLUMN => 'basic:age', TIMESTAMP => 100000000}
  14. 查看所有的表

    list
  15. 描述表

    desc 'person'
    # 或者
    describe 'person'
  16. 查看所有的名称空间

    list_namespace
  17. 创建名称空间

    create_namespace 'demo'
  18. 在demo空间下新建users表

    create 'demo:users', 'basic'
    # 添加数据
    put 'demo:users', 'u1', 'basic:name', 'hack'
  19. 查看demo空间下的表

    list_namespace_tables 'demo'
  20. 删除空间

    # 要求空间为空(不包含任何表)
    drop_namespace 'demo'
  21. 查看在运行的任务列表

    processlist
  22. 查看HBase集群的状态

    status
  23. 查看HBase的版本

    version
  24. 查看当前用户

    whoami
  25. 描述名称空间

    describe_namespace 'demo'
  26. 修改名称空间的信息

    # METHOD属性表示要执行set还是unset操作
    alter_namespace 'demo', {METHOD => 'set', 'create_date' => '2024-04-02' }
  27. 统计表中的行键个数

    count 'person'
  28. 获取表的HRegion的个数

    get_splits 'person'
  29. 摧毁重建表

    truncate 'person'
  30. 修改表中列族的属性

    alter 'person', { NAME => 'basic', VERSIONS => 5 }
  31. 启用表

    enable 'person'
  32. 判断表是否存在

    exists 'orders'
  33. 判断表是启用还是禁用

    # 判断表是否禁用
    is_disabled 'person'
    # 判断表是否启用
    is_enabled 'person'
  34. 定义行键所在的HRegion的位置

    locate_region 'person', 'p1'
  35. 查看所有的过滤器

    show_filters

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/587042.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【蓝桥杯第十四届省赛B】(部分详解)

【01串的熵】 https://www.lanqiao.cn/problems/3498/learning/?subject_code1&group_code4&match_num14&match_flow1&origincup #include <iostream> #include<cmath> using namespace std; int main() {double n23333333;double sum0;for(int…

C语言之通讯录

c语言中的小小白-CSDN博客c语言中的小小白关注算法,c,c语言,贪心算法,链表,mysql,动态规划,后端,线性回归,数据结构,排序算法领域.https://blog.csdn.net/bhbcdxb123?spm1001.2014.3001.5343 给大家分享一句我很喜欢我话&#xff1a; 知不足而奋进&#xff0c;望远山而前行&am…

群晖NAS使用Docker部署大语言模型Llama 2结合内网穿透实现公网访问本地GPT聊天服务

文章目录 1. 拉取相关的Docker镜像2. 运行Ollama 镜像3. 运行Chatbot Ollama镜像4. 本地访问5. 群晖安装Cpolar6. 配置公网地址7. 公网访问8. 固定公网地址 随着ChatGPT 和open Sora 的热度剧增,大语言模型时代,开启了AI新篇章,大语言模型的应用非常广泛&#xff0c;包括聊天机…

FME学习之旅---day19

我们付出一些成本&#xff0c;时间的或者其他&#xff0c;最终总能收获一些什么。 如何使用 Esri 模板地理数据库 在学习之初&#xff0c;首先了解什么是Esri模板、如何使用Esri模板以及如何创建Esri模板 有两种类型的 Esri 模板&#xff1a;文件地理数据库 &#xff08;.gd…

nginx代理解决跨域问题

文章目录 一、什么是跨域、跨域问题产生的原因二、注意事项三、nginx代理解决总结 一、什么是跨域、跨域问题产生的原因 跨域&#xff08;Cross-Origin&#xff09;是指在 Web 开发中&#xff0c;一个网页的运行脚本试图访问另一个网页的资源时&#xff0c;这两个网页的域名、…

Java进阶-反射的详解与应用

本文深入探讨了Java反射机制的核心概念、应用实例及其在现代Java开发中的重要性。文章首先介绍了反射的基本原理和能力&#xff0c;包括在运行时动态获取类信息、操作对象字段和方法的能力。随后&#xff0c;通过具体代码示例&#xff0c;展示了如何利用反射进行字段访问、方法…

idea 报错 Could not list the contents of folder “ftps

idea 报错 Could not list the contents of folder "ftps 解决方案 这里看到了网上的解决方案&#xff0c;顺便再记录一下。打开 【高级】菜单 - 取消勾选 被动模式。然后点击测试连接&#xff0c;显示连接成功&#xff01; ftp中的主动模式和被动模式 主动模式&…

D-迷恋网游(遇到过的题,做个笔记)

我的代码&#xff1a; #include <iostream> using namespace std; int main() {int a, b, c; //a表示内向&#xff0c;b表示外向&#xff0c;c表示无所谓cin >> a >> b >> c; //读入数 if (b % 3 0 || 3-b % 3 < c) //如果外向的人能够3人组成…

【饿了么笔试题汇总】-2024-04-02-饿了么春招笔试题-三语言题解(CPP/Python/Java)

&#x1f36d; 大家好这里是KK爱Coding &#xff0c;一枚热爱算法的程序员 ✨ 本系列打算持续跟新饿了么近期的春秋招笔试题汇总&#xff5e; &#x1f4bb; ACM银牌&#x1f948;| 多次AK大厂笔试 &#xff5c; 编程一对一辅导 &#x1f44f; 感谢大家的订阅➕ 和 喜欢&#x…

MATLAB简介、下载及安装

1、MATLAB简介 MATLAB&#xff08;Matrix Laboratory&#xff09;是由MathWorks公司开发的一款强大的商业数学软件环境&#xff0c;主要用于数值计算、算法开发、数据可视化、数据分析和基于模型的设计等多种用途。MATLAB被广泛应用在学术研究、工程计算、经济建模、控制系统设…

Tuxera NTFS for Mac2023绿色免费版 免费的ntfs for mac 免费读写硬盘U盘工具

Tuxera NTFS 2023 Mac免费版是款适合Mac用户使用的磁盘读写工具。Tuxera NTFS 2023 Mac可以很好的帮助用户在Mac上打开、编辑、复制、移动或删除存储在Windows NTFS格式的USB驱动器上的文件。并且Tuxera NTFS 2023 Mac还可以无阻碍地使用各种文件系统磁盘&#xff0c;还能解决磁…

WebKit揭秘:从内部结构到应用程序开发

文章目录 WebKit结构简介核心模块其他组件多进程架构&#xff08;WebKit2&#xff09; Wekbit做了什么&#xff1f;应用程序如何利用 Webkit WebKit结构简介 WebKit是一个开源的浏览器引擎&#xff0c;它由多个模块组成&#xff0c;这些模块协同工作以提供Web内容的渲染和交互…