HBase的预分区

Adeline ·

更新时间:2024-11-10

· 944 次阅读

HBase默认建表时有一个region，这个region的rowkey是没有边界的，即没有start key和end key，在数据写入时，所有数据都会写入这个默认的region，随着数据量的不断增加，region的size越来越大时，大到一定的阀值，hbase认为再往这个region里塞数据已经不合适了，就会找到一个midKey将region一分为二，成为2个region,这个过程称为分裂(region-split).而midKey则为这二个region的临界，左为N无下界，右为M无上界。 midKey则会被塞到M区。
在此过程中，会产生两个问题：【1】热点写，总是会往最大的start-key所在的region写东西，因为rowkey总是会比之前的大，并且HBase的是按升序方式排序的。所以写操作总是被定位到无上界的那个region中。之前分裂出来的region不会再被写数据，会处于半满状态，这样的分布是不利的。【2】region split会消耗宝贵的集群I/O资源。
基于此可以控制在建表的时候，创建多个空region，并确定每个region的起始和终止rowky，这样只要rowkey设计能均匀的命中各个region，就不会存在写热点问题，split的几率也会大大降低。当然随着数据量的不断增长，该split的还是要进行split。像这样预先创建hbase表分区的方式，称之为 预分区。
要进行预分区，首先要明确rowkey的取值范围或构成逻辑，以rowkey组成为例：两位随机数+时间戳+客户号，两位随机数的范围从00-99，于是划分了10个region来存储数据，每个region对应的rowkey范围如下：
-10,10-20,20-30,30-40,40-50,50-60,60-70,70-80,80-90,90-
在使用HBase API建表的时候，需要产生splitkeys二维数组,这个数组存储的rowkey的边界值。代码实现：

private byte[][] getSplitKeys() {
		String[] keys = new String[] { "10|", "20|", "30|", "40|", "50|",
				"60|", "70|", "80|", "90|" };
		byte[][] splitKeys = new byte[keys.length][];
		TreeSet rows = new TreeSet(Bytes.BYTES_COMPARATOR);//升序排序
		for (int i = 0; i < keys.length; i++) {
			rows.add(Bytes.toBytes(keys[i]));
		}
		Iterator rowKeyIter = rows.iterator();
		int i=0;
		while (rowKeyIter.hasNext()) {
			byte[] tempRow = rowKeyIter.next();
			rowKeyIter.remove();
			splitKeys[i] = tempRow;
			i++;
		}
		return splitKeys;
}

这里treeset对rowkey进行排序，必须要对rowkey排序，否则在调用admin.createTable(tableDescriptor,splitKeys)的时候会出错。创建表的代码如下:

/**
	 * 创建预分区hbase表
	 * @param tableName 表名
	 * @param columnFamily 列簇
	 * @return
	 */
	@SuppressWarnings("resource")
	public boolean createTableBySplitKeys(String tableName, List columnFamily) {
		try {
			if (StringUtils.isBlank(tableName) || columnFamily == null
					|| columnFamily.size() < 0) {
				log.error("===Parameters tableName|columnFamily should not be null,Please check!===");
			}
			HBaseAdmin admin = new HBaseAdmin(conf);
			if (admin.tableExists(tableName)) {
				return true;
			} else {
				HTableDescriptor tableDescriptor = new HTableDescriptor(
						TableName.valueOf(tableName));
				for (String cf : columnFamily) {
					tableDescriptor.addFamily(new HColumnDescriptor(cf));
				}
				byte[][] splitKeys = getSplitKeys();
				admin.createTable(tableDescriptor,splitKeys);//指定splitkeys
				log.info("===Create Table " + tableName
						+ " Success!columnFamily:" + columnFamily.toString()
						+ "===");
			}
		} catch (MasterNotRunningException e) {
			// TODO Auto-generated catch block
			log.error(e);
			return false;
		} catch (ZooKeeperConnectionException e) {
			// TODO Auto-generated catch block
			log.error(e);
			return false;
		} catch (IOException e) {
			// TODO Auto-generated catch block
			log.error(e);
			return false;
		}
		return true;
	}

在hbase shell中输入命令san 'hbase:meta’查看建表结果，可看出10个region均匀的分布在了3台regionserver上(集群就3台机器regionserver)，达到预期效果。
再看看写数据是否均匀的命中各个region，是否能够做到对写请求的负载均衡：

public class TestHBasePartition {
public static void main(String[] args) throws Exception{
   HBaseAdmin admin = new HBaseAdmin(conf);
   HTable table = new HTable(conf, "testhbase");
   table.put(batchPut());
}
private static String getRandomNumber(){
		String ranStr = Math.random()+"";
		int pointIndex = ranStr.indexOf(".");
		return ranStr.substring(pointIndex+1, pointIndex+3);
	}
	private static List batchPut(){
		List list = new ArrayList();
		for(int i=1;i<=10000;i++){
			byte[] rowkey = Bytes.toBytes(getRandomNumber()+"-"+System.currentTimeMillis()+"-"+i);
			Put put = new Put(rowkey);
			put.add(Bytes.toBytes("info"), Bytes.toBytes("name"), Bytes.toBytes("zs"+i));
			list.add(put);
		}
		return list;
	}

除了上面的方法还可以通过HBase Shell（通过读取split文件）进行预分区操作。split文件内容如下：
在这里插入图片描述在HBase Shell中：执行如下命令，创建表user2，添加额外参数SPLITS_FILE =>并指定split文件绝对路径

create ‘user2’,{NAME => ‘info’ },{NAME => ‘desc’},SPLITS_FILE => ‘/data/hbaseSplits.txt’

作者：K. Bob

hbase

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

linux yum 命令

Catherine 2020-04-15

865

HBase + Kerberos 配置示例（1）

Camille 2021-01-21

524

HBase Bug知多少

Kenisha 2020-03-14

669

HBase 数据库检索性能优化策略

Halona 2020-01-19

912

HBase性能优化案例分析

Nissa 2020-04-02

950

C#通过thrift连接hbase操作步骤

Vicky 2020-07-10

764

HBase性能调优方法

Iria 2020-02-15

890

【Hue警告】必须在 HBase 服务中配置 Thrift Server 角色以使用 Hue HBase Browser 应用程序。

Bella 2020-02-26

851

在php的yii2框架中整合hbase库的方法

Jade 2020-03-26

982

基于HBase Thrift接口的一些使用问题及相关注意事项的详解

Linda 2020-09-02

632

10大HBase常见运维工具整理小结

Caltha 2020-07-23

920

使用docker部署hbase的方法

Irma 2021-12-16

1270

Vmware + Ubuntu18.04 安装 Hbase 2.3.5的详细教程

Stella 2021-12-16

1526

Linux下Hbase安装配置教程

Gail 2022-01-14

955

java连接HBase,连接不上报错cannotresolve问题及解决

Cytheria 2022-06-15

1682

解决JavaAPI不能远程访问HBase的问题

Thalia 2022-06-15

Prometheus监控实战篇Nginx、Hbase操作详解

Irma 2022-10-26

1827

shell脚本实现Hbase服务的监控报警和自动拉起问题

Tanisha 2022-11-10

1370

大数据开发phoenix连接hbase流程详解

Serafina 2022-11-20

744

Redis+Hbase+RocketMQ实际使用问题案例讲解

Malina 2023-01-26

939

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座