HBase的预分区

Adeline ·
更新时间:2024-11-10
· 944 次阅读

  HBase默认建表时有一个region,这个region的rowkey是没有边界的,即没有start key和end key,在数据写入时,所有数据都会写入这个默认的region,随着数据量的不断增加,region的size越来越大时,大到一定的阀值,hbase认为再往这个region里塞数据已经不合适了,就会找到一个midKey将region一分为二,成为2个region,这个过程称为分裂(region-split).而midKey则为这二个region的临界,左为N无下界,右为M无上界。 midKey则会被塞到M区。
  在此过程中,会产生两个问题:【1】热点写,总是会往最大的start-key所在的region写东西,因为rowkey总是会比之前的大,并且HBase的是按升序方式排序的。所以写操作总是被定位到无上界的那个region中。之前分裂出来的region不会再被写数据,会处于半满状态,这样的分布是不利的。【2】region split会消耗宝贵的集群I/O资源。
  基于此可以控制在建表的时候,创建多个空region,并确定每个region的起始和终止rowky,这样只要rowkey设计能均匀的命中各个region,就不会存在写热点问题,split的几率也会大大降低。当然随着数据量的不断增长,该split的还是要进行split。像这样预先创建hbase表分区的方式,称之为 预分区
  要进行预分区,首先要明确rowkey的取值范围或构成逻辑,以rowkey组成为例:两位随机数+时间戳+客户号,两位随机数的范围从00-99,于是划分了10个region来存储数据,每个region对应的rowkey范围如下:
-10,10-20,20-30,30-40,40-50,50-60,60-70,70-80,80-90,90-
  在使用HBase API建表的时候,需要产生splitkeys二维数组,这个数组存储的rowkey的边界值。代码实现:

private byte[][] getSplitKeys() { String[] keys = new String[] { "10|", "20|", "30|", "40|", "50|", "60|", "70|", "80|", "90|" }; byte[][] splitKeys = new byte[keys.length][]; TreeSet rows = new TreeSet(Bytes.BYTES_COMPARATOR);//升序排序 for (int i = 0; i < keys.length; i++) { rows.add(Bytes.toBytes(keys[i])); } Iterator rowKeyIter = rows.iterator(); int i=0; while (rowKeyIter.hasNext()) { byte[] tempRow = rowKeyIter.next(); rowKeyIter.remove(); splitKeys[i] = tempRow; i++; } return splitKeys; }

这里treeset对rowkey进行排序,必须要对rowkey排序,否则在调用admin.createTable(tableDescriptor,splitKeys)的时候会出错。创建表的代码如下:

/** * 创建预分区hbase表 * @param tableName 表名 * @param columnFamily 列簇 * @return */ @SuppressWarnings("resource") public boolean createTableBySplitKeys(String tableName, List columnFamily) { try { if (StringUtils.isBlank(tableName) || columnFamily == null || columnFamily.size() < 0) { log.error("===Parameters tableName|columnFamily should not be null,Please check!==="); } HBaseAdmin admin = new HBaseAdmin(conf); if (admin.tableExists(tableName)) { return true; } else { HTableDescriptor tableDescriptor = new HTableDescriptor( TableName.valueOf(tableName)); for (String cf : columnFamily) { tableDescriptor.addFamily(new HColumnDescriptor(cf)); } byte[][] splitKeys = getSplitKeys(); admin.createTable(tableDescriptor,splitKeys);//指定splitkeys log.info("===Create Table " + tableName + " Success!columnFamily:" + columnFamily.toString() + "==="); } } catch (MasterNotRunningException e) { // TODO Auto-generated catch block log.error(e); return false; } catch (ZooKeeperConnectionException e) { // TODO Auto-generated catch block log.error(e); return false; } catch (IOException e) { // TODO Auto-generated catch block log.error(e); return false; } return true; }

在hbase shell中输入命令san 'hbase:meta’查看建表结果,可看出10个region均匀的分布在了3台regionserver上(集群就3台机器regionserver),达到预期效果。
再看看写数据是否均匀的命中各个region,是否能够做到对写请求的负载均衡:

public class TestHBasePartition { public static void main(String[] args) throws Exception{ HBaseAdmin admin = new HBaseAdmin(conf); HTable table = new HTable(conf, "testhbase"); table.put(batchPut()); } private static String getRandomNumber(){ String ranStr = Math.random()+""; int pointIndex = ranStr.indexOf("."); return ranStr.substring(pointIndex+1, pointIndex+3); } private static List batchPut(){ List list = new ArrayList(); for(int i=1;i<=10000;i++){ byte[] rowkey = Bytes.toBytes(getRandomNumber()+"-"+System.currentTimeMillis()+"-"+i); Put put = new Put(rowkey); put.add(Bytes.toBytes("info"), Bytes.toBytes("name"), Bytes.toBytes("zs"+i)); list.add(put); } return list; }

除了上面的方法还可以通过HBase Shell(通过读取split文件)进行预分区操作。split文件内容如下:
在这里插入图片描述在HBase Shell中:执行如下命令,创建表user2,添加额外参数SPLITS_FILE =>并指定split文件绝对路径

create ‘user2’,{NAME => ‘info’ },{NAME => ‘desc’},SPLITS_FILE => ‘/data/hbaseSplits.txt’
作者:K. Bob



hbase

需要 登录 后方可回复, 如果你还没有账号请 注册新账号