记录Hbase get查询的一些坑

最新推荐文章于 2022-10-30 12:49:28 发布

QSyiren

最新推荐文章于 2022-10-30 12:49:28 发布

阅读量1.7k

点赞数

文章标签： Hbase学习

本文链接：https://blog.csdn.net/zp17764507932/article/details/103324206

版权

本次的业务是基于短信发送之前，去做黑名单的校验和发送内容的检测，因此，在进行下一步业务之前，我需要等待黑名单的查询结果，由于线上环境的Hbase出故障，导致整个业务堵塞，因此，想到了对hbase异常做上容错机制，因此，有了以下的内容

try {
    counts = hbaseService.get("cmcc_sms_blacklist",serviceId,"counts","count");
} catch (Exception e) {
    logger.error("hbaseservice error",e);
    return true;
}

但是在实际运行中，

我发现会堵在这个查询语句这里，不会进入异常，因此，我的异常只是个摆设而已，那我便猜想，是由于这个get查询，是组赛式查询，如何才能让它跳出来

翻阅一些文献，才知道，这个查询也是涉及到了hbase的重试

具体有以下几个参数：

hbase.client.operation.timeout: 2000
hbase.rpc.timeout: 2000
hbase.client.retries.number: 3

hbase.client.pause

默认的HBase客户端的参数配置是没有做过优化的，所以对于低延时响应的HBase集群，需要对客户端的参数进行优化。

1. hbase.rpc.timeout

以毫秒计算的所有HBase RPC超时，默认为60s。

该参数表示一次RPC请求的超时时间。如果某次RPC时间超过该值，客户端就会主动关闭socket。

如果经常出现java.io.IOException: Connection reset by peer异常问题，估计HBase集群出现了大量高并发读写业务或者服务器端发生了比较严重的Full GC等问题，导致某些请求无法得到及时处理，超过了设置的时间间隔。

根据实际情况，可以修改为5000，即5s。

2. hbase.client.retries.number

客户端重试最大次数。所有操作所使用的最大次数，例如，从根 RegionServer 获取根区域、获取单元格的值和启动行更新。

默认为35，可以设置为3。

3. hbase.client.pause

通用客户端暂停时间值(重试的休眠时间)。重试get失败或区域查找等操作前，经常使用的等待时间段。

HBase1.1版本开始此值默认为100ms，比较合理，如果你的版本不是，建议修改此值为100ms。

4. zookeeper.recovery.retry

zookeeper的重试次数，可调整为3次，zookeeper不轻易挂，且如果HBase集群出问题了，每次重试均会对zookeeper进行重试操作。

zookeeper的重试总次数是：

hbase.client.retries.number * zookeeper.recovery.retry。

并且每次重试的休眠时间均会呈2的指数级增长，每次访问HBase均会重试，在一次HBase操作中如果涉及多次zookeeper访问，则如果zookeeper不可用，则会出现很多次的zookeeper重试，非常浪费时间。

5. zookeeper.recovery.retry.intervalmill

zookeeper重试的休眠时间，默认为1s，可以减少，比如：200ms。

6. hbase.client.operation.timeout

该参数表示HBase客户端发起一次数据操作直至得到响应之间总的超时时间，数据操作类型包括get、append、increment、delete、put等。很显然，hbase.rpc.timeout表示一次RPC的超时时间，而hbase.client.operation.timeout则表示一次操作的超时时间，有可能包含多个RPC请求。

举个例子说明，比如一次Put请求，客户端首先会将请求封装为一个caller对象，该对象发送RPC请求到服务器，假如此时因为服务器端正好发生了严重的Full GC，导致这次RPC时间超时引起SocketTimeoutException，对应的就是hbase.rpc.timeout。那假如caller对象发送RPC请求之后刚好发生网络抖动，进而抛出网络异常，HBase客户端就会进行重试，重试多次之后如果总操作时间超时引起SocketTimeoutException，对应的就是hbase.client.operation.timeout。

默认为1200000，可以设置为30000，即30s。

7. hbase.regionserver.lease.period

hbase.client.operation.timeout参数规定的超时基本涉及到了HBase所有的数据操作，唯独没有scan操作。然而scan操作却是最有可能发生超时的，也是用户最为关心的。HBase特别考虑到了这点，并提供了一个单独的超时参数进行设置：hbase.client.scanner.timeout.period。

此参数指scan查询时每次与RegionServer交互的超时时间。

默认为60s，可不调整。

了解到这些后，想到我的dubbo服务端，超时时间是3秒，那么我就需要选择合适的参数进行调参，我主要设置了以下几个参数：

然后，进入Hbase服务器，停止hbase服务

看过我之前博客的小伙伴，就能见到这个熟悉的异常了，好，hbase已经停掉了，然后可以开始我们的试验了

发送短信，看到会延迟一会，然后正常返回，再去看看我们的日志部分

熟悉的error，已经进入我们的异常了，还能看到我们设置生效的一些参数

最后，我们还要验证，hbase启动之后，能否恢复异常

好，我们启动hbase，然后发业务，看日志

熟悉的 tohbase 日志

至此，填坑结束。。。。。。。

QSyiren

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
记录Hbase get查询的一些坑

本次的业务是基于短信发送之前，去做黑名单的校验和发送内容的检测，因此，在进行下一步业务之前，我需要等待黑名单的查询结果，由于线上环境的Hbase出故障，导致整个业务堵塞，因此，想到了对hbase异常做上容错机制，因此，有了以下的内容try { counts = hbaseService.get("cmcc_sms_blacklist",serviceId,"counts","coun...
复制链接

扫一扫