- 博客(4)
- 资源 (5)
- 收藏
- 关注
原创 Hadoop高可用(HA)方案总结
一 、Hadoop1.0时期的NameNode及Secondary NameNode 在早期的hadoop时代,hdfs集群存在严重的单点问题,即集群只有一个NameNode节点,尽管有SecondaryNameNode,CheckPointNode,BackupNode这些机制来对单点的问题做一定的防反,但单点问题是依然存在的。在主NameNode挂掉之后,集群的管理不能自动的切换到另外一个N...
2020-04-24 10:11:36 977
原创 hive自定义函数开发与部署
在利用Hive或者Spark-sql进行数据分析任务时,经常会遇到一些Mysql等传统数据库中有的函数而hive中没有,或者需要自己定义一些复杂的字符串处理、复杂计算计算逻辑的时候,找不到可以用的Hive函数时。尽管可以编写一些map-reduce等程序来向集群提交任务,但毕竟不如操作SQL来爽快。为此,hive和Spark-sql都提供了一些接口类,我们基本这些接口类可以定义自己的Hive函数,...
2020-04-20 15:38:37 762
原创 用户标签Http接口性能调优
项目背景: 用户画像库有10+亿级别用户的用户画像数据,存储库为Hbase rowkey设计为用户ID的Hash值并经过域分区设计 使得记录基本能分布在各个region上,满足前端根据用户ID查询用户画像数据的需求、同时避免Hbase 在读写时出现热点region。 问题: 前端APP的访问需求是并发500、峰值TPS达到30000TPS、响应时间50ms内。这对一个普通的应用而言并不难,在数据...
2020-04-03 11:23:16 373
原创 hbase写ES丢数据参数调优总结
通过ES对百亿级hbase数据构建索引,在读取Hbase至写入hbase过程中,发现有写入缓慢及数据丢失的现象,经过本人排查、调优后的一些经验总结如下,方便遇到相关问题的同学参考: hbase写ES丢数据总结 1、ES连接池打满 新的ES写入线程获取连接时会失败,旧的连接在提交Bulk时可能出错 DO: 1、增加重试及休眠时间随重试次数延长 2、减少并发打开ES连接的线程...
2020-04-03 11:15:43 916
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人