2020年04月_大愚若智_

04月

原创 Hadoop高可用(HA)方案总结

一、Hadoop1.0时期的NameNode及Secondary NameNode 在早期的hadoop时代，hdfs集群存在严重的单点问题，即集群只有一个NameNode节点，尽管有SecondaryNameNode，CheckPointNode，BackupNode这些机制来对单点的问题做一定的防反，但单点问题是依然存在的。在主NameNode挂掉之后，集群的管理不能自动的切换到另外一个N...

2020-04-24 10:11:36 977

原创 hive自定义函数开发与部署

在利用Hive或者Spark-sql进行数据分析任务时，经常会遇到一些Mysql等传统数据库中有的函数而hive中没有，或者需要自己定义一些复杂的字符串处理、复杂计算计算逻辑的时候，找不到可以用的Hive函数时。尽管可以编写一些map-reduce等程序来向集群提交任务，但毕竟不如操作SQL来爽快。为此，hive和Spark-sql都提供了一些接口类，我们基本这些接口类可以定义自己的Hive函数，...

2020-04-20 15:38:37 762

原创用户标签Http接口性能调优

项目背景：用户画像库有10+亿级别用户的用户画像数据，存储库为Hbase rowkey设计为用户ID的Hash值并经过域分区设计使得记录基本能分布在各个region上，满足前端根据用户ID查询用户画像数据的需求、同时避免Hbase 在读写时出现热点region。问题：前端APP的访问需求是并发500、峰值TPS达到30000TPS、响应时间50ms内。这对一个普通的应用而言并不难，在数据...

2020-04-03 11:23:16 373

原创 hbase写ES丢数据参数调优总结

通过ES对百亿级hbase数据构建索引，在读取Hbase至写入hbase过程中，发现有写入缓慢及数据丢失的现象，经过本人排查、调优后的一些经验总结如下，方便遇到相关问题的同学参考： hbase写ES丢数据总结 1、ES连接池打满新的ES写入线程获取连接时会失败，旧的连接在提交Bulk时可能出错 DO: 1、增加重试及休眠时间随重试次数延长 2、减少并发打开ES连接的线程...

2020-04-03 11:15:43 916