自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Forever-守望

大数据、数据挖掘、算法

  • 博客(4)
  • 资源 (5)
  • 收藏
  • 关注

原创 Hadoop高可用(HA)方案总结

一 、Hadoop1.0时期的NameNode及Secondary NameNode 在早期的hadoop时代,hdfs集群存在严重的单点问题,即集群只有一个NameNode节点,尽管有SecondaryNameNode,CheckPointNode,BackupNode这些机制来对单点的问题做一定的防反,但单点问题是依然存在的。在主NameNode挂掉之后,集群的管理不能自动的切换到另外一个N...

2020-04-24 10:11:36 977

原创 hive自定义函数开发与部署

在利用Hive或者Spark-sql进行数据分析任务时,经常会遇到一些Mysql等传统数据库中有的函数而hive中没有,或者需要自己定义一些复杂的字符串处理、复杂计算计算逻辑的时候,找不到可以用的Hive函数时。尽管可以编写一些map-reduce等程序来向集群提交任务,但毕竟不如操作SQL来爽快。为此,hive和Spark-sql都提供了一些接口类,我们基本这些接口类可以定义自己的Hive函数,...

2020-04-20 15:38:37 762

原创 用户标签Http接口性能调优

项目背景: 用户画像库有10+亿级别用户的用户画像数据,存储库为Hbase rowkey设计为用户ID的Hash值并经过域分区设计 使得记录基本能分布在各个region上,满足前端根据用户ID查询用户画像数据的需求、同时避免Hbase 在读写时出现热点region。 问题: 前端APP的访问需求是并发500、峰值TPS达到30000TPS、响应时间50ms内。这对一个普通的应用而言并不难,在数据...

2020-04-03 11:23:16 373

原创 hbase写ES丢数据参数调优总结

通过ES对百亿级hbase数据构建索引,在读取Hbase至写入hbase过程中,发现有写入缓慢及数据丢失的现象,经过本人排查、调优后的一些经验总结如下,方便遇到相关问题的同学参考: hbase写ES丢数据总结 1、ES连接池打满 新的ES写入线程获取连接时会失败,旧的连接在提交Bulk时可能出错 DO: 1、增加重试及休眠时间随重试次数延长 2、减少并发打开ES连接的线程...

2020-04-03 11:15:43 916

朴素贝叶斯分类法

使用朴素贝叶斯方法实现的中文文本分类算法

2015-01-10

R软件语言入门教程

关于R语言比较基础全面的教程,R的语法、数据结构、常用函数都有介绍

2014-07-23

大数加法程序

大数加法程序 大数加法程序 大数加法程序 C,C++

2012-07-01

c++桌面时钟程序

利用c++和windows api开发了一个小型的桌面时钟重新换,欢迎下载

2012-06-26

定时关机程序

dev c++可以编译运行,代码优化的还不是很好哈

2012-05-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除