大数据
文章平均质量分 81
xyhshen
这个作者很懒,什么都没留下…
展开
-
es搜索大量多个索引
最近碰上一个麻烦的问题,要搜索多个索引,查了查资料,下面这些是比较常见的:/index1,index2/_search/*1,*2/_search/index*/_search/all/_search另外还有别名搜索,全部取一个别名但是我这问题有点不同,我要搜索的索引特别多,而且还没有规律可循,既不能用别名,索引太多又不能全堆到url里,毕竟url长度有限这里找到了一个通过multi search方式解决的思路,可以把索引名字放到body里multi search不用_search而是_m原创 2020-07-24 16:35:54 · 4195 阅读 · 1 评论 -
Spark Standalone模式下操作有kerberos保护的Hbase时出现挂死的问题
最近在使用spark读取hbase时,因为hadoop集群配置了kerberos,所以必须通过票据进行访问,但是在实际使用时却出现了挂死问题,任何操作(GET,PUT,SCAN)都会长时间阻塞,最后抛出socket超时异常。经过调试,非spark程序中使用没问题,进而确定了票据和配置方法没有问题,通过深入排查,发现spark-submit进程内也是没有问题的,只有当任务分发出去后,也就是在exec原创 2016-03-16 16:02:27 · 2797 阅读 · 3 评论 -
spark on yarn模式下扫描带有kerberos的hbase
我上一篇写了关于如何在spark中直接访问有kerberos的hbase,现在我们需要对hbase进行全表的分布式扫描,在无kerberos的情况下通过sparkcontext的newApiHadoopRDD就可以达到目的,但有了kerberos的限制,这个方法就不行了,也许有人会想到通过我之前提到的ugi doAs方法解决,但是分布式扫描的情况下如果将newApiHadoopRDD放到doAs中原创 2016-04-01 09:16:19 · 4706 阅读 · 1 评论 -
数据归一化算法
找了很多归一化的方法,但是基本都是[0,1]之间的这里感觉应该不交归一化,应该叫做区间映射x:原始值x':归一化之后的首先: x1=(x - x的最小值)/(x最大值 - x的最小值);x'=x1 * (x'最大值-x'最小值)+x'最小值可能有一定差这是归一化方法,另一个是反归一化法x=(((x`- x'最小值) * (x最大值...原创 2016-05-24 11:16:12 · 2142 阅读 · 1 评论 -
kudu安装测试随笔
最近试了试apache的新项目kudu,因为资料很少所以安装编译出了很多问题,暂时简单记录下。从网上为数不多的可以了解,kudu是既可以类似数据仓库、关系数据库等进行复杂的关系查询,也具有hbase这种分布式数据库高并发的特性的一种数据库(其实就是MPP数据库),作为cloudera开发一个新组件,本身不依赖HADOOP体系(这点挺难得,现在apache下的大数据组件依赖HDFS、zo原创 2016-09-28 15:02:11 · 5547 阅读 · 0 评论 -
整理部分elasticsearch使用中的问题
最好使用2个以上的节点,如果实在没法满足环境要求,记得把副本数改成0客户端有3种,socket版本的,rest client版本的,和high level rest client,其中high leven是对rest client的封装,但是需要注意,5.5以下的版本支持不好,如果需要做低版本兼容的话,最好自己封装rest client。中文分词通用插件是ik_max_word,想支持中文的...原创 2018-11-23 17:25:31 · 105 阅读 · 0 评论 -
最近发现很多人部署大数据集群的不好习惯
喜欢用ip地址,不用hostname,非常不利于维护,有的还喜欢设置一些如localhost的地址,localhost是不能随便使用的,容易造成大量冲突另外,hostname一定要修改成有意义的hostnamectl set-hostname 新hostnamehostname 新名称...原创 2019-04-12 14:42:10 · 189 阅读 · 0 评论