自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(123)
  • 资源 (4)
  • 收藏
  • 关注

原创 hive动态分区导致xceivercount超限,hdfs无法创建新连接

使用动态分区虽然非常方便,但会带来很多小文件,像上面这个sql,动态分区是365天,reduce是1000个,如果计算比较复杂,就会同时创建365*1000个文件。有人会觉得我可以增大xceivercount的数目,来避免这个问题,但是这个首先要重启datanode,另外,这个方案始终还是会导致大量的连接数存在,对整个集群不是很友好,还是尽量减少小文件的生成为最佳。hdfs无法创建新的文件,xceivercount超过最大设置,平时每个datanode只有100个左右的连接,突然达到8000以上。

2024-07-16 10:13:23 368

原创 ldap服务器搭建

1、linux 环境参考:通过运行 lsb_release -aLSB Version: :core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noarchDistributor ID: RedHatEnterpriseServer

2017-12-14 17:04:25 816

转载 kylin与superset集成实现数据可视化

Apache kylin是一个开源分布式引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据。而superset是airbnb开源的一款数据可视化工具。kylin在超大数据规模下仍然可以提供秒级甚至毫秒级sql响应的OLAP多维分析查询服务。而且对服务器内存的要求也不像spark sql那么高,经过多方面的优化,数据膨胀率甚至可以控制在100%以内。它利用

2017-10-26 17:27:21 2751

转载 redis漏洞

听到朋友说接到阿里云的报障,提示黑客把他的服务器当肉鸡了,当时有点怕怕,继而官方的网络带宽也爆了进而系统处于瘫痪,当时我需要帮他处理这个问题1 在没有查到杀手之前我是先把带宽&端口用iptables 做了限制这样能保证我能远程操作服务器才能查找原因  2 在各种netstat –ntlp  的查看下没有任何异常 在top 下查到了有异常进程还有些异常的这里就截图

2017-07-31 16:25:56 1304

原创 编译安装Ambari2.5.0

1.需要安装的工具1.1     安装JDK  推荐1.81.2     安装Apache Maven 3.3.9设置环境变量# vi /etc/profileexport MAVEN_HOME="/opt/maven"export path=$path: $MAVEN_HOME/bin1.3     安装rpmbuild1)检测rpm-

2017-05-23 18:25:58 2969 2

原创 pentaho7.0将数据库移植成mysql

Pentaho 内置数据是 hsql. 数据库。那我们如何换掉移植成 mysql ?思想:移植的条件:1. 首先要有一个 mysql 数据。2. 将 pentaho 的启动配置连接到 mysql 上。我现在做一个将 pentaho7.0 数据库移植的例子。1.       首先在 pentaho-server/data/mysql5 文件夹下将里面

2017-05-12 16:09:39 1529

原创 Hive ROW_NUMBER,RANK(),DENSE_RANK()

准备数据浙江,杭州,300浙江,宁波,150浙江,温州,200浙江,嘉兴,100江苏,南京,270江苏,苏州,299江苏,某市,200江苏,某某市,100 创建表CREATE table pcp(province string,city string,people int)ROW FORMAT

2017-05-04 10:59:37 332

转载 基于 Kylin 的推荐系统效果评价系统

OLAP(联机分析处理)是数据仓库的主要应用之一,通过设计维度、度量,我们可以构建星型模型或雪花模型,生成数据多维立方体Cube,基于Cube可以做钻取、切片、旋转等多维分析操作。早在十年前,SQL Server、Oracle 等数据库软件就有OLAP产品,为用户提供关系数据库、多维数据集、可视化报表的整套商业智能方案。 (本科毕业设计就是做OLAP分析,对相关理论和实践有兴趣的可以参阅我的论文,

2017-05-03 15:36:48 2034

转载 使用JDBC向MySQL数据库批次插入10W条数据测试效率

使用JDBC连接MySQL数据库进行数据插入的时候,特别是大批量数据连续插入(100000),如何提高效率呢?在JDBC编程接口中Statement 有两个方法特别值得注意:通过使用addBatch()和executeBatch()这一对方法可以实现批量处理数据。不过值得注意的是,首先需要在数据库链接中设置手动提交,connection.setAutoCommit(false),然后在

2017-03-15 20:06:41 1132

原创 Spark on YARN配置日志Web UI

Spark部署在YARN之后,从Standalone模式下的Spark Web UI直接无法看到执行过的application日志,不利于性能分析。得益于实验室师弟的帮忙,本文记录如何配置history UI。修改spark-defaults.confspark.eventLog.enabled=truespark.eventLog.compress=truespark.e

2017-02-27 17:42:26 5432

原创 redhat下pyspider安装

1、软件环境python 2.7.1pip已安装linux redhat 6.5企业版2、安装依赖yum install libxml2  libxml2-dev libxslt-devel 3、下载pyspider源码https://github.com/binux/pyspider/tags解压用python setup.py install 安装即可

2016-12-28 11:26:37 611

原创 hive中join操作

笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。本文简单介绍一下两种join的原理和机制。如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join.整个过程包含Map、Shuffle、Reduce阶

2016-12-22 17:51:12 552

转载 MapReduce:详解Shuffle过程

Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里

2016-12-22 17:10:02 323

原创 其他技术人员播客地址整理

1、乐视祝海林,主要是spark,kafkahttp://www.jianshu.com/users/59d5607f1400/latest_articles

2016-12-14 09:41:45 599

原创 hadoop2.7.1下httpfs命令整理

支持httfs前提,增加配置 hadoop.proxyuser.yarn.hosts * hadoop.proxyuser.yarn.groups * 修改httpfs-env.sh 主要修改日志路径# export HTTPFS_LOG=${HTTPFS_HOME}/logs expo

2016-12-13 18:36:26 1438

原创 django 环境搭建

一、版本选择1、python版本  2.7.32、django 1.6.53、linux 版本   Description:    Red Hat Enterprise Linux Server release 6.5 (Santiago)   5.x版本安装mysql-python 失败,应该需要升级gcc解决原因:python 在linxu的默认版本是2.6.6,但python

2016-12-02 10:24:23 414

原创 Cloudera Manager 5和CDH5离线安装

一、相关软件准备及规划1、相关软件及下载地址:Cloudera Manager:http://archive-primary.cloudera.com/cm5/cm/5/CDH安装包地址:http://archive.cloudera.com/cdh5/parcels/latest/JAVA官方下载(需登陆):http://www.oracle.com/techne

2016-11-23 18:25:21 2299

原创 tez0.8在hadoop2.7.1上的应用

一、配置1、tez的编译在我的另外一篇文章中,在这里不再叙述2、将生成的war包拷贝到hadoop的/apps/tez目录,这个目录自己定义3、在hadoop的conf目录新建一个tez-site.xml 配置文件,内容如下: tez.lib.uris ${fs.defaultFS}/apps/tez/tez-0.8.4.tar.gz

2016-11-14 17:41:08 1339

原创 flume1.7.0 常用配置

一、source 为spooling dira1.sources = r1a1.channels = c1a1.sinks = k1a1.sources.r1.type = spooldira1.sources.r1.spoolDir = /opt/nginx/testa1.sources.r1.channels = c1a1.sources.r1.fileSuffix

2016-10-27 16:15:38 1492 1

原创 hue编译

执行:make desktop 期间如果报错则需要安装:/opt/hue-3.6.0-cdh5.1.0/Makefile.vars:42: *** "Error: must have python development packages for 2.6 or 2.7. Could not find Python.h. Please install python2.6-devel

2016-10-21 09:43:10 2863

转载 Linux按照CPU、内存、磁盘IO、网络性能监测

系统优化是一项复杂、繁琐、长期的工作,优化前需要监测、采集、测试、评估,优化后也需要测试、采集、评估、监测,而且是一个长期和持续的过程,不 是说现在优化了,测试了,以后就可以一劳永逸了,也不是说书本上的优化就适合眼下正在运行的系统,不同的系统、不同的硬件、不同的应用优化的重点也不同、 优化的方法也不同、优化的参数也不同。性能监测是系统优化过程中重要的一环,如果没有监测、不清楚性能瓶颈在哪里,怎么优

2016-08-16 17:52:37 602

转载 kafka深度解析

Kafka深度解析,众人推荐,精彩好文!时间 2015-01-26 15:06:04  数盟原文  http://dataunion.org/?p=9307主题 Apache Kafka作者: Jason Guo背景介绍Kafka简介Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下:以时间复杂度为O(1)的

2016-07-19 15:22:29 1534

转载 kafka技术内幕

第二章 生产者概述消息系统通常都会由生产者,消费者,Broker三大部分组成,生产者会将消息写入到Broker,消费者会从Broker中读取出消息,不同的MQ实现的Broker实现会有所不同,不过Broker的本质都是要负责将消息落地到服务端的存储系统中。不管是生产者还是消费者对于Broker而言都是客户端,只不过一个是生产消息一个是消费消息。图2-1中生产者和消费者都是通过客户端

2016-07-18 17:42:34 3806

转载 Java并发编程:深入剖析ThreadLocal

Java并发编程:深入剖析ThreadLocal  想必很多朋友对ThreadLocal并不陌生,今天我们就来一起探讨下ThreadLocal的使用方法和实现原理。首先,本文先谈一下对ThreadLocal的理解,然后根据ThreadLocal类的源码分析了其实现原理和使用需要注意的地方,最后给出了两个应用场景。  以下是本文目录大纲:  一.对ThreadLocal的理解

2016-07-04 18:14:41 404

转载 JVM性能调优监控工具jps、jstack、jmap、jhat、jstat使用详解

查阅 http://blog.csdn.net/wisgood/article/details/25343845

2016-07-04 17:44:40 2287

转载 java io

初学Java,一直搞不懂java里面的io关系,在网上找了很多大多都是给个结构图草草描述也看的不是很懂。而且没有结合到java7 的最新技术,所以自己来整理一下,有错的话请指正,也希望大家提出宝贵意见。首先看个图:(如果你也是初学者,我相信你看了真个人都不好了,想想java设计者真是煞费苦心啊!) 这是java io 比较基本的一些处理流,除此之外我们还会提到一些比

2016-07-01 11:14:27 329

转载 十个海量数据处理方法大总结

一、Bloom filter适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集基本原理及要点:对于原理来说很简单,位数组+k个独立hash函数。将 hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明存在,很明显这个过程并不保证查找的结果是100%正确的。同时也不 支持删除一个已经插入的关键字,因为该关键字对应的位会牵动到其他的关键字。所以一个简

2016-06-29 16:12:04 1368

原创 nginx按小时切割日志

有的日志比较大,一天的日志就有200g一台机器,如果按天切割日志,文件太大了,需要按小时切割日志。下面讲述一个按小时切割日志的方法,通过apache的cronolog来完成日志的切割。1、首先安装日志切割   yum install httpd2、配置nginx的日志落地文件名,比如/opt/log/accesslog。3、再启动nginx之前,先用mkfifo

2016-06-06 17:25:52 3573

原创 普通用户crontab不执行原因

今天我发现我写的cron竟然没执行,然后在cron log里发现下面的信息CRON (xxx): failed to open PAM security session,cannot set security context出现类似现象一般原因有二1、xxx的用户信息在shadow里不存在2、xxx需要改密码了,可以看/var/log/secure文

2016-02-18 10:18:07 8454

转载 hadoop常见错误整理

版本信息: hadoop 2.3.0 hive 0.11.01. Application Master 无法访问点击application mater 链接,出现 http 500 错误,java.lang.Connect.exception: 问题是由于设定web ui时,50030 端口对应的ip地址为0.0.0.0,导致application master 链接无法定位。解决办法

2015-11-27 13:45:05 1917

转载 hadoop streaming 版本兼容问题

转载一篇同事的文章:使用hadoop streaming的脚本,在从hadoop 1.0迁移到2.7.1时遇到问题:使用1.0时,map的outputkey是Text正确,迁移到2.7.1时报错,修改为LongWritable正常。为保证代码统一,在1.0上map的outputkey也使用LongWritable,报错,要求修改为Text,修改后正常。解决办法,

2015-11-17 10:23:31 960

转载 配置Snappy压缩

1. 功能说明使用snappy压缩来提升mapreduce和hbase的性能。其实就是用CPU换IO吞吐量和磁盘空间。配置并使用snappy有如下几点要求:首先需要hadoop集群的native库已经收到编译好,并且添加了对snappy的支持。编译hadoop源码之前安装了snappy并且编译时指定-Drequire.snappy参数。(我使用的版本是hadoop-2.5.

2015-10-14 18:00:33 2318

原创 2.0拷贝1.0集群数据

hadoop distcp -Ddfs.checksum.type=CRC32 -Dmapred.speculative.execution=false -overwrite hftp://namenode:50070/user/log/20151009/2015100913/ /user/log/20151009/2015100913/注意:2.0集群中一定要配置1.0所有datan

2015-10-09 15:56:33 417

原创 使用mutt及msmtp来发送邮件

默认的linux系统都是安装了mutt和sendmail的,但有的公司为了安全,默认的不用配置就发送邮件做了安全验证。以下是mutt结合msmtp来发送邮件的做法,并做到安全认证1、安装msmtpyum install msmtp 或者自己编译下载安装2、配置msmtp在要发送的账号下/home/user目录新增一文件.msmtprc  并使改文件权限为600内容如

2015-10-08 11:51:35 555

转载 Hadoop YARN如何调度内存和CPU

Hadoop YARN同时支持内存和CPU两种资源的调度(默认只支持内存,如果想进一步调度CPU,需要自己进行一些配置),本文将介绍YARN是如何对这些资源进行调度和隔离的。在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManager中的调度器负责资源的分配,而NodeManager则负责资源的供给和隔离。Resource

2015-09-16 11:48:42 954

原创 Keepalived 安装与配置

keepalived是由C语言编写的路由软件,是lvs的扩展项目,主要用作RealServer的健康状态检查以及LoadBalance主机和BackUP主机之间failover的实现。1、获取安装软件下载地址: http://www.keepalived.org/download.html2、安装前提确保ipvs已经被安装

2015-08-06 17:38:43 809

原创 redis3.0.3集群安装详细步骤

Redis集群部署文档(redhat5系统)(要让集群正常工作至少需要3个主节点,在这里我们要创建6个redis节点,其中三个为主节点,三个为从节点,对应的redis节点的ip和端口对应关系如下)127.0.0.1:7000127.0.0.1:7001127.0.0.1:7002127.0.0.1:7003127.0.0.1:7004127.0.

2015-07-31 18:32:17 1174

原创 svn命令整理

###1 svn help ——查看svn所有命令帮助文档,如svn help ###2 svn help 特定命令名 —— 查看指定命令的使用文档,如   svn help add  # 查看add命令的使用文档###3 常用命令​  ##1 svn list —— 查看svn服务器上文件列表,类似与Linux执行 ls -l 命令,例如  svn

2015-07-29 10:09:35 520

原创 让mahout0.7在hadoop2.0环境下运行

由于官方打的jar包是用1.0环境下的,所以要想在2.0下运行,必须重新打包,重新打包前修改几个pom文件就可以,现已经测试通过:1、根pom文件修改如下:2.5.0 org.apache.hadoop hadoop-core ${hadoop.version} net.

2015-07-27 15:47:01 565

转载 apache kafka中server.properties配置文件参数说明

每个kafka broker中配置文件server.properties默认必须配置的属性如下:broker.id=0 num.network.threads=2 num.io.threads=8 socket.send.buffer.bytes=1048576 socket.receive.buffer.bytes=1048576 socket.request.max.b

2015-07-24 15:06:35 741

File-Tail-Scribe

scrbie收集日志文件的工具模块。解压安装

2011-12-14

DBI-1.615.tar.gz

perl dbi模块,解决连接数据库的问题。

2011-12-14

DBD-mysql-4.018.tar.gz

perl语言中mysql模块的支持

2011-12-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除