hadoop
文章平均质量分 78
仲景武
一个很普通的草根程序员。。。
展开
-
secondarynamenode 原理
secondarynamenode配置使用总结博客分类: hadoop 一、环境Hadoop 0.20.2、JDK 1.6、Linux操作系统二、背景上周五的时候,由于操作系统的原因,导致JDK出现莫名的段错误。无论是重启机器还是JDK重装都无济于事。更可悲的是,出问题的机器就是Master。当时心里就凉了半截,因为secondaryna转载 2013-06-17 18:24:46 · 680 阅读 · 0 评论 -
elastic search sql 按字段设置分词器
设置分词器:vi elasticsearch.ymlindex: analysis: analyzer: pattern_analyzer: type: custom tokenizer: field_tokenizer tokenizer:原创 2016-12-07 22:33:05 · 2897 阅读 · 1 评论 -
spark
1. 部署 将hive-site.xml 拷贝到 spark conf.2.原创 2016-09-26 14:43:05 · 332 阅读 · 0 评论 -
spark streaming sql demo
class="ch.qos.logback.core.rolling.RollingFileAppender">${trap.loggingRoot}/trap-all.log${trap.loggingRoot}/trap-all.%i.log13class="ch.qos.logback.core.rolling.SizeBasedTri原创 2015-10-14 21:14:41 · 618 阅读 · 0 评论 -
宙斯 安装部署
http://central.maven.org/maven2/com/google/guava/guava/18.0/guava-18.0.jar 版本太老HADOOP_CONF_DIR拷贝 hive-site hdds-site hfs-core hadoop-auth-2.5.2 (1)到 classes http://central.ma原创 2016-09-17 04:26:26 · 855 阅读 · 1 评论 -
Azkaban hadoop 轻量级调度框架
http://yingchao.iteye.com/blog/628097转载 2015-09-23 11:22:41 · 686 阅读 · 0 评论 -
KAFKA 原理以及场景
??epsv4转载 2014-02-27 14:05:09 · 795 阅读 · 0 评论 -
zookeeper原理 使用场景
hive.metastore.localtruejavax.jdo.option.ConnectionURLjdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=truejavax.jdo.option.ConnectionDriverNamecom.mysql.jdbc.Driver转载 2013-06-18 15:20:32 · 1941 阅读 · 0 评论 -
mysql hive sqoop 分区,优化
sqoop 报错 for input string \N 是因为 hive 用\N 存 NULL, 这样就需要 设置input-null-string '\\\\N' input-null-non-string '\\\\N'同网段,asm 导入可以达到 1W条记录每秒,使用sqoop 从hive导入 网上傻帽说ASM 数据大于几百万性能就不行了,麻烦说性能的时候介绍业务场景原创 2013-05-13 19:12:04 · 3495 阅读 · 0 评论 -
sqoop hive mysql oracle 数据导入
hive 表定义:drop table if exists MUSER_BASICINFO_CPA;create table MUSER_BASICINFO_CPA(USERINDEX STRING,USERID STRING,USERIMSI STRING,REGISTERTYPE STRING,PROVINDEX STRING,CITYINDEX STRIN原创 2013-04-28 21:59:04 · 1729 阅读 · 0 评论 -
hadoop
人人网的数据平台分为事前和事后两部分。事前数据分析是在开发阶段就有系统规划的统计点,事后数据分析恰恰相反,一般统计的是现有业务的历史。这两种方法是互补的,事先埋点的粒度更细,实时性更强,事后统计的适用范围更广,调整更灵活。我们的事后数据分析用Hadoop搭建。这个集群从上个月开始遇到一系列性能问题,在逐一解决的过程中,积累了以下的优化经验。1. 网络带宽人人网的Hadoop转载 2013-05-06 23:25:36 · 583 阅读 · 1 评论 -
hive 分区
create table day_table (id int, content string) partitioned by (dt string);动态分区set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict; INS原创 2013-05-05 23:28:27 · 902 阅读 · 0 评论