Hadoop学习四:hadoop分布式环境搭建 Hadoop学习四:hadoop分布式环境搭建标签(空格分隔): hadoopHadoop学习四hadoop分布式环境搭建一环境准备二分布式环境搭建针对克隆三角色分配四安装配置一,环境准备1,删除/opt/app/hadoop-2.5.0/share/doc目录(该目录很占空间)rm -rf doc/2,关闭虚拟机[root@hadoop001 hadoop-2.5.0]# halt3,克
Hadoop学习九:hdfs源代码调试 Hadoop学习九:hdfs源代码调试标签(空格分隔): hadoopHadoop学习九hdfs源代码调试一利用log4j调试一,利用log4j调试1,在eclipse工程里面创建source folder 2,拷贝log4j.properties文件[hadoop002@hadoop002 hadoop]$ cp log4j.properties /home/hadoop002/worksp
oozie修改为GMT时间 1,修改oozie-site.xml:<property> <name>oozie.processing.timezone</name> <value>GMT+0800</value> </property>2,修改/opt/setup/oozie-4.0.0-cdh5.3.6/oozie-ser...
Solr2---域的类型和分类以及中文分词 一,域的类型和分类 C:\solrhome\collection2\conf\schema.xml二,配置中文分词 1,拷贝IKAnalyzer2012FF_u1.jar到apache-tomcat-7.0.81\webapps\solr\WEB-INF\lib目录下面2,拷贝配置文件ext.dic,IKAnalyzer.cfg.xml,stopword.dic到apache-tomcat-7.
Solr1---什么是Solr以及安装配置 Solr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对索引、搜索性能进行了优化。Solr可以独立运行,运行在Jetty、Tomcat等这些Servlet容器中,Solr 索引的实现方法很简单,用 POST 方法向 Solr 服务器发送一个描述 Field 及其内容的
lucene三---中文分词器 1.1. 中文分析器1.1.1. Lucene自带中文分词器l StandardAnalyzer:单字分词:就是按照中文一个字一个字地进行分词。如:“我爱中国”,效果:“我”、“爱”、“中”、“国”。l CJKAnalyzer二分法分词:按两个字进行切分。如:“我是中国人”,效果:“我是”、“是中”、“中国”“国人”。 上边两个分词器无法满足需求。l S
lucene一---基本原理和结构 1 什么是全文检索1.1 结构化数据和非结构化数据我们生活中的数据总体分为两种:结构化数据和非结构化数据。 · 结构化数据:指具有固定格式或有限长度的数据,如数据库中的数据,元数据等。· 非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等。1.2 对结构化数据的搜索对数据库的搜索,用SQL语句。再如对元数据的搜索,如
分布式模式之Broker模式 问题来源: 创建一个游戏系统,其将运行在互联网的环境中。客户端通过WWW服务或特定的客户端软件连接到游戏服务器,随着流量的增加,系统不断的膨胀,最终后台数据、业务逻辑被分布式的部署。然而相比中心化的系统,复杂度被无可避免的增大了,该如何降低各个组件之间的耦合度。挑战: 需要保证可伸缩性、可维护性、可更新性,需要将服务划分为各个相对独立的组件,组件被分布式的部署,它们之间通过进程间通信方
hive数据压缩技术001 一、 压缩方案比较关于Hadoop HDFS文件的压缩格式选择, 我们通过多个真实的Track数据做测试,得出结论如下:1. 系统的默认压缩编码方式 DefaultCodec 无论在压缩性能上还是压缩比上,都优于GZIP 压缩编码。这一点与网上的一些观点不大一致,网上不少人认为GZIP的压缩比要高一些,估计和Cloudera的封装及我们Track的数据类型有关。2. Hive文
Hive作业优化 1、Join原则将条目少的表/子查询放在 Join的左边。 原因是在 Join 操作的 Reduce 阶段,位于 Join左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出的几率。当一个小表关联一个超大表时,容易发生数据倾斜,可以用MapJoin把小表全部加载到内存在map端进行join,避免reducer处理。如:SELECT /*+ MAPJOIN(use
jdbc通过hive server2访问hive 1,pom配置: org.apache.hadoop hadoop-client 2.6.0-cdh5.8.3 org.apache.hadoop hadoop-common 2.6.0-cdh5.8.3 org.apache.hive hive-jd
hive-udaf开发实例1 1,pom配置: org.apache.hive hive-exec 1.1.0-cdh5.8.3 org.apache.hadoop hadoop-client 2.6.0-cdh5.8.32,java代码:package com.ibeifeng.udaf;import org.apache
hive-udf开发实例1 1,pom配置: org.apache.hive hive-exec 1.1.0-cdh5.8.3 org.apache.hadoop hadoop-client 2.6.0-cdh5.8.32,java代码:package com.ibeifeng.udf;import java.util.r