hadoop
文章平均质量分 69
zhenzhendeblog
这个作者很懒,什么都没留下…
展开
-
Linux搭建Azkaban3.X
Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。由多个组件组成,其中最基础有三部分,分别为db、web-server、exec-server。准备安装JDK将文件拷贝到任意目录,解压;在/usr目录下创建java目录,然后将jdk文件夹移动到java目录tar -zxvf jdk-8u144-linux-x64原创 2020-09-10 17:15:30 · 380 阅读 · 0 评论 -
Flume收集数据直接入Solr
一.背景在CDH平台上,为了实现NRT(near real-time)近实时搜索,flume收集的数据入solr,solr提供对外查询。在flume收集到数据后(例如测试机器名称dn12.hadoop),需要使用Morphline实现数据的ETL,才能转换成solr的数据格式,所以配置分为三步。二.solr配置创建collection或更新solrctl instancedir --generate原创 2017-05-24 09:57:40 · 2358 阅读 · 0 评论 -
hive 的条件判断(if、coalesce、case)
CONDITIONAL FUNCTIONS IN HIVEHive supports three types of conditional functions. These functions are listed below:IF( Test Condition, True Value, False Value )The IF condition evaluates the “Test Condi转载 2016-12-02 10:12:58 · 27642 阅读 · 1 评论 -
linux下搭建SolrCound集群及测试(solr5.5.1+zookeeper3.4.8)
说明:solr已内置jetty服务,默认端口8983,可以很方便的在web端操作,不用安装tomcat。安装完成后,建议使用谷歌浏览器访问,有的浏览器可能会报错。开放zk要用到的端口或关闭防火墙solr自带zk,一般不使用,而是自定义安装一.环境准备Linux 至少三台(此处使用192.168.60.35、38、41)jdk1.7.0_79(版本要尽量高),点击下载zookeeper原创 2016-10-18 14:54:40 · 3866 阅读 · 3 评论 -
hbase基于solr配置二级索引
一.概述Hbase适用于大表的存储,通过单一的RowKey查询虽然能快速查询,但是对于复杂查询,尤其分页、查询总数等,实现方案浪费计算资源,所以可以针对hbase数据创建二级索引(Hbase Secondary Indexing),供复杂查询使用。Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配原创 2016-10-24 14:47:41 · 8607 阅读 · 4 评论 -
重新编译、安装spark assembly,使CDH5.5.1支持sparkSQL
重新编译、安装spark assembly,使CDH5.5.1支持sparkSQLCDH内嵌spark版本不支持spark-sql,sparkR,如果要使用,需要将hive的相关依赖包打进spark assembly jar中,下面就是针对spark-sql的编译、安装步骤一.在任意一台linux机器上准备编译环境spark-1.5.0.tgz 下载地址: https://spark.apache原创 2016-07-27 16:32:13 · 4538 阅读 · 0 评论 -
hadoop——压缩和本地库
1. 压缩hadoop中为什么使用压缩,因为压缩既减少了占用磁盘的空间又加快了文件的传输速度。 hadoop中常用到的压缩格式有lzo,lz4,gzip,snappy,bzip2,关于这几种压缩格式的比 较可参看: http://www.linuxidc.com/Linux/2014-05/101230.htm实际使用案例:按小时收集服务器日志,并且清洗数据后输出。解决方案:因为日志格式是文本原创 2016-07-12 15:38:33 · 2177 阅读 · 0 评论 -
3台机器配置hadoop2.6.4集群
一.3台机器配置hadoop集群192.168.80.39 hmaster192.168.80.40 hslave1192.168.80.56 hslave2 1. 分别设置主机名(重启后生效):vi /etc/sysconfig/network、hosts解析文件:vi /etc/hosts 2.安装JDK,并设置环境变量(此处略过)原创 2016-06-11 23:17:01 · 2357 阅读 · 1 评论 -
单机安装hadoop2.6.4
一.单机安装hadoop2.6.4做测试使用,分为以下几步配置ip、主机名安装JDK,并设置环境变量(此处跳过)下载hadoop,并设置hadoop环境变量修改4个配置文件格式化hdfs启动hadoop查看hadoop运行情况二.具体安装步骤和注意详情配置ip、主机名 a)设置主机名(重启后生效),命令: vi /etc/sysconfig/network原创 2016-06-07 13:43:19 · 2219 阅读 · 0 评论 -
hadoop配置ssh免秘钥登录
问题:单机安装hadoop后,进行启动停止服务等操作时,需要多次输入本地密码,比较麻烦,需要配置ssh无密码登录。问题详细描述:例如下图中关闭hadoop时候,需要输入4此本地密码。解决方法:只要使用rsa生成秘钥即可。执行命令:ssh-keygen -t rsa,一路回车以上!原创 2016-06-08 10:12:36 · 2305 阅读 · 1 评论