hadoop
文章平均质量分 53
AI_skynet
5年java 3年hadoop。 目前就职于一家舆情服务公司,主要从事hadoop技术体系,spark技术体系的相关应用工作。
展开
-
hive与json:使用HDFS上的json格式数据建立hive表
1 下载对应版本的 jar包 http://mvnrepository.com/artifact/org.apache.hive.hcatalog/hive-hcatalog-coreadd jar /home/xxx/hive-hcatalog-core-2.1.0.jar2.创建表CREATE TABLE json_table(id bigint, sourceType int)ROW F原创 2016-11-30 17:41:00 · 8010 阅读 · 1 评论 -
HDFS负载均衡
HDFS负载平衡HDFS的数据可能并不总是被均匀的置于所有的DataNode中,最常见的原因是向一个已经存在的集群添加一个新的节点。 当放置新的块时(块:一个文件的数据会被存储为一系列的块)。NameNode 在选择DataNode节点存储这些块之前会考虑多方面参数。一些注意事项如下:策略保证一个块的其中之一个副本在同一个节点(这个节点是块写的节点)需要将一个块的副本分配到不同的机架上 ,这样可原创 2017-02-19 20:56:41 · 4203 阅读 · 0 评论 -
HDFS副本存放策略
第一个block副本放在和client所在的node里(如果是集群外提交,则随机挑选一台磁盘不太慢、CPU不太忙的节点上)。 第二个副本放置在与第一个节点不同的机架中的node中(随机选择)。 第三个副本和第二个在同一个机架,随机放在不同的node中。 如果还有更多的副本就随机放在集群的node里。 流水线复制 当客户端向 HDFS 文件写入数据的时候,一开始是写到本地临时文件中。原创 2017-02-19 20:28:50 · 3604 阅读 · 0 评论 -
Hadoop 添加节点和删除节点
一。增加节点 1.解压hadoop程序,并把namnode的配置文件复制到配置文件目录下 2.修改namenode的slaves文件增加该节点 3.在该节点对ssh,hosts,jdk 进行配置,并修改所有节点的/etc/hosts增加该节点映射 4.在该节点启动Datanode和Nodemanager $HADOOP_HOME/sbin/hadoop-daemon.sh start d原创 2017-02-19 15:04:27 · 3193 阅读 · 1 评论 -
hive 环境搭建
前提 hadoop 集群已经启动并搭建完毕,mysq已经安装完毕 1.解压hive tar -zvxf apache-hive-0.14.0-bin.tar.gz -C /usr/local/ mv apache-hive-0.14.0-bin/ hive 2备份配置文件 cp hive-env.sh.template hive-env.sh cp hive-de原创 2016-12-27 16:42:52 · 424 阅读 · 0 评论 -
hive查询数据导出到本地目录或hdfs的方法
一、导出到本地文件系统 hive> insert overwrite local directory '/home/mydir/mydir' > select * from test; 二、导出到HDFS中hive> insert overwrite directory '/home/mydir/mydir' > select * from test;原创 2016-11-23 10:50:43 · 5979 阅读 · 0 评论 -
构建HBase集群
vi ~/.bashrcexport HBASE_HOME=/data/hadoop1/hbase-1.2.2export PATH=$HBASE_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$ZOOKEEPER_HOME/bin:$JAVA_HOME/bin:$PATHsource ~/.bashrcvi hbase-env.sh export原创 2016-11-22 15:28:32 · 356 阅读 · 0 评论 -
构建Hadoop HA 集群 hadoop 2.7.2 版本
向公司申请了4台虚拟机,搭建了一个测试hadoop集群. Centos 7 64位操作系统 llc1 10.1.5.10 llc2 10.1.5.11 llc3 10.1.5.12 llcf 10.1.5.13hadoop1 hadoop2 做namenode 主备机器名 ip地址 安装软件原创 2016-11-22 15:24:10 · 668 阅读 · 0 评论 -
hadoop 伪分布式安装
一.设置操作系统环境 1.设置ip地址 1)通过centos桌面操作 使用命令ifconfig查看ip地址 当修改了ip之后,使用命令service network restart重新启动网络服务 vi /etc/sysconfig/network-scripts/ifcfg-eth0 2.设置主机名 hostname查看主机名称 vi /etc/原创 2016-11-22 14:51:30 · 344 阅读 · 0 评论 -
Hadoop 回收站trash
和Linux系统的回收站设计一样,HDFS会为每一个用户创建一个回收站目录:/user/用户名/.Trash/,每一个被用户通过Shell删除的文件/目录,在系统回收站中都一个周期,也就是当系统回收站中的文件/目录在一段时间之后没有被用户回复的话,HDFS就会自动的把这个文件/目录彻底删除,之后,用户就永远也找不回这个文件/目录了。配置:在每个节点(不仅仅是主节点)上添加配置 core-site.x翻译 2016-11-22 15:40:59 · 601 阅读 · 0 评论 -
JStorm安装
因为工作需要,需要使用jstorm 现在把jstorm的安装过程和大家分享一下,我是参照https://github.com/alibaba/jstorm 上面和百度进行安装的.安装jstorm前 需要安装jdk zookeeper 建议较新版本 我用的是3.4.6 参考其他日志,这里不再赘述八台服务器 CentOS 7 1.python python 需要至原创 2015-10-09 10:43:36 · 956 阅读 · 0 评论 -
Zookeeper集群环境搭建实践
第一步:服务器配置 三台虚拟机 centos 6.5 64位 192.168.50.150 hadoop0 192.168.50.151 hadoop1 192.168.50.152 hadoop2 第二步:下载Zookeeper. 官网 3.4.5 第三步:安装Zookeeper 注:先在第一台服务器server1上分别执行(1)-(3)步。 (1)解压:这里假定以d原创 2016-11-22 15:03:03 · 324 阅读 · 0 评论 -
hive的dual表
dual表的概念来自oracle,数据库建立时即与数据字典一起初始化,该表只有一个varchar2类型名为dummy的字段,表数据只有一行“X”,用来查询一些系统信息, 如select sysdate from dual; select user from dual;select seq.nextval from dual等。 为了能在hive中测试一些时间、数学、聚合函数,可以仿照orac原创 2017-01-21 21:18:12 · 6407 阅读 · 0 评论