![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 80
勤径苦舟
书山有路勤为径,学海无涯苦作舟。
展开
-
Flume介绍+安装部署+netcat-logger.conf+spool-logger.conf+tail-hdfs.conf+多级agent串联
Flume介绍Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中 一般的采集需求,通过对flume的简单配置即可实现 Flume针对特殊场景也具备良好的自定义扩展能力,因此,flume可以适用于大部分的日常数据...原创 2019-03-19 00:04:07 · 1492 阅读 · 0 评论 -
数据倾斜的思路分析+map端join实现+倒排索引实现
1什么是数据倾斜 解决解决方法1让数据数据不要去reduceTask,在mapTask就进行处理(利用distributeCache)map端join实现public class MapSideJoin { public static class MapSideJoinMapper extends Mapper<LongWritable, Text, Text,...原创 2019-02-11 21:06:45 · 567 阅读 · 0 评论 -
reduce端join算法实现
数据订单数据表order: date pid amount 20150710 P0001 2 20150710 P0002 3 商品信息表product pid ...原创 2019-02-02 00:22:45 · 336 阅读 · 0 评论 -
combiner的运行机制及代码实现+怎么将大量小文件逻辑上合成一个大文件
combiner作用将maptask(reduseTask)溢出的数据如a1,a1,c1,b1,b1的数据进行整理,整理结果为a2,c1,b2好处:提高效率打个比方说加入a1有1000个溢出,c1有2000的溢出等等,这时候排序的效率肯定小于a1000,c2000这样几个数字的排序。代码实现/** * 输如为map的输出 */public class Wordco...原创 2019-03-12 18:00:34 · 316 阅读 · 0 评论 -
MAPREDUCE实战
测试前先启动hadoop[hadoop@mini-yum ~]$ start-dfs.sh[hadoop@mini-yum ~]$ start-yarn.sh 1在一堆给定的文本文件中统计输出每一个单词出现的总次数代码package cn.feizhou.wcdemo;import org.apache.hadoop.conf.Configuration;im...原创 2019-01-27 21:43:58 · 910 阅读 · 0 评论 -
MAPREDUCE原理+mapreduce和yarn的工作机制+mapreduce&yarn的工作机制
MAPREDUCE是什么一个分布式运算程序的编程框架能将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上为什么要MAPREDUCE因为它能解决海量数据的分析整体结构MRAppMaster(mapreduce application master):负责整个程序的过程调度及状态协调 MapTask:负责map阶段的整...原创 2019-03-12 18:00:22 · 330 阅读 · 0 评论 -
hadoop日志采集
对应的配置uploadFile2Hdfs.v2.sh*/1 * * * * sh /export/servers/shell/uploadFile2Hdfs.v2.sh#!/bin/bash#set java envexport JAVA_HOME=/home/hadoop/app/jdk1.7.0_51export JRE_HOME=${JAVA_HOME}/jre...原创 2019-03-12 18:01:53 · 692 阅读 · 0 评论 -
怎么让元数据放到多个磁盘中(HA)
为了防止数据丢失情况,做高可用,我们可以将namenode的元数据放到多个磁盘中,那么我们该怎么办呢步骤:1关闭hadoop2修改配置cd /home/hadoop/apps/hadoop-2.6.4/etc/hadoop[hadoop@mini-yum hadoop]$ vi hdfs-site.xml <property> &l...原创 2019-01-13 21:22:28 · 327 阅读 · 0 评论 -
secondary namenode元数据checkpoint机制
将机制前先明确下面的几点namemode保存的元数据是在内存中的namenode一般有128G一个元数据大小为150B,记录一个块(0-128M)。所以hadoop不适用存储一个小文件。secondary namenode也是在内存中操作secondarynamenode元数据checkpoint机制当客户端不断发出命令的时候,namenode都做了什么?...原创 2019-03-12 18:02:09 · 662 阅读 · 3 评论 -
找出QQ共同好友的实现
以下是qq的好友列表数据,冒号前是一个用,冒号后是该用户的所有好友(好友关系是单向的,也就是说A是B好友,B不一定是A好友)A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,F...原创 2019-02-11 21:52:40 · 2777 阅读 · 0 评论 -
使用groupingcomparator求同一订单中最大金额的订单
有如下订单数据,现在需要求出每一个订单中成交金额最大的一笔交易 订单id 商品id 成交金额 Order_0000001 Pdt_01 222.8 Order_0000001 Pdt_05 25.8 ...原创 2019-02-11 22:29:18 · 401 阅读 · 0 评论 -
自定义outputFormat,根据内容输出到不同文件中
根据内容的不同,数据写到不同的文件中代码package cn.feizhou.logenhance;import java.io.IOException;import java.util.HashMap;import java.util.Map;import org.apache.commons.lang.StringUtils;import org.apache.hado...原创 2019-02-11 23:21:03 · 1041 阅读 · 0 评论 -
hive函数
内置运算符Hive官方文档https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF你可以将hive当成mysql,因为绝大部分mysql的函数,hive都有Hive自定义函数和Transform当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数 UDF( user-d...原创 2019-03-18 00:23:06 · 198 阅读 · 0 评论 -
Hive基本操作
Hive基本操作建表语法CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name[(col_name data_type [COMMENT col_comment], ...)][COMMENT table_comment][PARTITIONED BY (col_name data_type [COMMENT c...原创 2019-03-16 17:31:40 · 1050 阅读 · 0 评论 -
hdfs的HA(3台机子)+hive的安装+将hive作为服务启动+简单使用
1hdfs的HA这里拷贝HA01,HA02HA03为HAT01,HAR02HAT03HAT01、jdk、hadoop、zookeeper、DataNode、NodeManager、JournalNode、NameNode、zkfc、HAT02、jdk、hadoop、zookeeper、DataNode、NodeManager、JournalNode、NameNode、zkfc、Reso...原创 2019-03-11 23:17:28 · 888 阅读 · 0 评论 -
hive的概念和原理
什么是Hive?基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。为什么使用Hive?直接使用hadoop所面临的问题人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大为什么要使用Hive操作接口采用类SQL语法,提供快速开发的能力。避免了去写MapReduce,减...原创 2019-03-06 23:44:58 · 152 阅读 · 0 评论 -
大数据HA集群搭建
1环境准备集群规划ip 主机名 安装的软件 192.168.232.132 HA01 jdk、HA0doop、NameNode、DFSZKFailoverController(zkfc)192.168.232.133 HA02...原创 2019-03-06 22:23:16 · 843 阅读 · 0 评论 -
hdfs的高可用机制+yarn的高可用+hadoop的联邦机制(namenode的水平扩展)
hdfs的高可用机制图yarn的高可用hadoop的联邦机制(namenode的水平扩展)原创 2019-02-13 20:57:00 · 804 阅读 · 0 评论 -
mapreduce参数优化
MapReduce重要配置参数11.1 资源相关参数//以下参数是在用户自己的mr应用程序中配置就可以生效(1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则会被强制杀死。(2) mapreduce.reduce.memory.mb: 一个Reduce Task...转载 2019-03-12 18:01:05 · 579 阅读 · 0 评论 -
使用inputFormat实现合并多个小文件为一个大文件
测试数据did.txtdid_1,1did_2,1did_3,1pid.txtpid_1,1pid_2,1pid_3,1order.txtorder_1,1order_2,1order_3,1代码package cn.feizhou.combinefile;import java.io.IOException;import org....原创 2019-02-11 23:55:33 · 461 阅读 · 0 评论 -
HDFS读数据流程
读数据的过程:案例某个文件上传后被切割成3个块,分别保存在这几个datanode中black1(dn1,dn3,dn4),black2(dn1,dn4,dn5) ,black3(dn2,dn3,dn4)。1 客户端问namenode,我的文件/aa/cls.avi在哪里。2 namenode根据路径/aa/cls.avi到元数据查到保存的纪录信息。并发给客户端...原创 2019-03-12 20:13:32 · 245 阅读 · 0 评论 -
HADOOP集群搭建
安装步骤机器mini_yum,mini2,mini3,mini4注意:下面的步骤在4台机子上都要做的操作1先将虚拟机的网络模式选为NAT2修改主机名 vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=xxxx ###3修改IP vim /etc/sysconf...原创 2019-01-02 23:58:46 · 145 阅读 · 0 评论 -
大数据-本地yum
1创建挂载目录[root@sizhan ~]# mkdir /mnt/cdrom挂载[root@sizhan ~]# mount -t iso9660 -o ro /dev/cdrom /mnt/cdrom[root@sizhan ~]# ll /mnt/cdrom总用量 558-r--r--r--. 2 root root 14 5月 22 2016 CentOS_B...原创 2019-03-12 17:59:58 · 158 阅读 · 0 评论 -
大数据 zookeeper-api应用+分布式应用系统服务器上下线动态感知程序开发
测试过程中使用到的源码https://download.csdn.net/download/zhou920786312/108711051zookeeper-api应用org.apache.zookeeper.Zookeeper是客户端入口主类,负责建立与server的会话,它提供了以下主要方法 功能 描述 create ...原创 2019-03-12 20:13:51 · 171 阅读 · 0 评论 -
zookeeper结构和命令
zookeeper特性1、Zookeeper:一个leader,多个follower组成的集群。2、全局数据一致:每个server保存一份相同的数据副本,client无论连接到哪个server,数据都是一致的。3、分布式读写,更新请求转发,由leader实施。4、更新请求顺序进行,来自同一个client的更新请求按其发送顺序依次执行。5、数据更新原子性,一次数据更新要么成功,...原创 2019-03-12 20:14:42 · 137 阅读 · 0 评论 -
scp命令安装
yum install -y openssh-clients查找[root@sizhan yum.repos.d]# yum list |grep sshlibssh2.x86_64 1.4.2-2.el6_7.1 @anaconda-CentOS-201605220104.x86_64/6.8ope...原创 2019-03-12 20:14:13 · 4431 阅读 · 0 评论 -
zookeeper集群安装+集群值启动+source命令+export命令
1zookeeper集群安装1安装到3台虚拟机上(mini2,mini3,mini4)2先要安装好JDK步骤1先给mini2,mini3,mini4创建用户hadoop,密码也是hadoopadduserhadooppasswdhadoop2上传zookeeper-3.4.5.tar.gz到/home/hadoop中rz3解压su –hadoop...原创 2019-03-12 18:02:19 · 780 阅读 · 0 评论 -
大数据02 linux+下载资源 +上传资源下载+shell脚本学习
如果虚拟机连接不上网,可以参考这边文章https://blog.csdn.net/u010522433/article/details/52814567下载资源 wget上传资源下载下载yum install lrzszrz/sz 上传下载命令[root@sizhan home]# pstreeinit─┬─NetworkManager ├─abrtd...原创 2019-03-12 20:14:18 · 143 阅读 · 0 评论 -
大数据学习01 -Linux 的简单使用
1 NAT——网络地址转换 :默认使用VMnet81、原理:子网掩码:和IP进行与操作,可以得到对应的子网IP(在那个网段上)IP:哪台机制网关:路由器的IPdns:去dbs服务器查找域名对应的IP常用命令修改主机名vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=server...原创 2019-03-12 18:02:32 · 148 阅读 · 0 评论 -
大数据-自动部署
mini-yun主服务器配置[root@sizhan ~]# vi /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4::1 localhost localhost.localdomain localhost6 localhost6.loc...原创 2019-03-12 18:00:54 · 297 阅读 · 0 评论 -
大数据-虚拟机克隆网卡变为eth1问题
1 直接修改 vi /etc/sysconfig/network-scripts/ifcfg-eth0删掉UUID 删掉HWADDR(物理地址)配置静态地址2vi /etc/udev/rules.d/70-persistent-net.rules将eth1该为eth0,将原ext0删掉。3 reboot哈哈...原创 2019-03-12 20:14:54 · 353 阅读 · 0 评论 -
Zookeeper概念简介+Zookeeper工作原理图+选主机制+Zookeeper集群角色+数据模型+规则
Zookeeper是一个分布式协调服务;就是为用户的分布式应用程序提供协调服务zookeeper是为别的分布式程序服务的 Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务) Zookeeper所提供的服务涵盖:主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务…… 虽然说可以提供各种服务,但是zookeeper在底层其实只提供了两...原创 2019-03-12 20:14:46 · 307 阅读 · 0 评论 -
hdfs写数据流程
上面图看不懂没关系,下面我有简单语言说明下其过程。现在客户端要上传一个300M的文件。1客户端先请求namenode,告诉namenode我有上传一个叫作cls_初解禁的文件。2namenode检查元数据中是否有这个文件,有就告诉客户端这个文件已存在,没有就告诉客户端你可以上传了3客户端收到namenode可以上传的消息,这个时候客户端将300M切片,将第一个black(...原创 2019-03-12 20:13:38 · 321 阅读 · 0 评论 -
hadoop nameNode和dataNode怎么管理
mini4(dataNode)的文件怎么知道mini-yum(nameDate)的呢?或者说别的集群的nameNode可以加入到当前的mini-yum中吗?首先查看dataNode的文件信息下图有2处重要的信息第一个红框的内容是怎么来的呢,其实第一个红框的内容是来自namenode,怎么说?请看namenode的信息有上图可以知道,datanode的版本信息来自...原创 2019-03-12 18:01:36 · 1035 阅读 · 0 评论 -
HDFS的Java api+步骤+api
步骤1下载hadoop源文件2因为要在window下测试,hadoop源文件需要编译,编译后下面2个文件下多出点内容,就是一些在当前window操作系统下能让hadoop跑起来的文件如下图所示(这都是编译过的(window7系统),如果是window8系统,你需要在win8编译下源文件)这个文件我已上传https://download.csdn.net/download/zhou9...原创 2019-01-13 22:36:33 · 601 阅读 · 0 评论 -
HDFS的 /路径介绍+2客户端命令工具+3命令+4mapreduce单词解析
/路径介绍 对应路径/home/hadoop/apps/hadoop-2.6.4/tmp/dfs/data/current/BP-271701141-192.168.232.128-1546395882610/current/finalized对应配置 2客户端命令工具目录/home/hadoop/apps/hadoop-2.6.4/bin 3命...原创 2019-01-06 14:53:22 · 2877 阅读 · 1 评论 -
hadoop的介绍
1HADOOP简介 什么是HADOOPHADOOP可以对海量数据进行分布式处理 HADOOP的核心组件有 HDFS(分布式文件系统) YARN(运算资源调度系统) MAPREDUCE(分布式运算编程框架) 广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈HADOOP在大数据、云计算中的位置和关系云计算是分布式计算、并行计算、网格计算、多核计...原创 2019-01-01 22:35:18 · 859 阅读 · 0 评论 -
RPC介绍+原理
RPC(远程过程调用)它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。 RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。 在OSI网络通信模型中,RPC跨越了传输层和应用层。 RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。1客户机调用进程发送一个有进程参数的调用信息到服务进程,然后等待应...原创 2018-12-23 13:53:13 · 301 阅读 · 0 评论 -
zookeeper 分布式共享锁的流程图
1分布式共享锁的流程图原理package cn.itcast.bigdata.zklock;import java.util.Collections;import java.util.List;import java.util.Random;import org.apache.zookeeper.CreateMode;import org.apache.zoo...原创 2019-03-12 18:01:42 · 291 阅读 · 0 评论 -
大数据-linux免密登录
操作mini-yum服务器(A)[root@sizhan ~]# ssh-keygenGenerating public/private rsa key pair.Enter file in which to save the key (/root/.ssh/id_rsa): 回车Enter passphrase (empty for no passphrase):...原创 2019-03-12 20:14:08 · 196 阅读 · 0 评论