![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 82
千呼万唤始出来,犹抱琵琶半遮面
这个作者很懒,什么都没留下…
展开
-
02-flume Source练习
一、avro数据序列化系统在目录/opt/servers/flume-1.9.0/conf 下创建文件vim avro_logger.confa1.sources = r1a1.sinks = k1a1.channels = c1 a1.sources.r1.type = avroa1.sources.r1.bind = 0.0.0.0a1.sources.r1.port = 22222 a1.sinks.k1.type = logger a1.ch原创 2021-12-07 13:38:43 · 1260 阅读 · 0 评论 -
01-Apache Flume 入门
一、概述Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。Flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地(sink)后,flume在删除自己缓存的数据。Flume支持定制各类数据发送方,用于收集各类型数据;同时,Flume支持定制各种数据接受方,用于最终存储数据。一般的采集需求,通过对fl原创 2021-12-02 09:18:12 · 532 阅读 · 0 评论 -
02-HIVE的安装部署
一、derby版hive直接使用说明:Hive安装非常简单,解压之后即可直接运行,不需要太多配置,前提是要配置JAVA_HOME和HADOOP_HOME。并且Hadoop要全量启动(五个进程)准备工作:apache-hive-2.3.6-bin.tar.gz 下载链接:https://pan.baidu.com/s/1OjW_LeGPuEZRss8hN7FrsQ提取码:61531 解压hivecd /opt/softwarestar -xvzf apache-hive-2.3.6-bin.ta原创 2021-12-01 11:42:18 · 145 阅读 · 0 评论 -
01-Hive简介
一、什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更进一步可以说hive就是一个MapReduce的客户端。二、为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短MapReduce实现复杂查询逻辑开发难度太原创 2021-11-24 09:07:38 · 1752 阅读 · 0 评论 -
07-Yarn资源调度
一、Yarn介绍yarn集群的监控管理界面:原创 2021-11-23 13:52:55 · 84 阅读 · 0 评论 -
06-MapReduce介绍
一、MapReduce思想原创 2021-11-23 12:50:19 · 1606 阅读 · 0 评论 -
05-HDFS的api操作
一、前期准备1 解决winutils.exe的问题把hadoop2.7.7(windows版)文件目录放到一个没有中文没有空格的路径下链接:https://pan.baidu.com/s/17yXMvZeQSQgDGdsicoumJg提取码:0l7w在window中配置handoop的环境变量,并且加入path中2 导入jar包创建maven工程并导入jar包<dependency> <groupId>org.apache.hadoop</gro原创 2021-11-17 13:18:55 · 1117 阅读 · 0 评论 -
04-HDFS入门介绍
一、原创 2021-11-15 09:19:51 · 117 阅读 · 0 评论 -
03-Hadoop安装
一、Hadoop 的安装有三种方式单机模式:直接解压,只支持MapReduce的测试,不支持HDFS,一般不用。伪分布式模式:单机通过多进程模拟集群方式安装,支持Hadoop所有功能。 优点:功能完整。 缺点:性能低下。学习测试用。完全分布式模式:集群方式安装,生产级别。HA:高可用二、伪分布式部署1 初始环境:JDK,JAVA_HOME,配置hosts,关闭防火墙,配置免密登录等。注意:我们只将其安装在hadoop01节点上。2 上传安装包并解压上传文件原创 2021-11-04 08:39:40 · 212 阅读 · 0 评论 -
02-Hadoop介绍
一、定义hadoop是一个分布式存储和分布式计算的框架二、hadoop的核心组件HDFS 分布式文件存储系统MapReduce 分布式计算Yarn 资源调度管理器三、hadoop的介绍及发展历史Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。——分布式文件系原创 2021-10-29 08:39:10 · 535 阅读 · 0 评论 -
01-hadoop学习环境准备
一、环境准备第一台hadoop01的虚拟机ip地址改为:192.168.65.101第二台hadoop02的虚拟机ip地址改为:192.168.65.102第三台hadoop03的虚拟机ip地址改为:192.168.65.103hadoop01、hadoop02、hadoop03均为NAT模式,其中hadoop01内存设置为1G(16G内存以上建议设置为2G),hadoop02和hadoop03为512M,CPU核数都设置2核1 配置文件cd /etc/sysconfig/network-sc原创 2021-10-29 08:00:40 · 976 阅读 · 0 评论