大数据
诺卡先生
成功在于你坚持了,别人坚持不了的东西
展开
-
python爬取前程无忧招聘用Hive做数据分析Sqoop存储到Mysql并可视化
一、导出数据导出为zh_all2.txt文件二、上传数据三、使用Flume传入HDFS(1)编写conf文件在flume的conf目录下新建文件a1.sources=r1a1.channels=c1a1.sinks=s1a1.sources.r1.type=execa1.sources.r1.command=tail -F /opt/module/flume-1.9.0/conf/data/zh_all2.txta1.sources.r1.bind=0.0.0.0a1.s原创 2020-07-15 10:48:04 · 1364 阅读 · 0 评论 -
Flume 初始介绍
一、概述Flume最早是Cloudera提供的日志收集系统,后贡献给Apache。所以目前是Apache下的一个 孵化项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据。Flume是一个高可用的,高可靠的鲁棒性(robust 健壮性),分布式的海量日志采集、聚合 和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume 提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。当前Flume有两个版本Flume 0.9X版本的统称Flume-og,F原创 2020-06-05 23:16:56 · 1244 阅读 · 0 评论 -
sqoop入门配置
一、Sqoop概述Sqoop是一款开源数据迁移工具,主要用于在Hadoop(Hive)与传统数据库(MySQL……)间进行数据的传递,可将一个关系型数据库(MySQL……)中的数据导入到Hadoop的HDFS中,也可将HDFS的数据导入到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速地迭代开发,Sqoop独立成为一个Apache项目。二、下载、安装和配置Sqoop1、下载sqoop-1.4.4.b原创 2020-06-05 22:48:51 · 201 阅读 · 0 评论 -
大数据学习06:Java访问HDFS
一、HDFS常用Java API1、org.apache.hadoop.fs.FileSystem一个通用文件系统的抽象基类,可被分布式文件系统继承。2、org.apache.hadoop.fs.FileStatus文件状态接口,用于向客户端展示系统中文件和目录的元数据。具体包括文件大小、块大小、副本信息、所有者、修改时间等,可通过FileSystem.listStatus()方法获得具体...原创 2020-02-23 12:08:24 · 317 阅读 · 0 评论 -
创建maven项目:报错
创建hdfsDeam创建CreateFileOnHDFS文件但是不知道怎样引入正确的配置,一直报错,可以引用的都试过的,依旧报错似乎是那个Junit4的配置问题样前一个zookeeperDeam项目也是这样的照着老师的文档创建maven项目,也是这样的问题,当然我也百度下载过Junit4的jar包,直接创建lib文件夹,放进去,但是依旧报错,想请教一下老师,这个怎样解决...原创 2020-02-18 10:06:42 · 153 阅读 · 2 评论 -
大数据学习05:分布式文件系统HDFS
一、HDFS基本概念1、块(Block)HDFS默认一个块128MB,一个文件被分成多个块,以块作为存储单位。块的大小远远大于普通文件系统,可以最小化寻址开销。2、名称节点和数据节点1)名称节点在HDFS中,名称节点(NameNode)是文件系统的管理节点,负责管理分布式文件系统命名空间(NameSpace),保存了两个核心的数据结构:文件系统映像文件(fsimage)和操作日志文件(...原创 2020-02-13 13:31:43 · 833 阅读 · 0 评论 -
大数据学习04:单机模式使用ZooKeeper
一、Zookeeper理论篇(一)1.1 概述Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应,从而实...原创 2020-02-11 21:10:50 · 234 阅读 · 0 评论 -
大数据学习03:安装配置CentOS7虚拟机
学习笔记《安装配置CentOS7虚拟机》下载链接:点击这里提取码:sb5p一、创建虚拟机详细步骤见上面下载文档辅助文档:点击这里原创 2020-02-11 19:25:08 · 98 阅读 · 0 评论 -
Hive表的操作(四)
1. 前言前面三篇讲述了安装MySQL和Hive以及Hive的配置和存储,并通过Shell成功登录了Hive,接下来就可以创建Hive表进行数据操作了。Hive是一个数据仓库,它可以将结构化的数据文件映射为一张数据库表,并具有SQL语言的查询功能,这里需要再次强调的是对于数据仓库来说,往往存放的是历史数据,他的作用是完成数据的查询分析,而不是完成单条记录的增加、修改和删除操作。Hive表的创...原创 2020-01-31 08:14:05 · 249 阅读 · 0 评论 -
Hive的数据存储(三)
1. 前言Hive是建立在Hadoop上的数据仓库基础架构。它提供了一系列的工具,用来进行数据(ETL)提取、转化、加载。这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL语言(HQL),它允许熟悉SQL操作的用户查询数据。作为一个数据仓库,Hive的数据管理按照使用层次可以从元数据存储、数据存储和数据交换三个方面来说。2. 元数据存储Hive将...原创 2020-01-29 12:14:38 · 1443 阅读 · 0 评论 -
Hive的安装与配置(二)
1. Hive的基本安装1.1 下载Hive的下载地址:点这里下载1.2 上传解压在Hadoop用户状态下,将Hive的安装文件拷贝到安装目录下并解压。1.3 配置Hive的环境变量配置Hive的环境变量时,需要root用户配置,所以首先切换到root用户下:vi /etc/profile让变量生效source /etc/profile在[root@hadoop12...原创 2020-01-29 12:06:42 · 251 阅读 · 0 评论 -
Hive的基本原理(一)
1. 前言前面讲了很多关于集群搭建、以及HDFS和MapReduce的基本操作,接下来终于能学习新的内容了。。Hive本身是数据仓库,那么什么是数据仓库呢?数据仓库是为了协助分析报告,支持决策,为需要业务智能的企业提供业务流程的改进和指导,从而节省时间和成本,提高质量。它与数据库系统的区别是,数据库系统可以很好的解决事务处理,实现对数据的“增删改查”操作,而数据仓库则是用来查询分析的数据库...原创 2020-01-29 09:06:25 · 487 阅读 · 0 评论 -
大数据学习02:hadoop集群配置
HDFS架构概述NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。(管理数据、存储数据)Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快...原创 2020-01-08 18:34:01 · 276 阅读 · 0 评论 -
大数据学习01:大数据概述
typora-root-url: …/HadoopHadoop光速入门一 、大数据基本概念1.1 大数据概念大数据:指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新模式才能具有更强大的决策力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、...原创 2019-11-02 17:53:42 · 1287 阅读 · 0 评论