![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 70
静坐听雨笙
山人自有妙计
展开
-
大数据-安装sqoop1.4.7-并记录利用sqoop将mysql数据导入到hive的详细过程---内含hive查询hdfs的原理研究
一、场景描述 上一篇博客研究了不用sqoop将mysql中的数据导入到hive中,发现有一定的局限性,数据量较少还好,要是数据表过多,就显的很繁琐,所有我想简化这个步骤,利用sqoop来导入。 毕竟sqoop(SQL-to-Hadoop)是前辈们专门研究出来的,用于关系数据库与非关系数据库之间做数据传输的。 因为我的hadoop环境是自己安装的,目前还没有sqoop环境,所以我需要先安装sqoop环境,下面做一个详细的介绍,从sqoop的安装,...原创 2021-02-19 15:33:29 · 794 阅读 · 0 评论 -
大数据-hive-记录一次不用sqoop将mysql库的数据导入到hive库中
一、场景描述 公司需要的一些数据是自己收集的,收集的时候存储在mysql中,现在需要将mysql中的存储的数据导入到hive库中。 网上查看教程找到很多的导入方式都报错,描述最多的是sqoop导入。Sqoop(SQL-to-Hadoop):主要用于传统数据库和hadoop之间的传输数据。 但是hive环境是我自己搭建起来的,还没有安装sqoop,安装又会浪费大量的时间,所有思考能不能不通过sqoop将mysql中的数据导入到hive中。二、导入过程 将mys...原创 2021-02-18 14:40:11 · 628 阅读 · 0 评论 -
大数据-hive创建表出现中文乱码问题-解决过程详解
一、场景描述1、创建表语句:hive> create table movie02( userID int comment '用户ID', movieID int comment '电影ID', rating int comment '电影评分', timestamped bigint comment '评分时间戳', movieName string comment '电影名字', movieType string commen...原创 2021-02-02 17:17:49 · 2362 阅读 · 0 评论 -
大数据-hive操作实例详细过程讲解(包括建表、创造数据txt文件、将文件数据加载到hive表中)
一、建表语句 create table pt_log_20210202(id int, name string, pass string, mail string, nickname string) row format delimited fields terminated by '\t' lines terminated by '\n' stored as textfile;代码说明:这段代码在hive>中执行,create后面是基本的sql语...原创 2021-02-02 14:04:59 · 2879 阅读 · 1 评论 -
大数据-什么是Kafka?&&Kafka的基本概念&&Kafka指令及数据同步&&Kafka和MQ的区别&&什么是零拷贝
一、什么是Kafka一、概述Kafka是发布订阅模式的消息队列 Kafka是由LinkedIn(领英)公司开发后来贡献给了Apache的消息队列 Kafka的特征: 发布和订阅消息流 在存储消息流的时候要提供容错机制 当数据流出现的时候能够及时处理 Kafka的应用场景: 能够在系统或者应用之间构建可靠的数据传输的实时流管道 能够构建一个转化或者应对数据流的实时流应用 Kafka是利用了Scala语言构建的,Scala天然支持并发和吞吐,保证Kafka的并发量和吞吐原创 2020-09-15 10:49:56 · 1656 阅读 · 2 评论 -
大数据-什么是Hive?&&Hive中ETL的实战&&HQL介绍&&数据仓库的特征&&Hive的适用场景
一、什么是Hive?1、Hadoop开发存在的问题只能用java语言开发,如果是c语言或其他语言的程序员用Hadoop,存在语言门槛。需要对Hadoop底层原理,api比较了解才能做开发。2、Hive概述Hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现MapReduce统计,不必开发专门的MapReduce应用,十分适合数据原创 2020-09-02 09:53:00 · 5749 阅读 · 0 评论 -
大数据-什么是hbase?&&hbase的行存储及列存储&&关系数据库和非关系型数据库的优劣
一、什么是HBASE?HBASE是Apache提供的基于Hadoop的、分布式的、可扩展的、能够存储大量数据的非关系型数据库 基于Google的论文《BigTable》设计实现 区别于传统数据库的行存储,HBASE是面向列进行存储,底层基于Key-Value结构存储 HBASE能够提供低延迟的数据查询能力,其原因是底层充分利用了缓存机制以及复杂的数据结构和算法来实现二、HBASE的行存储和列存储行存储在磁盘上的存储是连续的;列存储在磁盘上的存储是不连续的 从写入性能上对比,写入次数原创 2020-09-01 15:02:32 · 2762 阅读 · 0 评论 -
大数据-什么是MapReduce?&&数据本地化&MapReduce原理及执行流程&&Shuffle的调优
一、什么是MapReduce?一、概述MapReduce是Hadoop提供的一套用于进行分布式计算的框架 将计算过程拆分为2个阶段:Map映射阶段和Reduce规约阶段 如图所示: MapReduce在对文件进行计算的时候,会先将文件进行切片,切片和切块不一样,每个切片对应MapTask默认情况下,每一个MapTask在拿到切片之后会进行按行读取按行处理 二、MapReduce的数据本地化二、数据本地化策略当JobTracker收到MR程序的时候,会访问NameNod原创 2020-08-31 15:58:56 · 2664 阅读 · 0 评论 -
大数据-什么是HDFS?&&HDFS三个进程细节介绍&&HDFS回收站机制&&DFS目录介绍-史上最详细的HDFS干货
一、简介HDFS——Hadoop分布式文件存储系统一、概述全称为Hadoop Distributed File System ,Hadoop分布式文件存储系统 HDFS是根据谷歌的论文:《The Google File System》进行设计的 本身是一个分布式的,可扩展,可靠的文件系统 HDFS中包含三个主要的进程:NameNode,DataNode,SecondaryNameNode。这三个进程一般是分布式不同的主机上,所以一般习惯上是用进程的名字称呼节点二、特点优点: 支持超大原创 2020-08-28 09:59:43 · 5249 阅读 · 0 评论 -
大数据-什么是大数据?大数据的相关概念
大数据简介一、概念研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产 根据维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合二、特征Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是T、P(1024个T)、E(100万个T)或Z(10亿个T) Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据.原创 2020-08-21 11:00:46 · 5133 阅读 · 2 评论 -
大数据-Zookeeper的集群安装
一、Zookeeper集群安装一、安装步骤关闭Linux(版本是Centos6.X)的防火墙临时关闭防火墙:service iptables stop永久关闭防火墙:chkconfig iptables off下载安装JDK, 下载或者上传Zookeeper的压缩包 解压压缩包:tar -xvf zookeeper-3.4.7 进入Zookeeper的安装目录下的子目录conf目录中:cd zookeeper-3.4.7/conf 将conf目录下的zoo_sample.cfg复原创 2020-08-21 10:57:51 · 3775 阅读 · 1 评论 -
大数据-Zookeeper的单机安装
一、Zookeeper单机安装一、安装步骤1、关闭Linux(CentOS6.X版本)的防火墙临时关闭防火墙:serviceiptablesstop永久关闭防火墙:chkconfig iptables off2、下载安装JDK :先卸载后安装1、先输入java -version 查看是否安装了jdk2、如果安装了,检查下安装的路径which java(查看JDK的安装路径)3、卸载 rm -rf JDK地址(卸载JDK) rm -rf /usr/java/jdk/...原创 2020-08-21 10:43:37 · 4177 阅读 · 1 评论 -
大数据-什么是Zookeeper?Zookeeper的特点及节点类型
一、Zookeeper简介Zookeeper是Apache提供的一套于用进行分布式管理和协调的框架二、分布式存在的问题死锁:至少有一个线程把持了资源,但是由于线程之间的相互等待,所以线程不耗费CPU 活锁:所有的线程都没有把持资源而导致资源产生了浪费。而且由于线程之间一直在调度,导致CPU一直处于被占用状态。 分布式环境下,需要引入监控和管理节点来保证服务器之间的任务调度 为了防止单一监控节点带来单点问题,所以需要引入多个监控节点 为了防止多个监控节点之间的任务调度不同,需要.原创 2020-08-21 09:49:21 · 6057 阅读 · 1 评论 -
大数据-什么是Hadoop?Hadoop的起源与国内应用、Hadoop作为插件在eclipse中的使用
一、hadoop简介一、概述Hadoop是Apache提供的一个开源的、可靠的、可扩展的系统架构,可以利用分布式架构来进行海量数据的存储以及计算。需要注意的是Hadoop处理的是离线数据,即在数据已知以及不要求实时性的场景下使用。二、版本Hadoop1.0:只包含HDFS以及MapReduce两个模块 Hadoop2.0:完全不同于1.0的架构,包含HDFS、MapReduce以及Yarn三个模块 Hadoop3.0:包含HDFS、MapReduce、Yarn、Ozon..原创 2020-08-20 14:42:14 · 5686 阅读 · 5 评论 -
大数据-基础NIO-什么是NIO?NIO三大组件Buffer、Channel、Selector的特点
一、NIO简介1、Java中的IO介绍BIO:BlockingIO,同步式阻塞式IO,即传统的IO,是Java中最早期的流 NIO:Non-BlockingIO,又称New IO,同步式非阻塞式IO,是JDK1.4提供的流 AIO:AsynchronousIO,异步式非阻塞式IO,可以认为是NIO的二代版本,是JDK1.8提供的流2、概述NIO是JDK1.4出现的一个新的用于进行数据传输的流 全称是Non-Blocking IO,是一种同步式非阻塞式的IO,也是一种能供进行多路复用的I原创 2020-08-20 09:53:25 · 5832 阅读 · 0 评论