自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 sqoop的数据迁移知识总结(全)

目录一、导入到HDFS二、导入到Hive三、导入到Hbase四、从hdfs导出到mysql一、导入到HDFS1.WHERE语句过滤导入sqoop import --connect jdbc:mysql://localhost:3306/hive --mysql里的数据库名 --table orders --数据库里的某个表 --where “order_date > ‘2015-10-10’” --where条件查询 --use

2020-09-29 19:18:47 754

原创 这是一篇小白都在找的傻瓜式安装sqoop手册(超详细)

目录一、简介二、sqoop安装三、导入数据到hdfs一、简介Sqoop是什么Sqoop是一个用于在Hadoop和关系数据库之间传输数据的工具将数据从RDBMS导入到HDFSHDFS、Hive、HBase 从HDFS导出数据到RDBMS使用MapReduce导入和导出数据,提供并行操作和容错二、sqoop安装**安装前提:已经具备 Java 和 Hadoop、Hive、ZooKeeper、HBase 的环境。1.上传安装包 sqoop-1.4.6-cdh5.14.2.tar.gz 到虚

2020-09-26 16:03:14 201

原创 66666,phoenix的简介和安装,Hbase的进阶,看了这篇,我竟然都懂了

目录一、Phoenix二、hbase常用命令三、Region管理一、PhoenixPhoenix简介构建在HBase上的SQL层使用标准SQL在HBase中管理数据使用JDBC来创建表,插入数据、对HBase数据进行查询Phoenix JDBC Driver容易嵌入到支持JDBC的程序中安装教程下载链接 链接网站将安装包依旧解压到Opt目录下,然后重命名打开phoenix下的Jia包所在的文件夹拷贝到Hbae下:cp phoenix-4.14.0-cdh5.14.2-server

2020-09-25 15:21:45 1396

原创 NOSQL综述和hbase基础语法

一、什么是NOSQLNoSQL:not only SQL,非关系型数据库NoSQL是一个通用术语指不遵循传统RDBMS模型的数据库数据是非关系的,且不使用SQL作为主要查询语言解决数据库的可伸缩性和可用性问题不针对原子性或一致性问题二、NOSQL的优缺点NoSQL和关系型数据库对比:NOsql的特点:最终一致性应用程序增加了维护一致性和处理事务等职责冗余数据存储但是NoSQL != 大数据!!!NoSQL基本概念:三大基石:CAP、BASE、 最终一致性分类如下:

2020-09-24 16:26:58 284

原创 hive函数及其性能优化

目录一、函数的分类二、Hive内置函数三、UDF开发流程四、hive事务五、hive的优化设计六、压缩算法一、函数的分类从输入输出角度分类标准函数:一行数据中的一列或多列为输入,结果为单一值聚合函数:多行的零列到多列为输入,结果为单一值表生成函数:零个或多个输入,结果为多列或多行从实现方式分类内置函数自定义函数UDF:自定义标准函数UDAF:自定义聚合函数UDTF:自定义表生成函数二、Hive内置函数Hive提供大量内置函数供开发者使用标准函数字符函数类型转换函数数学函数

2020-09-22 19:02:26 344

原创 hive的排序以及窗口函数

一、数据排序1.order by:全局排序select * from student order by score desc;2.sort by :内部排序每个mapreduce内部进行排序,对全局结果集来说不是排序。1.设置reduce个数: set mapreduce.job =3;2.查看设置reduce个数:set mapreduce.job3.将查询结果导入到文件中(排序):insert overwrite local directory ' /路径' select * from

2020-09-19 15:30:17 999

原创 zeppelin的安装教程,超详细

一、简介它提供了一个非常友好的 WebUI 界面,操作相关指令。它可以用于做数据分析和可视化。其后面可以接入不同的数据处理引擎。包括 Flink,Spark,Hive 等。支持原生的 Scala,Shell,Markdown 等。Zeppelin是一个Apache的孵化项目.一个基于web的笔记本,支持交互式数据分析。你可以用SQL、Scala等做出数据驱动的、交互、协作的文档。(类似于ipython notebook,可以直接在浏览器中写代码、笔记并共享)可以看作一个多用途笔记本。可实现你所需要

2020-09-19 15:17:29 1419

原创 一图详解MapReduce的过程

2020-09-16 19:18:32 153 1

原创 hive的数据结构以及创建内、外部表

目录一、hive二、使用hive的工具三、hive的数据类型四、hive的元数据结构之内外部表一、hive.hive是基于Hadoop上的数据仓库,用于对收集的数据进行分析管理,可以把存储的数据进行结构化,利用hive来建表处理数据,这样我们可以用类似于sql的语句来查找筛选数据信息,相对于复杂冗余繁琐的mapreduce处理数据,hive更加简单,容易上手,但是hive绝不等同于SQL数据库二、使用hive的工具两种工具:Beeline 和 Hive命令行hiveserver和beeline(h

2020-09-16 19:07:40 886

原创 三分钟教会你认识hive以及安装hive,快进来学习点赞吧

一、hive1.发展史:07年8月 – 始于Facebook13年5月 – 0.11 Stinger Phase 1 ORC HiveServer213年10月 – 0.12.0 Stinger Phase 2 - ORC improvement14年4月 – Hive 0.13.0 as Stinger Phase 314年11月 – Hive 0.14.015年2月 – Hive 1.0.015年5月 – Hive 1.2.016年2月 – Hive 2.0.0 (添加 HPLSQL,

2020-09-15 20:19:00 315

原创 听说你在找一篇超详细的hbase安装攻略,进来看就对了

一、Hbase简介hbase是bigtable的开源山寨版本,它提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。HBase中的表一般有这样的特点:1 大:一个表可以有上亿行,上百万列

2020-09-15 19:29:32 158

原创 想学习Java apl实现hdfs的文件流程,看这一篇博客就够了!!!

一、HDFS读文件这里我们在用Java来实现的时候,需要用到maven工具,需要下载好一些安装包,才可以做到用Java来读取hdfs里的文件操作的代码如下:二、HDFS写文件这里不仅仅可以直接在代码里写出文件地址,还可以把它们看成是一个数组,下标分别为0和1,对应args中的0和1.通过这样子来指定,但是一定要apply 一下哦,同时代码改动如下:执行完成后,会自从出现我们创建的文件,打开即可看到我们的文件内容:三、上传文件利用Java来从本地上传到HDFS里的操作,代码操作如下

2020-09-11 17:30:50 216

原创 hdfs创建目录时出错:mkdir: java.net.UnknownHostException

今天我在使用集群的时候,发现了一个错误,无法创建文件。报错提示如下:mkdir: java.net.UnknownHostException:这个问题让我一直查询自己之前的配置文件,是否有错误,最后让我找到了原因:查看文档:hdfs-site.xml,我的配置文件出现了错误,原因是:<property> <name>dfs.client.failover.proxy.provider.ns</name> <value>org.apache

2020-09-09 19:43:40 4151

原创 学习搭建高可用集群,看这一篇超详细的博客就够了

目录一、高可用集群二、搭建步骤三、配置步骤四、补充:查看日志命令语句一、高可用集群根据功能划分为两大类:高可用和负载均衡;高可用:高可用集群即“HA集群”,也常称作“双机热备”,用于关键业务。通常为两台服务器,一台工作,另外一台作为冗余,当提供服务的机器宕机,冗余将接替继续提供服务,实现高可用的开源软件有:heartbeat、keepalived,核心原来都是通过心跳线连接两台服务器;二、搭建步骤搭建高可用集群前,需要确定的条件是:1.搭建好集群2.zookeeper和时区同步都已配置完成(

2020-09-08 16:18:43 748

原创 三分钟教会你如何用hadoop搭建集群、配置zookeeper(2),快来点赞吧

一、集群:集群(cluster)技术是一种较新的技术,通过集群技术,可以在付出较低成本的情况下获得在性能、可靠性、灵活性方面的相对较高的收益,其任务调度则是集群系统中的核心技术。如果一个事情是由多个人去完成,则有着和集群类似的地方。大家共同承担着压力,如果有的人临时请假,其他的可以分担他的任务,事情不会因此耽搁。并且当他忙完自己的事情依然会分给他新的任务,不会因此断了节奏。而集群就是在模拟的做这样的事情,事实上大部分的公司也都是用集群在向用户提供服务。掌握集群,这对于我们做任何事情都是非常有益的。二、

2020-09-08 15:32:48 583 1

原创 三分钟教会你如何用hadoop搭建集群、配置时区同步(1),快来点赞吧

一、前言前面的两篇博客已经教会了小伙伴们如何安装hadoop,以及克隆虚拟机,最后添加互信来实现免密登录,如果有遗忘的小伙伴们,请查看我之前的博客哦二、修改文件配置回到Hadoop文件修改文件配置内容 /hadoop修改内容如下:1.vi hdfs-site.xml <value>3<value> //将之前的1改为3vi slaves //添加互信的主机名三、传输文件把配置好的文件传输到克隆的主机上scp ./*xml root@hadoo

2020-09-08 15:06:46 363

原创 hadoop配置环境变量和如何使用Java操作HDFS

文章目录一、Hadoop深入认识二、配置环境变量三、使用Java操作HDFS四、在maba里使用Java的jar包读取一、Hadoop深入认识1.了解HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Hadoop是一个能够对大量数

2020-09-05 17:29:37 1080

原创 这是一篇超详细的教你如何安装hadoop的教程,赶快点赞吧

安装hadoop查看本机名更改,(建议是hadoop001)vi /etc/hostname(查看是否更改成功,如不是,可以在更改)创建一个放压缩包的文档解压hadoop压缩包tar -zxvf hadoop-2.6.0-cdh5.14.2.tar.gz -C/opt重新打开一个:一个用于软件解压,一个用于配置软件在opt目录下查看是否存在安装包,已存在的话,改名 mv hadoop… hadoopvi /etc/profile(配置环境变量):在CLASSPATH下配置(=后面都有$e

2020-09-03 20:18:25 432

原创 初认识hadoop

一、简介分布式由分布在不同主机上的进程(程序)协同子啊一起才能构成整个应用。Browser/web server:瘦客户端程序.大数据4V特征1.Volumn : 体量大2.Velocity : 速度快3.Variaty : 样式多4.Value : 价值密度低Hadoop可靠的、可伸缩的、分布式计算的开源软件.是一个框架、允许跨越计算机集群的大数据集处理,使用简单的编程模型(MapReduce)。可从单个服务器扩展到几千台主机,每个节点提供了计算和存储的功能。而不是依赖

2020-09-03 20:13:37 126

原创 关于logstash知识点非常全的一篇文章!

一、认识logstash具备实时数据传输能力的管道支持多种数据源输入支持多种过滤器支持多种数据输出目的地在ELK中作为日志收集器Logstash(日志收集)二、安装教程八、logstash实例1.输入:cd /opt/logstash622 进入logstash的安装目录2.输入:./bin/logstash -e ‘input { stdin{} } output { stdout{} }’ 来测试logstash是否正常工作3.输入:./bin/logstash

2020-09-02 14:22:40 206

原创 Elasticsearch的使用

一、文档1.文档是ES最小数据单元原始数据_source:原始JSON格式文档文档元数据_index:索引名_type:索引类型_id:文档编号2.post,put,get,delete的作用put 更新或创建数据get 得到数据delete 删除数据post 创建二、批量操作文档1.如何批量导入PUT _bulk“create”:{"_index":“stu”,"_type":“doc”,"_id":“1”}}2.如何批量查看GET stu/_mget{“docs”:

2020-09-02 14:14:14 170

原创 Elasticsearch初认识

一、认识ESElasticsearch(存储+检索+分析),简称ES基于Lucene的开源分布式搜索引擎,大幅降低了PB级海量数据存储、检索、分析门槛特点:(高可用,高扩展,是一种NOSQL的数据存储工具)1.分布式实时文件存储、检索、分析2.零配置、集群自动发现3.索引自动分片、副本机制4.RESTful风格接口5.多数据源6.自动搜索负载二、安装ES装件之前需要有的几个包如下:下载:elasticsearch-6.2.2.tar.gzelasticsearch-head-mas

2020-09-02 14:06:06 120

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除