2020年09月_Mr.梧桐

原创 sqoop的数据迁移知识总结（全）

目录一、导入到HDFS二、导入到Hive三、导入到Hbase四、从hdfs导出到mysql一、导入到HDFS1.WHERE语句过滤导入sqoop import --connect jdbc:mysql://localhost:3306/hive --mysql里的数据库名--table orders --数据库里的某个表--where “order_date > ‘2015-10-10’” --where条件查询--use

2020-09-29 19:18:47 754

原创这是一篇小白都在找的傻瓜式安装sqoop手册（超详细）

目录一、简介二、sqoop安装三、导入数据到hdfs一、简介Sqoop是什么Sqoop是一个用于在Hadoop和关系数据库之间传输数据的工具将数据从RDBMS导入到HDFSHDFS、Hive、HBase 从HDFS导出数据到RDBMS使用MapReduce导入和导出数据，提供并行操作和容错二、sqoop安装**安装前提：已经具备 Java 和 Hadoop、Hive、ZooKeeper、HBase 的环境。1.上传安装包 sqoop-1.4.6-cdh5.14.2.tar.gz 到虚

2020-09-26 16:03:14 201

原创 66666，phoenix的简介和安装，Hbase的进阶，看了这篇，我竟然都懂了

目录一、Phoenix二、hbase常用命令三、Region管理一、PhoenixPhoenix简介构建在HBase上的SQL层使用标准SQL在HBase中管理数据使用JDBC来创建表，插入数据、对HBase数据进行查询Phoenix JDBC Driver容易嵌入到支持JDBC的程序中安装教程下载链接链接网站将安装包依旧解压到Opt目录下，然后重命名打开phoenix下的Jia包所在的文件夹拷贝到Hbae下：cp phoenix-4.14.0-cdh5.14.2-server

2020-09-25 15:21:45 1396

原创 NOSQL综述和hbase基础语法

一、什么是NOSQLNoSQL：not only SQL，非关系型数据库NoSQL是一个通用术语指不遵循传统RDBMS模型的数据库数据是非关系的，且不使用SQL作为主要查询语言解决数据库的可伸缩性和可用性问题不针对原子性或一致性问题二、NOSQL的优缺点NoSQL和关系型数据库对比：NOsql的特点：最终一致性应用程序增加了维护一致性和处理事务等职责冗余数据存储但是NoSQL != 大数据！！！NoSQL基本概念：三大基石：CAP、BASE、最终一致性分类如下：

2020-09-24 16:26:58 284

原创 hive函数及其性能优化

目录一、函数的分类二、Hive内置函数三、UDF开发流程四、hive事务五、hive的优化设计六、压缩算法一、函数的分类从输入输出角度分类标准函数：一行数据中的一列或多列为输入，结果为单一值聚合函数：多行的零列到多列为输入，结果为单一值表生成函数：零个或多个输入，结果为多列或多行从实现方式分类内置函数自定义函数UDF：自定义标准函数UDAF：自定义聚合函数UDTF：自定义表生成函数二、Hive内置函数Hive提供大量内置函数供开发者使用标准函数字符函数类型转换函数数学函数

2020-09-22 19:02:26 344

原创 hive的排序以及窗口函数

一、数据排序1.order by:全局排序select * from student order by score desc;2.sort by :内部排序每个mapreduce内部进行排序，对全局结果集来说不是排序。1.设置reduce个数： set mapreduce.job =3;2.查看设置reduce个数：set mapreduce.job3.将查询结果导入到文件中（排序）：insert overwrite local directory ' /路径' select * from

2020-09-19 15:30:17 999

原创 zeppelin的安装教程，超详细

一、简介它提供了一个非常友好的 WebUI 界面，操作相关指令。它可以用于做数据分析和可视化。其后面可以接入不同的数据处理引擎。包括 Flink，Spark，Hive 等。支持原生的 Scala，Shell，Markdown 等。Zeppelin是一个Apache的孵化项目.一个基于web的笔记本，支持交互式数据分析。你可以用SQL、Scala等做出数据驱动的、交互、协作的文档。(类似于ipython notebook，可以直接在浏览器中写代码、笔记并共享)可以看作一个多用途笔记本。可实现你所需要

2020-09-19 15:17:29 1419

原创一图详解MapReduce的过程

2020-09-16 19:18:32 153 1

原创 hive的数据结构以及创建内、外部表

目录一、hive二、使用hive的工具三、hive的数据类型四、hive的元数据结构之内外部表一、hive.hive是基于Hadoop上的数据仓库，用于对收集的数据进行分析管理，可以把存储的数据进行结构化，利用hive来建表处理数据，这样我们可以用类似于sql的语句来查找筛选数据信息，相对于复杂冗余繁琐的mapreduce处理数据，hive更加简单，容易上手，但是hive绝不等同于SQL数据库二、使用hive的工具两种工具：Beeline 和 Hive命令行hiveserver和beeline（h

2020-09-16 19:07:40 886

原创三分钟教会你认识hive以及安装hive，快进来学习点赞吧

一、hive1.发展史：07年8月 – 始于Facebook13年5月 – 0.11 Stinger Phase 1 ORC HiveServer213年10月 – 0.12.0 Stinger Phase 2 - ORC improvement14年4月 – Hive 0.13.0 as Stinger Phase 314年11月 – Hive 0.14.015年2月 – Hive 1.0.015年5月 – Hive 1.2.016年2月 – Hive 2.0.0 (添加 HPLSQL,

2020-09-15 20:19:00 315

原创听说你在找一篇超详细的hbase安装攻略，进来看就对了

一、Hbase简介hbase是bigtable的开源山寨版本，它提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。HBase中的表一般有这样的特点：1 大：一个表可以有上亿行，上百万列

2020-09-15 19:29:32 158

原创想学习Java apl实现hdfs的文件流程，看这一篇博客就够了！！！

一、HDFS读文件这里我们在用Java来实现的时候，需要用到maven工具，需要下载好一些安装包，才可以做到用Java来读取hdfs里的文件操作的代码如下：二、HDFS写文件这里不仅仅可以直接在代码里写出文件地址，还可以把它们看成是一个数组，下标分别为0和1，对应args中的0和1.通过这样子来指定，但是一定要apply 一下哦，同时代码改动如下：执行完成后，会自从出现我们创建的文件，打开即可看到我们的文件内容：三、上传文件利用Java来从本地上传到HDFS里的操作，代码操作如下

2020-09-11 17:30:50 216

原创 hdfs创建目录时出错：mkdir: java.net.UnknownHostException

今天我在使用集群的时候，发现了一个错误，无法创建文件。报错提示如下：mkdir: java.net.UnknownHostException:这个问题让我一直查询自己之前的配置文件，是否有错误，最后让我找到了原因：查看文档：hdfs-site.xml，我的配置文件出现了错误，原因是：<property> <name>dfs.client.failover.proxy.provider.ns</name> <value>org.apache

2020-09-09 19:43:40 4151

原创学习搭建高可用集群，看这一篇超详细的博客就够了

目录一、高可用集群二、搭建步骤三、配置步骤四、补充：查看日志命令语句一、高可用集群根据功能划分为两大类：高可用和负载均衡；高可用：高可用集群即“HA集群”，也常称作“双机热备”，用于关键业务。通常为两台服务器，一台工作，另外一台作为冗余，当提供服务的机器宕机，冗余将接替继续提供服务，实现高可用的开源软件有：heartbeat、keepalived，核心原来都是通过心跳线连接两台服务器；二、搭建步骤搭建高可用集群前，需要确定的条件是：1.搭建好集群2.zookeeper和时区同步都已配置完成（

2020-09-08 16:18:43 748

原创三分钟教会你如何用hadoop搭建集群、配置zookeeper（2），快来点赞吧

一、集群：集群（cluster）技术是一种较新的技术，通过集群技术，可以在付出较低成本的情况下获得在性能、可靠性、灵活性方面的相对较高的收益，其任务调度则是集群系统中的核心技术。如果一个事情是由多个人去完成，则有着和集群类似的地方。大家共同承担着压力，如果有的人临时请假，其他的可以分担他的任务，事情不会因此耽搁。并且当他忙完自己的事情依然会分给他新的任务，不会因此断了节奏。而集群就是在模拟的做这样的事情，事实上大部分的公司也都是用集群在向用户提供服务。掌握集群，这对于我们做任何事情都是非常有益的。二、

2020-09-08 15:32:48 583 1

weixin_49165958的博客

原创 sqoop的数据迁移知识总结（全）

原创这是一篇小白都在找的傻瓜式安装sqoop手册（超详细）

原创 66666，phoenix的简介和安装，Hbase的进阶，看了这篇，我竟然都懂了

原创 NOSQL综述和hbase基础语法

原创 hive函数及其性能优化

原创 hive的排序以及窗口函数

原创 zeppelin的安装教程，超详细

原创一图详解MapReduce的过程

原创 hive的数据结构以及创建内、外部表

原创三分钟教会你认识hive以及安装hive，快进来学习点赞吧

原创听说你在找一篇超详细的hbase安装攻略，进来看就对了

原创想学习Java apl实现hdfs的文件流程，看这一篇博客就够了！！！

原创 hdfs创建目录时出错：mkdir: java.net.UnknownHostException

原创学习搭建高可用集群，看这一篇超详细的博客就够了

原创三分钟教会你如何用hadoop搭建集群、配置zookeeper（2），快来点赞吧

原创三分钟教会你如何用hadoop搭建集群、配置时区同步（1），快来点赞吧

原创 hadoop配置环境变量和如何使用Java操作HDFS

原创这是一篇超详细的教你如何安装hadoop的教程，赶快点赞吧

原创初认识hadoop

原创关于logstash知识点非常全的一篇文章！

原创 Elasticsearch的使用

原创 Elasticsearch初认识

空空如也

空空如也