自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 SparkSQL简介及使用

SparkSQL简介及使用 1 简介 1.1 什么是 Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。 1.2 Spark SQL 的特点 1.内存列存储–可以大大优化...

2020-05-26 19:10:13 26 0

原创 Spark基本操作WordCountDemo编写 打包 提交 运行

Spark操作之Demo编写及提交任务 1 运行spark自带测试程序包 计算pi值 yarn模式提交任务(CDH采用此方式) bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn \ --depl...

2020-05-25 16:07:26 25 0

原创 Shell编程常见面试题(待续)

Shell编程常见面试题(待续) 1、使用Linux命令查询file中空行所在的行号 awk '/^$/{print NR}' file.txt 2、有文件cj.txt内容如下,使用Linux命令计算第二列的和并输出 张三 70 李四 80 王五 90 cat cj.txt |...

2020-05-05 21:59:52 515 0

原创 数仓理论简述

数仓理论简述 1 表的分类 1.1 实体表 实体表,一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等等。 1.2 维度表 维度表,一般是指对应一些业务状态,编号的解释表。也可以称之为码表。比如地区表,订单状态,支付方式,审批状态,商品分类等等。 1.3 事务型事实表 事务型事实表,一...

2020-05-05 13:48:42 140 2

原创 Hive(一)简介及基本操作

Hive(一)简介及基本操作 一、简介 ​ Hive是一个构建在hadoop之上的数据仓库,可将结构化的数据文件映射成表,并提供类SQL查询功能,用于查询的SQL语句会被转化为MapReduce作业,然后提交到Hadoop上运行。 数据类型 基本数据类型:TINYINT SMALINT INT ...

2020-05-04 15:03:39 63 0

原创 大数据中遇到的问题简述(待续)

大数据中遇到的问题简述(待续) 1、数据量大怎么分析?分析后怎么做传输?怎么做到实时? 数据量大可在hadoop平台分析。分析的结果数据可用sqoop迁移数据工具导出。常用实时处理框架有sparkStreaming、storm、flink等。 2、数据来源? python爬虫爬取网页。单机多线程、...

2020-05-02 11:46:20 54 0

原创 HBase(二)常用操作之namespace操作

HBase(二)常用操作之namespace 1 介绍 ​ 在HBase中,namespace命名空间指对一组表的逻辑分组,类似RDBMS中的database,方便对表在业务上进行划分。HBase全局管理员可以创建、修改和回收namespace的授权。 ​ namespace特性是对表资源进行隔离...

2020-05-02 11:27:32 56 0

原创 Hbase(一)简介及基本操作

Hbase(一)简介及基本操作 1 简介 1.1 什么是Hbase ​ HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储。 ​ HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBA...

2020-04-26 17:30:01 39 0

原创 大数据常见英文词汇(三)之常见框架和组件(待续)

大数据常见英文词汇(三)之常见框架和工具(待续) Hadoop(分布式系统基础架构) HDFS(Hadoop分布式文件系统) Mapreduce(分布式计算框架) HBASE(分布式列存数据库) Zookeeper(分布式协作服务) HIVE(数据仓库) Pig(ad-...

2020-04-25 20:08:43 69 0

原创 大数据常见英文词汇(二)(待续)

大数据常见英文词汇(二)(续) 以下单词是本人在学习大数据过程中遇到的生疏单词词汇。单词均在百度翻译中得到的释义,可能有失偏颇,望读者指正! 原文 译文 ACK 确认、命令正确应答 Advanced Message Queuing Protocol 高级消息队列协议 Agi...

2020-04-25 19:37:52 34 0

原创 Spark基本概念的高频面试题

Spark基本概念的高频面试题 1 spark的两大基本算子是什么,有什么区别? 1、transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 transformation操作是延迟计算的,也就是说从一个RDD转换生成另一个RDD的转换操作并不是马上执行,需要...

2020-04-25 11:27:02 56 0

原创 Redis(三)Redis与Spark的集成

Redis与Spark的集成(读写) RDD——read redis from spark spark-shell --jars spark-redis-0.3.2.jar,jedis-2.7.2.jar,commons-pool2-2.0.jar //stop existing SparkCon...

2020-04-23 21:21:44 50 0

原创 Redis(二)简介及基本操作

Redis(二)简介及基本操作 一、简介 Redis 是开源免费的,是一个高性能的key-value数据库。 Redis 与其他 key-value 缓存产品有以下三个特点: Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用。 Redis不仅仅支持简单的...

2020-04-23 21:18:35 49 0

原创 Redis(一)安装详细步骤(linux中wget下载安装4.0.9版本)

Redis(一)安装 Redis 4.09 安装 # 新建文件夹,放安装文件 mkdir -p ~/redis # 下载并解压安装包 wget http://download.redis.io/releases/redis-4.0.9.tar.gz tar xzf redis-4.0.9.t...

2020-04-21 20:21:50 32 0

原创 Tableau简介及Tableau安装

Tableau简介及Tableau安装 一、什么是Tableau? ​ Tableau是一款数据可视化工具,致力于帮助人们查看并理解自己的数据。 ​ 不同于传统BI软件,Tableau是一款“轻”BI工具;可以使用Tableau的拖放界面可视化任何数据,探索不同的视图,甚至可以轻松的将多个数据库组...

2020-04-20 22:09:30 84 0

原创 数据库之OLAP和OLTP简介

数据库之OLAP和OLTP简介 1 数据处理分类 数据库数据处理可以分成两大类: 联机事务处理 OLTP(On-Line Transaction Processing) 联机分析处理 OLAP(On-Line Analytical Processing) 2 数据处理目标 ​ 业务类系统主要供...

2020-04-19 20:43:15 89 0

原创 大数据常见英文词汇(待更新)

大数据常见英文词汇(待更新) words(单词) resilient 有弹性的 parallelize 并行化 procedure 过程 process 进程、处理 program 程序 schedule 日程安排 scheduler 调度程序 schema 架构 segment 段 o...

2020-04-18 17:25:03 1369 0

原创 MongoDB安装及添加用户并授权

MongoDB安装及添加用户并授权 一、MongoDB安装 1、配置yum源 vi /etc/yum.repos.d/mongodb.repo [MongoDB] name=MongoDB Repository baseurl=http://repo.mongodb.org/yum/redhat/...

2020-04-17 17:33:20 667 0

原创 Linux虚拟机中yum安装python2.7(配合Cassandra使用)

Linux虚拟机中yum安装python2.7(配合Cassandra使用) 1 下载 ius-release.rpm包 wget https://centos6.iuscommunity.org/ius-release.rpm 2 安装ius-release.rpm包 rpm -Uvh ius-...

2020-04-17 11:41:49 65 0

原创 Cassandra简介及基本操作

Cassandra简介及基本操作 一、简介 ​ Apache Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身。Facebook于200...

2020-04-15 14:07:27 94 0

原创 Linux(二)常用命令chmod nohup sed等

Linux(二)常用命令chmod/nohup/sed等 1 chmod命令 ​ Linux常用命令chmod:修改文件权限 777和754 ​ Linux系统中,每个用户的角色和权限划分得很细致、严格,每个文件、目录都设有访问许可权限,利用这种机制来决定某个用户通过某种方式对文件、目录进行读、写...

2020-04-12 13:46:39 125 0

原创 Hadoop之HDFS常用Shell指令

Hadoop之HDFS常用Shell指令 1、查看帮助 hdfs dfs 2、启动/停止hdfs服务 start-dfs.sh stop-dfs.sh 3、新建目录 创建目录 hdfs dfs -mkdir user 递归创建目录 hdfs dfs -mkdir -p /user/root 4、查...

2020-04-11 15:39:39 56 0

原创 Hive之metastore服务启动错误解决方案org.apache.thrift.transport.TTransportException: Could not create ServerSock

Hive之metastore服务启动错误解决方案——org.apache.thrift.transport.TTransportException: Could not create ServerSocket on address 0.0.0.0/0.0.0.0:9083. 1、错误 org.ap...

2020-04-11 14:17:46 61 0

原创 Hadoop高可用平台启动(HDFS+Zookeeper+Yarn)相关操作及Hbase\MySQL\Hive启动

Hadoop高可用平台启动相关操作 Hadoop高可用平台启动HDFS+Zookeeper+Yarn及MySQL+Hbase+Hive启动相关操作 一、Hadoop高可用平台启动顺序 1 启动Zookeeper集群 在hadoop2、hadoop3、hadoop4上执行 zkServer.sh s...

2020-04-11 14:08:17 46 0

原创 Cassandra(一)之linux中的下载和安装

Cassandra(一)之linux中的下载和安装 1、新建cassandra.repo文件 touch /etc/yum.repos.d/cassandra.repo 2、配置cassandra.repo vi /etc/yum.repos.d/cassandra.repo [cassandra...

2020-04-10 17:40:24 38 0

原创 NiFi简介和基本操作(含通过NiFi上传文件到HDFS案例)

NiFi简介和基本操作(含通过NiFi上传文件到HDFS案例) 一、简介 ​ NiFi是一个易用、强大、可靠的数据处理与分发系统。基于Web图形界面,通过拖曳、连接、配置完成基于流程的编程,实现数据采集等功能。 ​ 传统的数据解决方案通常会遇到以下挑战:网络错误、硬盘错误、软件崩溃、人为错误、数据...

2020-04-08 20:23:46 147 0

原创 正则表达式常用符号(* + ? . ^ $ \ |等)

正则表达式常用符号(* + ? . ^ $ \ |等) 练习: 1、[0-9A-Za-z_] 可以匹配一个数字、字母或者下划线。 2、[0-9A-Za-z_]+ 可以匹配至少由一个数字、字母或者下划线组成的字符串,如‘1_2’、‘a2b’等。 3、[a-zA-Z_][0-9a-zA-Z_]* 可...

2020-04-08 16:26:01 53 0

原创 Python之数据处理案例

Python之数据处理案例 1 准备数据 2 要求 (1)将数据表添加两列:每位同学的各科成绩总分(score)和每位同学的整体情况(类别),类别按照[df.score.min()-1,400,450,df.score.max()+1]分为“一般” “较好” “优秀”三种情况。 (2)由于“军...

2020-04-06 20:26:53 408 0

原创 Shell(一)简介及编写一个shell脚本

Shell(一)简介及编写一个shell脚本 1 Shell简介 ​ Shell是一个用C语言编写的程序,它是用户使用Linux的桥梁。Shell既是一种命令语言,又是一种程序设计语言。Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。Ken Tho...

2020-04-06 11:38:30 124 0

原创 Linux (一) 常用命令全拼

Linux (一) 常用命令全拼 1 常用命令 pwd: print work directory 打印当前目录 显示出当前工作目录的绝对路径 ps: process status(进程状态,类似于windows的任务管理器) 常用参数:-auxf ps -auxf 显示进程状态 df...

2020-04-06 11:23:09 33 0

原创 MongoDB与SQL语句对比

MongoDB与SQL语句对比 1 表操作 创建表 create table user( id int not null auto_increment, user_id varchar(30), age number, status char(1), primary key(id) )...

2020-04-03 16:09:06 33 0

原创 MongoDB(四)之Spark读写mongodb数据

MongoDB(四)之Spark读写mongodb数据 说明:users表数据同MongoDB(二)中users表 1 进入spark交互界面并加载jar包(需联网) spark-shell --packages org.mongodb.spark:mongo-spark-connector_2....

2020-04-03 15:13:14 59 0

原创 MongoDB(三)之hive读mongodb数据

MongoDB(三)之hive读mongodb数据 说明:users表数据同MongoDB(二)中users表 1 准备jar包 mongo-hadoop-core-2.0.2.jar; mongo-hadoop-hive-2.0.2.jar; mongo-java-driver-3.9.1.ja...

2020-04-03 15:00:05 54 0

原创 MongoDB(二)常用操作之CRUD及小案例(进阶篇)

MongoDB(二)常用操作之CRUD及小案例 1 Insert(增) db.collection.insertOne() db.collection.insertMany() 新增单条数据(注:在插入文档前,文档所属的集合不必先创建,程序会自动创建) db.user.insertOne({ ...

2020-03-31 22:36:49 40 0

原创 MongoDB(一)简介及基础操作(入门篇)

MongoDB(一)简介及基础操作(入门篇) 1 数据类型 1.1 BSON ​ 文档 (Documents) 是 MongoDB 中数据的基本单元,它是键值对的有序集合,在数据结构上类似于 JSON,但是由于 JSON 只支持基本的 6 种数据类型:null,布尔,数字,字符串,数组和对象,因此...

2020-03-31 21:47:53 52 0

原创 java之集合(List Set Map等)特点简述

Java之常用集合特点简述 1 Collection 单列集合 1.1 List (有序可重复) ArrayList:底层数组,查询快、增删慢,线程不安全,效率高,有索引,可重复 Vector :是老版本的 ArrayList ,唯一区别就是Vector是线程安全的 LinkedList:底层链...

2020-03-29 12:39:42 47 0

原创 Oozie(二)之实现hive表导出到hdfs

Oozie(二)之实现hive表导出到hdfs 一、Oozie简介 ​ Oozie是Apache公司的顶级项目。 ​ Oozie是大数据四大协作框架之一——任务调度框架,其他三个分别为数据转换工具Sqoop,文件收集库框架Flume,大数据WEB工具Hue。 ​ 它能提供对Hadoop MapRe...

2020-03-28 13:24:01 62 0

原创 kafka系列一之常用shell命令

kafka系列一之常用shell命令 ​ Kafka支持的基本命令位于kafka安装目录的bin目录下。 1、启动Kakfa ​ Kafka 的运行依赖于 zookeeper,要先启动 zookeeper,可以启动 Kafka 内置的 zookeeper,也可以启动自己安装的zookeeper #...

2020-03-26 16:51:51 55 0

原创 SparkStreaming之WordCount案例(累计统计)(二)

SparkStreaming之WordCount案例(累计统计)(二) 一、案例简介 使用 netcat 工具向 9999 端口不断的发送数据,通过 SparkStreaming 读取端口数据并累计统计不同单词出现的次数 。 二、netcat操作 1、虚拟机中安装netcat [root@hado...

2020-03-24 15:45:54 55 0

原创 Oozie(一)之基本概念及实现hbase表数据写入hive案例

Oozie之基本概念及实现hbase表数据写入hive 一、Oozie简介 ​ Oozie是Apache公司的顶级项目。 ​ Oozie是大数据四大协作框架之一——任务调度框架,其他三个分别为数据转换工具Sqoop,文件收集库框架Flume,大数据WEB工具Hue。 ​ 它能提供对Hadoop M...

2020-03-19 20:50:17 81 0

提示
确定要删除当前文章?
取消 删除