自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 SparkSQL简介及使用

SparkSQL简介及使用1 简介1.1 什么是 Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。1.2 Spark SQL 的特点1.内存列存储–可以大大优化内存的使用率,减少内存消耗,避免GC对大量数据性能的开销2.字节码生成技术–可以使用动态的字节码技术优化性能3.Scala代码的优化4.易整合5.统一的数据访问方式6.兼容hive7.提供了统一的数据连

2020-05-26 19:10:13 4059

原创 Spark基本操作WordCountDemo编写 打包 提交 运行

Spark操作之Demo编写及提交任务1 运行spark自带测试程序包计算pi值yarn模式提交任务(CDH采用此方式)bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode client \/opt/cloudera/parcels/CDH/lib/spark/examples/jars/spark-examples_2.11-2.2.0-cdh6.0.1.jar \

2020-05-25 16:07:26 293

原创 Shell编程常见面试题(待续)

Shell编程常见面试题(待续)1、使用Linux命令查询file中空行所在的行号awk '/^$/{print NR}' file.txt2、有文件cj.txt内容如下,使用Linux命令计算第二列的和并输出张三 70李四 80王五 90cat cj.txt | awk -F " " '{sum+=$2}END{print "sum="sum}'[root@sandbox-hd...

2020-05-05 21:59:52 1075

原创 数仓理论简述

数仓理论简述1 表的分类1.1 实体表实体表,一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等等。1.2 维度表维度表,一般是指对应一些业务状态,编号的解释表。也可以称之为码表。比如地区表,订单状态,支付方式,审批状态,商品分类等等。1.3 事务型事实表事务型事实表,一般指随着业务发生不断产生的数据。特点是一旦发生不会再变化。一般比如,交易流水,操作日志,出库入库记录等...

2020-05-05 13:48:42 1116 2

原创 Hive(一)简介及基本操作

Hive(一)简介及基本操作一、简介​ Hive是一个构建在hadoop之上的数据仓库,可将结构化的数据文件映射成表,并提供类SQL查询功能,用于查询的SQL语句会被转化为MapReduce作业,然后提交到Hadoop上运行。数据类型基本数据类型:TINYINT SMALINT INT BIGINT BOOLEAN FLOAT DOUBLE STRING TIMESTAMP BINARY...

2020-05-04 15:03:39 229

原创 大数据中遇到的问题简述(待续)

大数据中遇到的问题简述(待续)1、数据量大怎么分析?分析后怎么做传输?怎么做到实时?数据量大可在hadoop平台分析。分析的结果数据可用sqoop迁移数据工具导出。常用实时处理框架有sparkStreaming、storm、flink等。2、数据来源?python爬虫爬取网页。单机多线程、分布式多线程。定期导入到离线系统。3、如何分析数据?数据量小,一个复杂的sql即可搞定,web服务...

2020-05-02 11:46:20 446

原创 HBase(二)常用操作之namespace操作

HBase(二)常用操作之namespace1 介绍​ 在HBase中,namespace命名空间指对一组表的逻辑分组,类似RDBMS中的database,方便对表在业务上进行划分。HBase全局管理员可以创建、修改和回收namespace的授权。​ namespace特性是对表资源进行隔离的一种技术,隔离技术决定了HBase能否实现资源统一化管理的关键,提高了整体的安全性。2 命名空间n...

2020-05-02 11:27:32 1855

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除