- 博客(7)
- 资源 (18)
- 收藏
- 关注
原创 SparkSession和sparkSQL
一、概述spark 有三大引擎,spark core、sparkSQL、sparkStreaming,spark core 的关键抽象是 SparkContext、RDD;SparkSQL 的关键抽象是 SparkSession、DataFrame;sparkStreaming 的关键抽象是 StreamingContext、DStreamSparkSession是 spark2.0 引入的概念,主要用在 sparkSQL 中,当然也可以用在其他场合,他可以代替 SparkContex.
2021-02-25 11:21:23 2279
原创 理解SparkSession
SparkSession是DataSet和DataFrame编写Spark程序的入口SparkSession的功能:创建DataFrame 以关系型数据库中表的形式生成DataFrame,之后便可以执行SQL语句,适合小数据量的操作 读取.parquet格式的文件,得到DataFrame创建SparkSession对象:>>> spark = SparkSession.builder \ .master("local") \ ...
2021-02-25 11:12:54 2058
原创 理解 Spark DataFrame
DataFrame它不是spark sql提出来的,而是早期在R、Pandas语言就已经有了的DataSet: A DataSet is a distributed collection of data. (分布式的数据集)DataFrame:A DataFrame is a DataSet organized into named columns.以列(列名,列类型,列值)的形式构成的分布式的数据集,按照列赋予不同的名称studentid:intname:stringcity:st.
2021-02-25 10:41:26 407
原创 Spark DataFrame
目录Spark创建DataFrame的不同方式1. Create Spark DataFrame from RDD2. 从List和Seq集合中创建Spark DataFrame3. 从CSV文件创建Spark DataFrame4. 从text文件创建5. 从JSON文件创建6. 从XML文件创建9. 从HBase创建DataFrameSpark创建DataFrame的不同方式本文介绍了使用Scala示例在Spark中创建DataFrame(createDat.
2021-02-25 10:32:23 736
原创 Spark数据分析之pyspark
一、大数据简史,从hadoop到Spark1.hadoop的出现:(1)问题:1990年,电商爆发以及机器产生了大量数据,单一的系统无法承担(2)办法:为了解决(1)的问题许多公司,尤其是大公司领导了普通硬件集群的水平扩展(3)执行:hadoop应运而生2.spark的出现:(1)hadoop面临问题: - 硬件瓶颈:多年来,内存技术突飞猛进,而硬盘技术没有太大的变化。hadoop主要运用的是硬盘,没有利用好内存技术。 - 编程困难,hadoop的MapReduce编
2021-02-25 10:02:26 601
原创 Hive开发造成数据倾斜案例
1.Hive数据倾斜优化分为哪两类?2.Hive开发中,为何会出现倾斜?3.Hive倾斜本文有哪些解决方案?实际搞过离线数据处理的同学都知道,Hive SQL 的各种优化方法都是和数据倾斜密切相关的,所以我会先来聊一聊 “「数据倾斜」” 的基本概念,然后再在此基础上为大家介绍各种场景下的 Hive 优化方案。Hive 的优化分为 「join 相关的优化」 和 「join 无关的优化」 。从项目实际来说, join 相关的优化其实占据了 Hive 优化的大部分内容,而 join 相关的优化又分为 mapjoi
2021-02-25 09:55:41 451
原创 运用Prometheus监控Flink
1.为什么选择Prometheus?2.使用自动发现的配置方式有什么优点?3.如何提交作业?为什么选择Prometheus?随着深入地了解Prometheus,你会发现一些非常好的功能:服务发现使配置更加容易。Prometheus支持consul,etcd,kubernetes以及各家公有云厂商自动发现。对于监控目标动态发现,这点特别契合Cloud时代,应用动态扩缩的特点。我们无法想象,在Cloud时代,需要运维不断更改配置。 开源社区建立了数百个exporter。基本上涵盖了所有基础设施.
2021-02-25 09:31:09 907
Flume 抽取MYSQL Oracle数据 JSON格式 推送Kafka
2022-05-28
lxml_liunx_python2.7.zip
2021-03-11
flume-ng-elasticsearch-sink-1.8.0.jar
2020-09-18
kettle资源库表详细说明文档.xls
2020-04-30
kettle资源库数据字典.xls
2020-04-30
2020年中国行政区划四级街道镇标准GB-T2260(EXCEL版本).xlsx
2020-04-23
pentaho-hadoop-shims-cdh513-package-8.3.2019.05.00-371-dist.zip
2020-03-20
pentaho-hadoop-shims-cdh57-package-70.2016.10.00-25-dist.zip
2020-03-20
pentaho-hadoop-shims-cdh514-package-8.3.2019.05.00-371-dist.zip
2020-03-19
pentaho-hadoop-shims-cdh58-package-70.2016.10.00-25-dist.zip
2020-03-19
Araxis Merge v6.5 NSIS文本对比.rar
2019-12-19
xdown-1.0.1.4.zip
2019-12-11
z501_touchpad_win7.rar
2019-12-11
influxdb_demo.zip
2019-11-22
raidrive-1-8-0版本网盘映射到本地磁盘工具
2019-11-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人