自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (18)
  • 收藏
  • 关注

原创 SparkSession和sparkSQL

一、概述spark 有三大引擎,spark core、sparkSQL、sparkStreaming,spark core 的关键抽象是 SparkContext、RDD;SparkSQL 的关键抽象是 SparkSession、DataFrame;sparkStreaming 的关键抽象是 StreamingContext、DStreamSparkSession是 spark2.0 引入的概念,主要用在 sparkSQL 中,当然也可以用在其他场合,他可以代替 SparkContex.

2021-02-25 11:21:23 2279

原创 理解SparkSession

SparkSession是DataSet和DataFrame编写Spark程序的入口SparkSession的功能:创建DataFrame 以关系型数据库中表的形式生成DataFrame,之后便可以执行SQL语句,适合小数据量的操作 读取.parquet格式的文件,得到DataFrame创建SparkSession对象:>>> spark = SparkSession.builder \ .master("local") \ ...

2021-02-25 11:12:54 2058

原创 理解 Spark DataFrame

DataFrame它不是spark sql提出来的,而是早期在R、Pandas语言就已经有了的DataSet: A DataSet is a distributed collection of data. (分布式的数据集)DataFrame:A DataFrame is a DataSet organized into named columns.以列(列名,列类型,列值)的形式构成的分布式的数据集,按照列赋予不同的名称studentid:intname:stringcity:st.

2021-02-25 10:41:26 407

原创 Spark DataFrame

目录Spark创建DataFrame的不同方式1. Create Spark DataFrame from RDD2. 从List和Seq集合中创建Spark DataFrame3. 从CSV文件创建Spark DataFrame4. 从text文件创建5. 从JSON文件创建6. 从XML文件创建9. 从HBase创建DataFrameSpark创建DataFrame的不同方式本文介绍了使用Scala示例在Spark中创建DataFrame(createDat.

2021-02-25 10:32:23 736

原创 Spark数据分析之pyspark

一、大数据简史,从hadoop到Spark1.hadoop的出现:(1)问题:1990年,电商爆发以及机器产生了大量数据,单一的系统无法承担(2)办法:为了解决(1)的问题许多公司,尤其是大公司领导了普通硬件集群的水平扩展(3)执行:hadoop应运而生2.spark的出现:(1)hadoop面临问题: - 硬件瓶颈:多年来,内存技术突飞猛进,而硬盘技术没有太大的变化。hadoop主要运用的是硬盘,没有利用好内存技术。 - 编程困难,hadoop的MapReduce编

2021-02-25 10:02:26 601

原创 Hive开发造成数据倾斜案例

1.Hive数据倾斜优化分为哪两类?2.Hive开发中,为何会出现倾斜?3.Hive倾斜本文有哪些解决方案?实际搞过离线数据处理的同学都知道,Hive SQL 的各种优化方法都是和数据倾斜密切相关的,所以我会先来聊一聊 “「数据倾斜」” 的基本概念,然后再在此基础上为大家介绍各种场景下的 Hive 优化方案。Hive 的优化分为 「join 相关的优化」 和 「join 无关的优化」 。从项目实际来说, join 相关的优化其实占据了 Hive 优化的大部分内容,而 join 相关的优化又分为 mapjoi

2021-02-25 09:55:41 451

原创 运用Prometheus监控Flink

1.为什么选择Prometheus?2.使用自动发现的配置方式有什么优点?3.如何提交作业?为什么选择Prometheus?随着深入地了解Prometheus,你会发现一些非常好的功能:服务发现使配置更加容易。Prometheus支持consul,etcd,kubernetes以及各家公有云厂商自动发现。对于监控目标动态发现,这点特别契合Cloud时代,应用动态扩缩的特点。我们无法想象,在Cloud时代,需要运维不断更改配置。 开源社区建立了数百个exporter。基本上涵盖了所有基础设施.

2021-02-25 09:31:09 907

Flume 抽取MYSQL Oracle数据 JSON格式 推送Kafka

Flume二次开发,支持抽取MYSQL Oracle数据库数据 以JSON格式推送至Kafka。 demo: sql_json.sources.sql_source.type = com.hbn.rdb.source.SQLSource sql_json.sources.sql_source.connectionurl = jdbc:oracle:thin:@IP:PORT/orcl sql_json.sources.sql_source.driverclass= oracle.jdbc.driver.OracleDriver sql_json.sources.sql_source.filename = sqlSource.status sql_json.sources.sql_source.customquery = SELECT INTID,ID_NO FROM TEST.TEST sql_json.sources.sql_source.begin = 0 sql_json.sources.sql_source.autoincrementfield = INTID

2022-05-28

lxml_liunx_python2.7.zip

lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高 XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言,它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索 XPath的选择功能十分强大,它提供了非常简明的路径选择表达式,另外,它还提供了超过100个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理等,几乎所有我们想要定位的节点,都可以用XPath来选择.直接下载,然后放入Linux-python文件夹即可。

2021-03-11

flume-ng-elasticsearch-sink-1.8.0.jar

在Flume中的ElasticSearchSink支持Flume与Elasticsearch整合,可以将Flume采集的数据传输到Elasticsearch中,Flume版本:1.8.0,ElasticSearchSink版本:6.2.4

2020-09-18

kettle资源库表详细说明文档.xls

资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中。 资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称。

2020-04-30

kettle资源库数据字典.xls

Kettle资源库数据字典明细:R_DATABASE:数据库连接信息 R_DIRECTORY:kettle程序目录 R_JOB:作业 R_JOB_ATTRIBUTE:作业属性 R_JOB_HOP:作业跳 R_JOB_NOTE:作业注解 R_JOBENTRY:作业项 R_JOBENTRY_ATTRIBUTE:作业项属性 R_JOBENTRY_COPY:拷贝的作业项

2020-04-30

2020年中国行政区划四级街道镇标准GB-T2260(EXCEL版本).xlsx

《中国行政区划代码》国家标准(GB/T2260)是行政区划代码,也称行政代码。 行政区划代码是国家行政机关的识别符号,由9位阿拉伯数字组成,相当于机关单位的身份号码。 按照国务院《行政区划管理条例》规定,行政区划代码由民政部门确定、发布。2020年最新发布行政区划四级街道/镇/乡。

2020-04-23

pentaho-hadoop-shims-cdh513-package-8.3.2019.05.00-371-dist.zip

大数据ETL开源软件Kettle连接Hadoop时使用到得Shims 配置Pentaho组件Shims Shims是Pentaho提供的一系列连接各个source的适配器,具体配置位置根据Pentaho的组件来决定,现在的PDI Spoon的配置位置在../data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations 下,注意这个地方要配置好对应数据源的shims

2020-03-20

pentaho-hadoop-shims-cdh57-package-70.2016.10.00-25-dist.zip

大数据ETL开源软件Kettle连接Hadoop时使用到得Shims 配置Pentaho组件Shims Shims是Pentaho提供的一系列连接各个source的适配器,具体配置位置根据Pentaho的组件来决定,现在的PDI Spoon的配置位置在../data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations 下,注意这个地方要配置好对应数据源的shims

2020-03-20

pentaho-hadoop-shims-cdh514-package-8.3.2019.05.00-371-dist.zip

大数据ETL开源软件Kettle连接Hadoop时使用到得Shims 配置Pentaho组件Shims Shims是Pentaho提供的一系列连接各个source的适配器,具体配置位置根据Pentaho的组件来决定,现在的PDI Spoon的配置位置在../data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations 下,注意这个地方要配置好对应数据源的shims

2020-03-19

pentaho-hadoop-shims-cdh58-package-70.2016.10.00-25-dist.zip

大数据ETL开源软件Kettle连接Hadoop时使用到得Shims 配置Pentaho组件Shims Shims是Pentaho提供的一系列连接各个source的适配器,具体配置位置根据Pentaho的组件来决定,现在的PDI Spoon的配置位置在../data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations 下,注意这个地方要配置好对应数据源的shims

2020-03-19

Araxis Merge v6.5 NSIS文本对比.rar

Araxis Merge 是一款专业的可视化文件比较以及合并和同步的软件,同时也是该软件目前最新的版本,新版带来了全新的功能以及优化,包括合并使您能够比较和处理不同版本的文本文件,如程序源代码,XML和HTML文件。合并可以从Microsoft Office,OpenDocument,PDF和RTF文件中提取和比较文本。XML文件可以以特殊格式显示,帮助您更清楚地看到更改。它支持ASCII,MBCS和Unicode字符编码的文件。

2019-12-19

xdown-1.0.1.4.zip

Xdown是一款超级强大的开源免费无广告的Torrent/磁力链/百度云下载神器。Xdown不光如此还支持BT,免费的IDM+torrent 可以多线程128并发的下载工具.

2019-12-11

z501_touchpad_win7.rar

TOUCHPAD采用多指触控技术,突破性实现了多个手指触摸行为的组合行为识别。通过不同自定义手势,可以轻松完成开启、翻页、伸缩等多种强大功能,实现了用简单的手指触摸行为完成复杂的人机交互。 下载安装即可,非常方便

2019-12-11

influxdb_demo.zip

InfluxDB(时序数据库),常用的一种使用场景:监控数据统计。每毫秒记录一下电脑内存的使用情况,然后就可以根据统计的数据,利用图形化界面(InfluxDB V1一般配合Grafana)制作内存使用情况的折线图; 可以理解为按时间记录一些数据(常用的监控数据、埋点统计数据等),然后制作图表做统计;

2019-11-22

KeyFreeze键盘鼠标上锁工具

KeyFreeze键盘鼠标上锁工具,直接解压,并运行KeyFreeze.exe,点击右键设置;锁住键盘和鼠标,解锁Ctrl+F

2019-11-15

GitHub Windows版本 客户端

GitHub Windows版本 客户端直接解压,安装即可使用,直接登录GitHub,方便提交代码以及维护代码

2019-11-15

raidrive-1-8-0版本网盘映射到本地磁盘工具

RaiDrive是能够将一些网盘映射为本地网络磁盘的工具,RaiDrive可以方便的将网盘映射为本机的网络磁盘,而在支持的网盘有Google Drive, Google Shared drives,Google Photos, OneDrive, SharePoint,Dropbox, Box, pCloud, Yandex Disk,WebDAV, SFTP, FTP

2019-11-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除