2021年02月_000X000

12月 11月 08月 07月 06月 05月 04月 03月 02月

原创 SparkSession和sparkSQL

一、概述spark 有三大引擎，spark core、sparkSQL、sparkStreaming，spark core 的关键抽象是 SparkContext、RDD；SparkSQL 的关键抽象是 SparkSession、DataFrame；sparkStreaming 的关键抽象是 StreamingContext、DStreamSparkSession是 spark2.0 引入的概念，主要用在 sparkSQL 中，当然也可以用在其他场合，他可以代替 SparkContex.

2021-02-25 11:21:23 2279

原创理解SparkSession

SparkSession是DataSet和DataFrame编写Spark程序的入口SparkSession的功能：创建DataFrame 以关系型数据库中表的形式生成DataFrame，之后便可以执行SQL语句，适合小数据量的操作读取.parquet格式的文件，得到DataFrame创建SparkSession对象：>>> spark = SparkSession.builder \ .master("local") \ ...

2021-02-25 11:12:54 2058

原创理解 Spark DataFrame

DataFrame它不是spark sql提出来的，而是早期在R、Pandas语言就已经有了的DataSet： A DataSet is a distributed collection of data. (分布式的数据集)DataFrame：A DataFrame is a DataSet organized into named columns.以列（列名，列类型，列值）的形式构成的分布式的数据集，按照列赋予不同的名称studentid:intname:stringcity:st.

2021-02-25 10:41:26 407

原创 Spark DataFrame

目录Spark创建DataFrame的不同方式1. Create Spark DataFrame from RDD2. 从List和Seq集合中创建Spark DataFrame3. 从CSV文件创建Spark DataFrame4. 从text文件创建5. 从JSON文件创建6. 从XML文件创建9. 从HBase创建DataFrameSpark创建DataFrame的不同方式本文介绍了使用Scala示例在Spark中创建DataFrame(createDat.

2021-02-25 10:32:23 736

原创 Spark数据分析之pyspark

一、大数据简史,从hadoop到Spark1.hadoop的出现：（1）问题：1990年，电商爆发以及机器产生了大量数据，单一的系统无法承担（2）办法：为了解决（1）的问题许多公司，尤其是大公司领导了普通硬件集群的水平扩展（3）执行：hadoop应运而生2.spark的出现：（1）hadoop面临问题： - 硬件瓶颈：多年来，内存技术突飞猛进，而硬盘技术没有太大的变化。hadoop主要运用的是硬盘，没有利用好内存技术。 - 编程困难，hadoop的MapReduce编

2021-02-25 10:02:26 601

原创 Hive开发造成数据倾斜案例

1.Hive数据倾斜优化分为哪两类？2.Hive开发中，为何会出现倾斜？3.Hive倾斜本文有哪些解决方案？实际搞过离线数据处理的同学都知道，Hive SQL 的各种优化方法都是和数据倾斜密切相关的，所以我会先来聊一聊 “「数据倾斜」” 的基本概念，然后再在此基础上为大家介绍各种场景下的 Hive 优化方案。Hive 的优化分为「join 相关的优化」和「join 无关的优化」。从项目实际来说， join 相关的优化其实占据了 Hive 优化的大部分内容，而 join 相关的优化又分为 mapjoi

2021-02-25 09:55:41 451

原创运用Prometheus监控Flink

1.为什么选择Prometheus？2.使用自动发现的配置方式有什么优点？3.如何提交作业？为什么选择Prometheus？随着深入地了解Prometheus，你会发现一些非常好的功能：服务发现使配置更加容易。Prometheus支持consul，etcd，kubernetes以及各家公有云厂商自动发现。对于监控目标动态发现，这点特别契合Cloud时代，应用动态扩缩的特点。我们无法想象，在Cloud时代，需要运维不断更改配置。开源社区建立了数百个exporter。基本上涵盖了所有基础设施.

2021-02-25 09:31:09 907

Flume 抽取MYSQL Oracle数据 JSON格式推送Kafka

Flume二次开发，支持抽取MYSQL Oracle数据库数据以JSON格式推送至Kafka。 demo： sql_json.sources.sql_source.type = com.hbn.rdb.source.SQLSource sql_json.sources.sql_source.connectionurl = jdbc:oracle:thin:@IP:PORT/orcl sql_json.sources.sql_source.driverclass= oracle.jdbc.driver.OracleDriver sql_json.sources.sql_source.filename = sqlSource.status sql_json.sources.sql_source.customquery = SELECT INTID,ID_NO FROM TEST.TEST sql_json.sources.sql_source.begin = 0 sql_json.sources.sql_source.autoincrementfield = INTID

2022-05-28

lxml_liunx_python2.7.zip

lxml是python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高 XPath，全称XML Path Language，即XML路径语言，它是一门在XML文档中查找信息的语言，它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索 XPath的选择功能十分强大，它提供了非常简明的路径选择表达式，另外，它还提供了超过100个内建函数，用于字符串、数值、时间的匹配以及节点、序列的处理等，几乎所有我们想要定位的节点，都可以用XPath来选择.直接下载，然后放入Linux-python文件夹即可。

2021-03-11

flume-ng-elasticsearch-sink-1.8.0.jar

在Flume中的ElasticSearchSink支持Flume与Elasticsearch整合，可以将Flume采集的数据传输到Elasticsearch中，Flume版本：1.8.0，ElasticSearchSink版本：6.2.4

2020-09-18

kettle资源库表详细说明文档.xls

资源库是用来保存转换任务的，用户通过图形界面创建的的转换任务可以保存在资源库中。资源库可以使多用户共享转换任务，转换任务在资源库中是以文件夹形式分组管理的，用户可以自定义文件夹名称。

2020-04-30

kettle资源库数据字典.xls

Kettle资源库数据字典明细：R_DATABASE：数据库连接信息 R_DIRECTORY：kettle程序目录 R_JOB：作业 R_JOB_ATTRIBUTE：作业属性 R_JOB_HOP：作业跳 R_JOB_NOTE：作业注解 R_JOBENTRY：作业项 R_JOBENTRY_ATTRIBUTE：作业项属性 R_JOBENTRY_COPY：拷贝的作业项

2020-04-30

2020年中国行政区划四级街道镇标准GB-T2260（EXCEL版本）.xlsx

《中国行政区划代码》国家标准(GB/T2260)是行政区划代码，也称行政代码。行政区划代码是国家行政机关的识别符号，由9位阿拉伯数字组成，相当于机关单位的身份号码。按照国务院《行政区划管理条例》规定，行政区划代码由民政部门确定、发布。2020年最新发布行政区划四级街道/镇/乡。

2020-04-23

pentaho-hadoop-shims-cdh513-package-8.3.2019.05.00-371-dist.zip

大数据ETL开源软件Kettle连接Hadoop时使用到得Shims 配置Pentaho组件Shims Shims是Pentaho提供的一系列连接各个source的适配器,具体配置位置根据Pentaho的组件来决定，现在的PDI Spoon的配置位置在../data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations 下，注意这个地方要配置好对应数据源的shims

2020-03-20

pentaho-hadoop-shims-cdh57-package-70.2016.10.00-25-dist.zip

2020-03-20

pentaho-hadoop-shims-cdh514-package-8.3.2019.05.00-371-dist.zip

2020-03-19

pentaho-hadoop-shims-cdh58-package-70.2016.10.00-25-dist.zip

2020-03-19

Araxis Merge v6.5 NSIS文本对比.rar

Araxis Merge 是一款专业的可视化文件比较以及合并和同步的软件，同时也是该软件目前最新的版本，新版带来了全新的功能以及优化，包括合并使您能够比较和处理不同版本的文本文件，如程序源代码，XML和HTML文件。合并可以从Microsoft Office，OpenDocument，PDF和RTF文件中提取和比较文本。XML文件可以以特殊格式显示，帮助您更清楚地看到更改。它支持ASCII，MBCS和Unicode字符编码的文件。

2019-12-19

xdown-1.0.1.4.zip

Xdown是一款超级强大的开源免费无广告的Torrent/磁力链/百度云下载神器。Xdown不光如此还支持BT，免费的IDM+torrent 可以多线程128并发的下载工具.

2019-12-11

z501_touchpad_win7.rar

TOUCHPAD采用多指触控技术，突破性实现了多个手指触摸行为的组合行为识别。通过不同自定义手势，可以轻松完成开启、翻页、伸缩等多种强大功能，实现了用简单的手指触摸行为完成复杂的人机交互。下载安装即可，非常方便

2019-12-11

influxdb_demo.zip

InfluxDB（时序数据库），常用的一种使用场景：监控数据统计。每毫秒记录一下电脑内存的使用情况，然后就可以根据统计的数据，利用图形化界面（InfluxDB V1一般配合Grafana）制作内存使用情况的折线图；可以理解为按时间记录一些数据（常用的监控数据、埋点统计数据等），然后制作图表做统计；

2019-11-22

KeyFreeze键盘鼠标上锁工具

KeyFreeze键盘鼠标上锁工具，直接解压，并运行KeyFreeze.exe，点击右键设置；锁住键盘和鼠标，解锁Ctrl+F

2019-11-15

GitHub Windows版本客户端

GitHub Windows版本客户端直接解压，安装即可使用，直接登录GitHub，方便提交代码以及维护代码

2019-11-15

raidrive-1-8-0版本网盘映射到本地磁盘工具

RaiDrive是能够将一些网盘映射为本地网络磁盘的工具，RaiDrive可以方便的将网盘映射为本机的网络磁盘，而在支持的网盘有Google Drive, Google Shared drives,Google Photos, OneDrive, SharePoint,Dropbox, Box, pCloud, Yandex Disk,WebDAV, SFTP, FTP

2019-11-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Flume 抽取MYSQL Oracle数据 JSON格式 推送Kafka

lxml_liunx_python2.7.zip

flume-ng-elasticsearch-sink-1.8.0.jar

kettle资源库表详细说明文档.xls

kettle资源库数据字典.xls

2020年中国行政区划四级街道镇标准GB-T2260（EXCEL版本）.xlsx

pentaho-hadoop-shims-cdh513-package-8.3.2019.05.00-371-dist.zip

pentaho-hadoop-shims-cdh57-package-70.2016.10.00-25-dist.zip

pentaho-hadoop-shims-cdh514-package-8.3.2019.05.00-371-dist.zip

pentaho-hadoop-shims-cdh58-package-70.2016.10.00-25-dist.zip

Araxis Merge v6.5 NSIS文本对比.rar

xdown-1.0.1.4.zip

z501_touchpad_win7.rar

influxdb_demo.zip

KeyFreeze键盘鼠标上锁工具

GitHub Windows版本 客户端

raidrive-1-8-0版本网盘映射到本地磁盘工具

空空如也

Flume 抽取MYSQL Oracle数据 JSON格式推送Kafka

GitHub Windows版本客户端