xlw2003-CSDN博客

原创《Flink实用教程_Flink 1.13.2》简介

《Flink实用教程》.pdf，基于Flink 1.13.2，所有示例和案例均提供Java和Scala两个版本的实现。预览版下载：这里下载

2021-11-10 17:23:48 1105

原创使用Flink处理Kafka中的数据_题库子任务_Java语言实现

职业院校技能大赛，使用Flink处理Kafka中的数据_题库子任务_Java语言实现

2023-11-19 12:47:33 1049

原创 2023年国赛-大数据应用开发(师生同赛)_赛项规程样题解析

2023年国赛-大数据应用开发(师生同赛)_赛项规程样题解析

2023-10-17 10:37:17 1686

原创 2023年浙江省职业院校技能大赛大数据技术与应用专业样题

2023浙江省赛样题解析-数据采集：离线数据采集 2023浙江省赛样题解析-数据采集：实时数据采集_子任务1 2023浙江省赛样题解析-数据采集：实时数据采集_子任务2 2023浙江省赛样题解析-实时数据处理：实时数据清洗 2023浙江省赛样题解析-实时数据处理：实时指标计算_子任务1 2023浙江省赛样题解析-实时数据处理：实时指标计算_子任务2 2023浙江省赛样题解析-离线数据处理

2023-03-25 16:30:41 870

原创 2023贵州省职业院校技能大赛大数据技术与应用专业样题

2023贵州省职业院校技能大赛大数据技术与应用专业样题

2023-03-25 16:27:28 848

原创 2023广东省职业院校技能大赛大数据技术与应用专业样题

2023广东省职业院校技能大赛大数据技术与应用专业样题

2023-03-25 16:26:26 1276

原创农业大数据项目

搭建一个基于Hadoop大数据分析框架的农业大数据系统，该系统框架以我国农业的水果产业为例，完成我国水果产业中各个指标的分析。涉及到的技术：Spark, Spark SQL, Spark UDF, Jieba分词, Hive, ETL, ECharts等。可视化图表：饼状图，柱状图，地图，词云图，面积图，玫瑰饼图等。

2023-03-23 18:37:23 448

转载 2022-2023赛季高职大数据竞赛-赛规任务剖析

2022-2023赛季高职大数据竞赛-赛规任务剖析

2022-12-07 09:47:47 2420

原创 2022年职业院校技能大赛-大数据赛题解析

2022年职业院校技能大赛-大数据赛题解析，最新上线2022年7月20日新发布任务书1和任务书7解析。

2022-10-20 08:06:31 4697 4

原创 2022高职大数据竞赛0720更新参考实现

2022高职大数据竞赛0720更新参考实现

2022-10-11 12:16:57 1160

原创最新2022年高职大数据国赛任务书详解与模拟练习

最新2022年高职大数据国赛任务书详解与模拟练习

2022-04-01 09:18:50 1790

本系列共分五篇，内容分别为：第一部分赛题内容第二部分任务剖析第三部分赛题模拟实现-离线数据抽取第四部分赛题模拟实现-离线数据统计第五部分赛题模拟实现-数据采集与实时计算第六部分赛题模拟实现-数据可视化（一）任务一：大数据平台环境搭建具体内容按照大数据分析平台需求，需要完成Hadoop完全分布式、Spark安装配置、Flink安装配置、Hive安装配置、Kafka安装配置、Flume安装配置。分析Hadoop完全分布式：请参考Hadoop-3.2.1环境搭

2022-03-21 10:10:32 2894

转载 2011-2022年高职大数据竞赛-赛题内容

本系列共分五篇，内容分别为：第一部分赛题内容第二部分任务剖析第三部分赛题模拟实现-离线数据抽取第四部分赛题模拟实现-离线数据统计第五部分赛题模拟实现-数据采集与实时计算第六部分赛题模拟实现-数据可视化第一部分竞赛内容赛项以大数据技术与应用为核心内容和工作基础，重点考查参赛选手基于Spark、Flink平台环境下，充分利用Spark Core、Spark SQL、Flume、Kafka、Flink等技术的特点，综合软件开发相关技术，解决实际问题的能力，具体包括：

2022-03-21 10:07:27 2391

原创《PySpark实用教程_v3.1.2》简介

《PySpark实用教程》（基于Spark3.1.2和Python 3.7）预览版下载：这里下载大数据分析一直是个热门话题，需要大数据分析的场景也越来越多。Apache Spark是一个用于快速、通用、大规模数据处理的开源项目。现在，Apache Spark已经成为一个统一的大数据处理平台，拥有一个快速的统一分析引擎，可用于大数据的批处理、实时流处理、机器学习和图计算。2009年，Spark诞生于伯克利大学AMP实验室，最初属于伯克利大学的研究性项目。它于2010年被正式开源，于2013年被转交给A

2022-02-28 12:38:57 1929

转载电商大数据分析案例(Hadoop+Hive+Spark+Azkaban+Spring MVC+ECharts)

项目描述某著名电商平台双十一美妆销售数据分析。由于是真实的商业数据，所以做了脱敏处理，数据集中对店名的引用被处理为产品的品牌名以保护店家隐私。。通过对该平台双十一美妆销售数据的品牌、销量、热度等特征的分析(平台视角和用户视角)，尝试探索以下问题：双十一期间，最受消费者青睐的产品或品牌是哪些？双十一期间，美妆行业各品类的销售情况？双十一期间，消费高峰何时出现? 双十一期间，客户的评论数对销量的影响? ......项目架构电商大数据项目架构图项目流程项目流程说明如下：1.

2022-01-12 22:22:45 4469 1

转载某物流公司运输车辆超速实时检测案例（数据源 + Kafka + Flink + Spring MVC + WebSocket + ECharts）

综合运用Flink实时数据处理技术，对Kafka收集到的运输车辆实时监控数据进行分析，运用模式检测及时发现超速车辆，并在服务端通过仪表盘实时告警。

2021-11-24 10:17:38 796

转载案例_Spark SQL实现数据ETL到Hive ODS

演示如何通过Spark SQL实现ETL任务，将数据分别从文件或MySQL中抽取到Hive数据仓库的ODS层叠（数据贴源层）中。

2021-11-24 10:14:49 1333

原创 Hive shell 中夹杂大量的日志信息问题的解决方法

在hive-3.1.x版本中，使用hive shell时，会发现在查询命令中夹杂大量的日志信息，严重干扰查询结果显示，特别是强迫症患者，不能忍受。通过修改conf下的日志文件，会发现不起任何作用。那么，怎么解决这个问题呢？搜遍全网，终于在这篇博文里找到了解决方法，参考解决方法，亲测有效。...

2021-11-15 10:38:31 3839 5

原创《Spark实用教程_v3.1.2》简介

《Spark实用教程》（基于3.1.2）预览版下载：这里下载大数据分析一直是个热门话题，需要大数据分析的场景也越来越多。Apache Spark 是一个用于快速、通用、大规模数据处理的开源项目。现在，Apache Spark 已经成为一个统一的大数据处理平台，拥有一个快速的统一分析引擎，可用于大数据的批处理、实时流处理、机器学习和图计算。2009 年，Spark 诞生于伯克利大学AMP 实验室，最初属于伯克利大学的研究性项目。它于2010 年被正式开源，于2013 年被转交给Apache 软件基金会

2021-11-10 17:26:44 1273

原创准备Flink开发环境-使用IntelliJ IDEA+Maven开发Flink项目

摘自拙作《Flink实用教程_1.13.2》一书。对于熟悉Maven操作的读者来说，可以象上一节讲的那样，先在命令行用Maven命令快速生成Flink基本程序框架，然后导入到IDE中进一步开发。如果读者更熟悉IDE（例如，IntelliJ IDEA）的话，那么可以直接在IntelliJ IDEA中开发Maven程序。通过结合使用IntelliJ IDEA集成开发工具和Maven项目构建工具，我们可以方便快速地开发Flink项目。一、在IntelliJ IDEA中创建Flink项目第一步：启动.

2021-10-29 09:50:39 1608

原创 Flink架构和执行原理

摘自拙作《Flink实用教程_1.13.2》一书。在大数据领域，有许多流计算框架，但是通常很难兼顾延迟性和吞吐量。Apache Storm提供低延迟，但目前不提供高吞吐量，也不支持在发生故障时正确处理状态。Apache Spark Streaming的微批处理方法实现了高吞吐量的容错性，但是难以实现真正的低延时和实时处理，并且表达能力方面也不是特别丰富。而Apache Flink兼顾了低延迟和高吞吐量，是企业部署流计算时的首选。1、Flink架构Flink 是可以运行在多种不同的环境中的，例.

2021-10-29 09:44:11 2037

原创深入理解Flink中的TumblingWindow

在了解TumblingWindow之前，首先让我们对当涉及到流处理或流计算时的“窗口”有一个基本的了解。在数据流中，有一个持续生成数据的源，这使得计算最终值变得不可行。“窗口”定义了无界流上的有限元素集，我们可以在其上应用计算。这个集合可以基于时间、元素计数、计数和时间的组合，或者一些自定义逻辑来为窗口分配元素。例如：每分钟收到的订单数量(固定时间) 完成最后100个订单的平均时间(固定元素)流框架厂商实现了一个多种类型的“窗口”定义。Flink有三种类型翻滚窗口（又称为”滚动窗口“）滑

2021-10-29 09:37:56 1008

Spark实用教程_v3.1.2_预览版.pdf

基于Spark 3.1.2，详细讲解了Spark Core、Spark SQL、Spark结构化流、Spark图计算（GraphX和GraphFrame）、数据湖技术及应用。

2021-11-09

Flink实用教程_预览版_v1.pdf

最新Flink教程，基于Flink 1.13.2。书中所有示例和案例代码均为双语。这是预览版。目录第1 章Flink 架构与集群安装...............................................................................................................................- 1 - 1. 1 Flink 简介................................................................................................................................................... - 1 - 1.1.1 Flink 发展历程.................................................................................................................................- 1 - 1.1.2 Flink 特性.........................................................................................................................................- 2 - 1. 2 Flink 应用场景........................................................................................................................................... - 3 - 1.2.1 事件驱动应用程序.......................................................................................................................... - 3 - 1.2.2 数据分析应用程序.......................................................................................................................... - 4 - 1.2.3 数据管道应用程序.......................................................................................................................... - 5 - 1. 3 Flink 体系架构........................................................................................................................................... - 5 - 1.3.1 Flink 系统架构.................................................................................................................................- 5 - 1.3.2 Flink 运行时架构..............................................................................................................................- 6 - 1.3.3 Flink 资源管理.................................................................................................................................- 8 - 1.3.4 Flink 作业调度..........................................................................................................

2021-09-24

winutils-master.zip

当在Windows下开发Hadoop应用程序的时候，需要添加相应的二进制文件，才能在Windows下直接访问虚拟机/Linux中的HDFS。这里包含了hadoop-(2.6.0, 2.6.3, 2.6.4, 2.6.5, 1.7.1, 2.7.3, 2.7.4, 2.7.6, 2.7.7, 2.8.0, 2.8.1, 2.8.2, 2.8.3, 2.8.4, 2.8.5, 2.9.0, 2.9.1, 2.9.2, 3.0.0, 3.0.1, 3.0.2, 3.1.0, 3.1.1, 3.1.2, 3.2.0, 3.2.1, 3.3.0)版本的二进制文件dll文件。使用方法：找到对应的版本，使用里面的bin文件夹替换掉你自己的hadoop目录中的bin文件夹。

2021-04-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Spark实用教程_v3.1.2_预览版.pdf

Flink实用教程_预览版_v1.pdf

winutils-master.zip

Python Data Analysis CookBook.pdf

Beginning Python,3rd Edition_2017

mariadb数据库驱动程序

hadoop-eclipse插件各版本合集

gson各版本jar包(1.1-2.8.5)

hadoop-eclipse-plugin-2.7.1.jar

hadoop-eclipse-plugin-2.2.0.jar

hadoop-eclipse-plugin-2.7.3.jar

hadoop-eclipse-plugin-2.7.2.jar

JUnit4.9单元测试

JUnit4.8.1

支持中文的jspSmartupload文件上传工具

dbcp数据库连接池

apache-log4j

用于mysql数据库的jdbc驱动程序

jtds：第三方mssqlserver的jdbc驱动程序

ZoomIt屏幕放大工具

空空如也