![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
初学大数据
小胖超凶哦!
睡觉了,别学了!
展开
-
违法行为分析1
违法行为分析原创 2022-07-06 17:01:52 · 276 阅读 · 0 评论 -
事故指标统计
事故指标统计原创 2022-07-05 15:20:56 · 568 阅读 · 0 评论 -
数据准备工作
数据准备工作原创 2022-07-04 21:40:22 · 1993 阅读 · 0 评论 -
checkpoint
checkpoint原创 2022-06-17 19:56:29 · 236 阅读 · 0 评论 -
缓存cache
缓存cache原创 2022-06-16 21:48:29 · 324 阅读 · 0 评论 -
mapPartitions
mapPartitions原创 2022-06-16 20:10:49 · 191 阅读 · 0 评论 -
Kafka的使用
Kafka的使用原创 2022-06-15 09:47:12 · 98 阅读 · 0 评论 -
Kafka的搭建
Kafka的搭建原创 2022-06-14 22:01:54 · 111 阅读 · 0 评论 -
常用的算子1
常用的算子原创 2022-06-15 20:30:54 · 69 阅读 · 0 评论 -
自定义MySQL Source
自定义MySQL Source原创 2022-06-13 20:09:01 · 228 阅读 · 0 评论 -
Spark跟Flink的区别、常见的Source
Spark跟Flink的区别、常见的Source原创 2022-06-13 19:25:26 · 99 阅读 · 0 评论 -
Flink开发环境搭建及WordCount
Flink开发环境搭建及WordCount原创 2022-06-10 20:24:52 · 161 阅读 · 0 评论 -
位置数据融合表3
位置数据融合表原创 2022-06-10 20:38:31 · 118 阅读 · 0 评论 -
在时间轴上进行聚类
在时间轴上进行聚类原创 2022-06-08 20:24:46 · 238 阅读 · 0 评论 -
位置数据融合表2
位置数据融合表原创 2022-06-07 20:05:52 · 277 阅读 · 0 评论 -
位置数据融合表1
位置数据融合表原创 2022-06-06 21:12:05 · 118 阅读 · 0 评论 -
开发环境搭建
开发环境搭建原创 2022-06-01 20:26:17 · 205 阅读 · 0 评论 -
DataX安装
DataX安装原创 2022-05-31 21:22:31 · 104 阅读 · 0 评论 -
CRM数据采集
CRM数据采集原创 2022-05-31 22:06:43 · 414 阅读 · 0 评论 -
flume安装配置
[root@master soft]# vim /etc/profilealias soft='cd /usr/local/soft/'[root@master soft]# source /etc/profile[root@master soft]# soft[root@master soft]# cd ~[root@master ~]# pwd/root[root@master ~]# soft[root@master soft]# pwd/usr/local/soft[.原创 2022-05-31 20:00:54 · 76 阅读 · 0 评论 -
采集OIDD数据
[ods@master ~]$ mkdir ctyun[ods@master ~]$ lsctyun students.txt[ods@master ~]$ cd ctyun/[ods@master ctyun]$ ls[ods@master ctyun]$ pwd/home/ods/ctyun[ods@master ctyun]$ mkdir oidd[ods@master ctyun]$ cd oidd/[ods@master oidd]$ ls[ods@master oidd].原创 2022-05-31 20:32:46 · 673 阅读 · 0 评论 -
权限的控制
[root@master ~]# cd /usr/local/soft/hadoop-2.7.6/[root@master hadoop-2.7.6]# lsbin include libexec logs README.txt shareetc lib LICENSE.txt NOTICE.txt sbin tmp[root@master hadoop-2.7.6]# cd etc/[root@master etc]# lshado.原创 2022-05-31 15:47:45 · 286 阅读 · 0 评论 -
大数据项目流程
大数据项目流程原创 2022-05-30 14:50:06 · 130 阅读 · 0 评论 -
人体的指标
<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-mllib_2.11</artifactId> <version>2.4.5</version></dependency>package com.shujia.mllibimport org.apache.spark.ml.{featur..原创 2022-05-25 21:08:51 · 69 阅读 · 0 评论 -
StructuredStreaming
package com.shujia.streamingimport org.apache.spark.sql.streaming.OutputModeimport org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}object Demo05StructuredStreaming { def main(args: Array[String]): Unit = { //创建SparkSession val spar.原创 2022-05-24 10:58:47 · 77 阅读 · 0 评论 -
缉查布控操作
package com.shujia.streamingimport org.apache.spark.broadcast.Broadcastimport org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Durations, StreamingContext}...原创 2022-05-20 21:11:26 · 275 阅读 · 0 评论 -
滑动窗口操作
package com.shujia.streamingimport org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Durations, StreamingContext}object Demo03Window { def main(args: Array[String]): Unit = { /.原创 2022-05-20 19:22:30 · 254 阅读 · 0 评论 -
Action算子、Pi
package com.shujia.coreimport com.shujia.core.Demo10Join.Studentimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDobject Demo16Action { def main(args: Array[String]): Unit = { //常见的Action算子 //foreach take col.原创 2022-05-19 21:24:00 · 180 阅读 · 0 评论 -
有状态算子
package com.shujia.streamingimport org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Durations, StreamingContext}object Demo01WordCountOnStreaming { d...原创 2022-05-19 16:28:16 · 224 阅读 · 0 评论 -
SparkStreaming介绍及开发环境搭建
<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <version>2.4.5</version></dependency>package com.shujia.streamingimport org.apache.spa...原创 2022-05-19 11:17:34 · 450 阅读 · 0 评论 -
aggregateByKey
aggregateByKey原创 2022-05-19 20:02:40 · 234 阅读 · 0 评论 -
GroupByKey VS ReduceByKey
package com.shujia.coreimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object Demo11Cartesian { def main(args: Array[String]): Unit = { //创建Spark Context val conf: SparkConf = new SparkConf() conf.setAppN.原创 2022-05-18 20:48:02 · 280 阅读 · 0 评论 -
决定RDD分区数因素、关联
package com.shujia.coreimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDobject Demo09Union { def main(args: Array[String]): Unit = { //创建Spark Context val conf: SparkConf = new SparkConf() conf.setAppName(.原创 2022-05-18 19:59:14 · 285 阅读 · 0 评论 -
SparkOnHive
package com.shujia.sqlimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.{DataFrame, SparkSession}object Demo06SparkOnHive { def main(args: Array[String]): Unit = { /** * 通过enableHiveSupport()可以开启Hive的支持 * 需要在po.原创 2022-05-18 11:03:47 · 266 阅读 · 0 评论 -
Spark SQL写代码的几种方式
package com.shujia.sqlimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}object Demo04DSL { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession .buil.原创 2022-05-18 10:25:56 · 865 阅读 · 0 评论 -
Burks练习题、JD Log练习题
公司代码,年度,1月-------------------------12月的收入金额burk,year,tsl01,tsl02,tsl03,tsl04,tsl05,tsl06,tsl07,tsl08,tsl09,tsl10,tsl11,tsl12853101,2010,100200,25002,19440,20550,14990,17227,40990,28778,19088,29889,10990,20990853101,2011,19446,20556,14996,17233,40996,2..原创 2022-05-17 17:00:10 · 206 阅读 · 0 评论 -
DSL实现union、join、case when
package com.shujia.sqlimport org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}object Demo04DSL { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession .builder() .appName("Demo04DSL") .master.原创 2022-05-17 15:46:38 · 657 阅读 · 0 评论 -
DSL的基本使用
package com.shujia.sqlimport org.apache.spark.sql.{DataFrame, SparkSession}object Demo04DSL { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession .builder() .appName("Demo04DSL") .master("local") .原创 2022-05-16 22:00:19 · 753 阅读 · 0 评论 -
Spark SQL常用Source
package com.shujia.sqlimport org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}object Demo03SourceAPI { //Spark SQL中常见的DataSourceAPI def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession .builder() .a.原创 2022-05-16 20:27:17 · 292 阅读 · 0 评论 -
SparkSQL环境搭建、SQL VS DSL
<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.4.5</version></dependency>package com.shujia.sqlimport org.apache.spark.SparkContext...原创 2022-05-16 15:01:22 · 504 阅读 · 0 评论