Hi Xiu Hui-CSDN博客

原创 HQL之种树题解

一、数据user_low_carbon(user_id String,data_dt String,low_carbon int)u_001 2017/1/1 10plant_carbon(plant_id string,plant_name String,low_carbon int)二、需求一1.蚂蚁森林植物申领统计问题：假设2017年1月1日开始记录低碳数据（user_low_carbon），假设2017年10月1日之前满足申领条件的用户都申领了一颗p004-胡杨，剩余的能量全部用来领

2020-07-26 23:40:45 463

原创 HQL练习之谷粒影音

文章目录一、统计视频观看数Top101.思路1.SQL二、统计视频类别热度Top101.思路1.SQL三、统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数1.思路1.SQL四、统计视频观看数Top50所关联视频的所属类别Rank1.思路五、统计每个类别中的视频热度Top10，以Music为例1.思路六、统计每个类别中视频流量Top10，以Music为例1.思路1.SQL七、统计上传视频最多的用户Top10以及他们上传的观看次数在前20的视频1.思路1.SQL八、统计每个类别视频观看

2020-07-26 23:29:08 385

原创 Sqoop导数据问题

一、sqoop导入到hive过程中，怎么对数据进行清洗？比如mysql里的数据出现\t等字符？你意思是列分隔符为\t，但是某个字段里面的数据也包含了\t，把数据里的\t识别成分隔符解决办法： --fields-terminated-by "\001"用001来指定分隔符问：如果字段里有\001呢，你指定的分隔字段和mysql里包含的内容一样，是不管你hive用啥分割，他数据里就有相同的分割符答：如果要处理，有参数可以设置一个是去除，一个是替换--hive-drop-import-

2020-07-21 23:51:08 298

原创 Shell编程大全(总结)

一、shell中如何查看文件去重后的行数？**1.wc命令用来统计，要去重是按行去重还是按某列去重，用个unique就行了**sort 文件名 | uniq | wc -l特殊情况：2.如果复杂一点，按某列去重，就要结合awk使用3.扩展shell命令比较常用还是多个命令结合使用，思维不要局限于某个命令...

2020-07-21 23:44:43 167

原创清除maven仓库的脚本(解决jar包冲突，jar包不全)

一、有时会遇到maven依赖下不全，无法解析这个类，方法所以我们需要写一个脚本，只清理maven仓库下载到一半中断的依赖，以及多余，不全的依赖@echo offrem set REPOSITORY_PATH=D:\software\code\reporem for /f "delims=" %%i in ('dir /b /s "%REPOSITORY_PATH%\*lastUpdated*"') do ( del /s /q %%i)rem pause注意：脚本名称随意，后

2020-07-03 18:21:01 683

原创在线教育项目(实时部分)

一、实时统计注册人员信息1.需求用户使用网站或APP进行注册，后台实时收集数据传输Kafka，Spark Streaming进行对接统计，实时统计注册人数。需求1：要求Spark Streaming 保证数据不丢失，每秒1000条处理速度，需要手动维护偏移量需求2：实时统计注册人数，批次为3秒一批，使用updateStateBykey算子计算历史数据和当前批次的数据总数，仅此需求使用updateStateBykey，后续需求不使用updateStateBykey。需求3：每6秒统统计一次1分钟内的

2020-06-30 18:24:18 413

原创德鲁伊连接池(jdbc配置相关工具类)

package com.atguigu.qzpoint.util;import com.alibaba.druid.pool.DruidDataSourceFactory;import javax.sql.DataSource;import java.io.Serializable;import java.sql.*;import java.time.LocalDateTime;import java.time.format.DateTimeFormatter;import java.ut

2020-06-29 19:24:07 610

原创 Flink之经典电商需求

一、热门实时商品统计1.Table API实现import java.sql.Timestampimport org.apache.flink.api.common.functions.AggregateFunctionimport org.apache.flink.api.common.state.ListStateDescriptorimport org.apache.flink.api.scala.typeutils.Typesimport org.apache.flink.stream

2020-06-21 23:33:16 299

原创 Flink需求汇总(一)

一、求整条流的最高温度top2import com.atguigu.day2.SensorSourceimport org.apache.flink.streaming.api.scala.StreamExecutionEnvironmentimport org.apache.flink.table.api.EnvironmentSettingsimport org.apache.flink.table.api.scala._import org.apache.flink.api.scala._

2020-06-21 23:18:06 430

原创 Flink代码之Table API 和Flink SQL(十)

一、flink sql 和table api的案例import com.atguigu.day2.SensorSourceimport org.apache.flink.streaming.api.scala.StreamExecutionEnvironmentimport org.apache.flink.table.api.scala._import org.apache.flink.api.scala._import org.apache.flink.table.api.{DataTypes

2020-06-18 16:09:45 275

原创 Flink代码之CEP-----复杂事件处理，订单超时，连续三次登录失败(九)

一、检测连续三次登录失败的事件import org.apache.flink.cep.scala.CEPimport org.apache.flink.cep.scala.pattern.Patternimport org.apache.flink.streaming.api.TimeCharacteristicimport org.apache.flink.streaming.api.scala._import org.apache.flink.streaming.api.windowing.t

2020-06-18 16:06:54 1232

原创 Flink代码之值状态，列表状态，传感器温度差值大于1.7(八)

一、传感器温度差值大于1.71.带状态的FlatMap算子import com.atguigu.day2.{SensorReading, SensorSource}import org.apache.flink.api.common.functions.RichFlatMapFunctionimport org.apache.flink.api.common.state.{ValueState, ValueStateDescriptor}import org.apache.flink.config

2020-06-18 15:55:33 553 1

原创 Flink代码之处理迟到元素(七)

一、带窗口，将迟到元素输出到侧输出流import org.apache.flink.streaming.api.TimeCharacteristicimport org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractorimport org.apache.flink.streaming.api.scala._import org.apache.flink.streaming.a

2020-06-18 15:43:35 209

原创 Flink代码之两条流，基于时间间隔的Join，固定窗口的Join，connect，触发器(六)

一、基于两条流的connect,和CoProcessFunction1.实现一个有限流和无限流，connect，利用触发器控制打印输出的持续时长import com.atguigu.day2.{SensorReading, SensorSource}import org.apache.flink.api.common.state.ValueStateDescriptorimport org.apache.flink.api.scala.typeutils.Typesimport org.apach

2020-06-18 15:22:10 1002

原创 Flink代码之如果某一个传感器连续1s中温度上升，报警！状态变量(五)

1.利用KeyedProcessFunction来实现，KeyBy,聚合import org.apache.flink.api.common.state.ValueStateDescriptorimport org.apache.flink.api.scala.typeutils.Typesimport org.apache.flink.streaming.api.functions.KeyedProcessFunctionimport org.apache.flink.streaming.api.

2020-06-18 14:03:59 548

原创 Flink代码之水位线，事件时间，定时器，侧输出流、标签(四)

一、水位线Watermark1.水位线简单测试import java.langimport java.sql.Timestampimport org.apache.flink.streaming.api.TimeCharacteristicimport org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractorimport org.apache.flink.streami

2020-06-18 11:59:48 834

原创 Flink代码之窗口函数，求最大最小，平均值(三)

一、窗口函数，分流后求温度最小值一般需求的逻辑：分流，开窗，聚合import com.atguigu.day2.SensorSourceimport org.apache.flink.streaming.api.scala._import org.apache.flink.streaming.api.windowing.time.Timeobject MinTempPerWindow { def main(args: Array[String]): Unit = { val env

2020-06-18 11:12:09 5020

原创 Flink代码之Sink,输出到其它外部(二)

一、对接kafka1.kafka生产者import java.util.Propertiesimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord}object KafkaProduceExample { def main(args: Array[String]): Unit = { writeToKafka("test") } def writeToKafka(topic: Strin

2020-06-18 10:45:39 297

原创 Flink代码之数据源，算子，分流，富函数(一)

1.wordCout

2020-06-18 10:31:07 517

原创 hive,spark经典sql题

1. 请使用Spark SQL完成。有50W个京东店铺，每个顾客访客访问任何一个店铺的任何一个商品时都会产生一条访问日志，访问日志存储的表名为Visit，访客的用户id为user_id，被访问的店铺名称为shop，请统计：1）每个店铺的UV（访客数）2）每个店铺访问次数top3的访客信息。输出店铺名称、访客id、访问次数数据如下：u1 au2 bu1 bu1 au3 cu4 bu1 au2 cu5 bu4 bu6 cu2 cu1 bu2 au2 au3 au5 a

2020-06-14 12:36:58 958 1

原创 Spark总结,面试

1.简述scala语言中case class与class的区别1）样例类仍然是类，和普通类相比，只是其自动生成了伴生对象，并且伴生对象中自动提供了一些常用的方法，如apply、unapply、toString、equals、hashCode和copy。2）样例类是为模式匹配而优化的类，因为其默认提供了unapply方法，因此，样例类可以直接使用模式匹配，而无需自己实现unapply方法。3）构造器中的每一个参数都成为val，除非它被显式地声明为var（不建议这样做））2. Spark有几种部署方式？

2020-06-14 12:11:45 188

原创 Flink写入到外部设备

1.kafka 的sinkimport java.util.Propertiesimport org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.streaming.api.scala._import org.apache.flink.streaming.connectors.kafka.{FlinkKafkaConsumer011, FlinkKafkaProducer011}

2020-06-10 21:03:15 234

原创 idea快捷键收集

ctrl + h 查看子类，父类继承结构ctrl + F12 查看类的所有方法ctrl + o 选择要重写的方法shift + 回车光标直接切换到下一行ctrl + alt + 回车光标直接切换到当前行输入代码ctrl + shift + 上箭头代码向上移动ctrl + alt + m 选择代码后，抽取方法ctrl + D 复制代码到下一行...

2020-06-10 11:25:32 141

原创新建flink项目，出现ClassNotFoundException异常

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/flink/api/common/typeinfo/TypeInformation at com.atguigu.day01.WordCountFromSocket.main(WordCountFromSocket.scala)Caused by: java.lang.ClassNotFoundException: org.apache.flink.api.comm

2020-06-08 13:02:07 2352

空空如也

空空如也