自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(64)
  • 收藏
  • 关注

原创 HQL之种树题解

一、数据user_low_carbon(user_id String,data_dt String,low_carbon int)u_001 2017/1/1 10plant_carbon(plant_id string,plant_name String,low_carbon int)二、需求一1.蚂蚁森林植物申领统计问题:假设2017年1月1日开始记录低碳数据(user_low_carbon),假设2017年10月1日之前满足申领条件的用户都申领了一颗p004-胡杨,剩余的能量全部用来领

2020-07-26 23:40:45 463

原创 HQL练习之谷粒影音

文章目录一、统计视频观看数Top101.思路1.SQL二、统计视频类别热度Top101.思路1.SQL三、统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数1.思路1.SQL四、统计视频观看数Top50所关联视频的所属类别Rank1.思路五、统计每个类别中的视频热度Top10,以Music为例1.思路六、统计每个类别中视频流量Top10,以Music为例1.思路1.SQL七、统计上传视频最多的用户Top10以及他们上传的观看次数在前20的视频1.思路1.SQL八、统计每个类别视频观看

2020-07-26 23:29:08 385

原创 Sqoop导数据问题

一、sqoop导入到hive过程中,怎么对数据进行清洗?比如mysql里的数据出现\t等字符?你意思是列分隔符为\t,但是某个字段里面的数据也包含了\t,把数据里的\t识别成分隔符解决办法: --fields-terminated-by "\001"用001来指定分隔符问:如果字段里有\001呢,你指定的分隔字段 和mysql里包含的内容一样,是不管你hive用啥分割,他数据里就有相同的分割符答:如果要处理,有参数可以设置一个是去除,一个是替换--hive-drop-import-

2020-07-21 23:51:08 298

原创 Shell编程大全(总结)

一、shell中如何查看文件去重后的行数?**1.wc命令用来统计,要去重是按行去重还是按某列去重,用个unique就行了**sort 文件名 | uniq | wc -l特殊情况:2.如果复杂一点,按某列去重,就要结合awk使用3.扩展shell命令比较常用还是多个命令结合使用,思维不要局限于某个命令...

2020-07-21 23:44:43 167

原创 清除maven仓库的脚本(解决jar包冲突,jar包不全)

一、有时会遇到maven依赖下不全,无法解析这个类,方法所以我们需要写一个脚本,只清理maven仓库下载到一半中断的依赖,以及多余,不全的依赖@echo offrem set REPOSITORY_PATH=D:\software\code\reporem for /f "delims=" %%i in ('dir /b /s "%REPOSITORY_PATH%\*lastUpdated*"') do ( del /s /q %%i)rem pause注意:脚本名称随意,后

2020-07-03 18:21:01 683

原创 在线教育项目(实时部分)

一、实时统计注册人员信息1.需求用户使用网站或APP进行注册,后台实时收集数据传输Kafka,Spark Streaming进行对接统计,实时统计注册人数。需求1:要求Spark Streaming 保证数据不丢失,每秒1000条处理速度,需要手动维护偏移量需求2:实时统计注册人数,批次为3秒一批,使用updateStateBykey算子计算历史数据和当前批次的数据总数,仅此需求使用updateStateBykey,后续需求不使用updateStateBykey。需求3:每6秒统统计一次1分钟内的

2020-06-30 18:24:18 413

原创 德鲁伊连接池(jdbc配置相关工具类)

package com.atguigu.qzpoint.util;import com.alibaba.druid.pool.DruidDataSourceFactory;import javax.sql.DataSource;import java.io.Serializable;import java.sql.*;import java.time.LocalDateTime;import java.time.format.DateTimeFormatter;import java.ut

2020-06-29 19:24:07 610

原创 Flink之经典电商需求

一、热门实时商品统计1.Table API实现import java.sql.Timestampimport org.apache.flink.api.common.functions.AggregateFunctionimport org.apache.flink.api.common.state.ListStateDescriptorimport org.apache.flink.api.scala.typeutils.Typesimport org.apache.flink.stream

2020-06-21 23:33:16 299

原创 Flink需求汇总(一)

一、求整条流的最高温度top2import com.atguigu.day2.SensorSourceimport org.apache.flink.streaming.api.scala.StreamExecutionEnvironmentimport org.apache.flink.table.api.EnvironmentSettingsimport org.apache.flink.table.api.scala._import org.apache.flink.api.scala._

2020-06-21 23:18:06 430

原创 Flink代码之Table API 和Flink SQL(十)

一、flink sql 和table api的案例import com.atguigu.day2.SensorSourceimport org.apache.flink.streaming.api.scala.StreamExecutionEnvironmentimport org.apache.flink.table.api.scala._import org.apache.flink.api.scala._import org.apache.flink.table.api.{DataTypes

2020-06-18 16:09:45 275

原创 Flink代码之CEP-----复杂事件处理,订单超时,连续三次登录失败(九)

一、检测连续三次登录失败的事件import org.apache.flink.cep.scala.CEPimport org.apache.flink.cep.scala.pattern.Patternimport org.apache.flink.streaming.api.TimeCharacteristicimport org.apache.flink.streaming.api.scala._import org.apache.flink.streaming.api.windowing.t

2020-06-18 16:06:54 1232

原创 Flink代码之值状态,列表状态,传感器温度差值大于1.7(八)

一、传感器温度差值大于1.71.带状态的FlatMap算子import com.atguigu.day2.{SensorReading, SensorSource}import org.apache.flink.api.common.functions.RichFlatMapFunctionimport org.apache.flink.api.common.state.{ValueState, ValueStateDescriptor}import org.apache.flink.config

2020-06-18 15:55:33 553 1

原创 Flink代码之处理迟到元素(七)

一、带窗口,将迟到元素输出到侧输出流import org.apache.flink.streaming.api.TimeCharacteristicimport org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractorimport org.apache.flink.streaming.api.scala._import org.apache.flink.streaming.a

2020-06-18 15:43:35 209

原创 Flink代码之两条流,基于时间间隔的Join,固定窗口的Join,connect,触发器(六)

一、基于两条流的connect,和CoProcessFunction1.实现一个有限流和无限流,connect,利用触发器控制打印输出的持续时长import com.atguigu.day2.{SensorReading, SensorSource}import org.apache.flink.api.common.state.ValueStateDescriptorimport org.apache.flink.api.scala.typeutils.Typesimport org.apach

2020-06-18 15:22:10 1002

原创 Flink代码之如果某一个传感器连续1s中温度上升,报警!状态变量(五)

1.利用KeyedProcessFunction来实现,KeyBy,聚合import org.apache.flink.api.common.state.ValueStateDescriptorimport org.apache.flink.api.scala.typeutils.Typesimport org.apache.flink.streaming.api.functions.KeyedProcessFunctionimport org.apache.flink.streaming.api.

2020-06-18 14:03:59 548

原创 Flink代码之水位线,事件时间,定时器,侧输出流、标签(四)

一、水位线Watermark1.水位线简单测试import java.langimport java.sql.Timestampimport org.apache.flink.streaming.api.TimeCharacteristicimport org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractorimport org.apache.flink.streami

2020-06-18 11:59:48 834

原创 Flink代码之窗口函数,求最大最小,平均值(三)

一、窗口函数,分流后求温度最小值一般需求的逻辑:分流,开窗,聚合import com.atguigu.day2.SensorSourceimport org.apache.flink.streaming.api.scala._import org.apache.flink.streaming.api.windowing.time.Timeobject MinTempPerWindow { def main(args: Array[String]): Unit = { val env

2020-06-18 11:12:09 5020

原创 Flink代码之Sink,输出到其它外部(二)

一、对接kafka1.kafka生产者import java.util.Propertiesimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord}object KafkaProduceExample { def main(args: Array[String]): Unit = { writeToKafka("test") } def writeToKafka(topic: Strin

2020-06-18 10:45:39 297

原创 Flink代码之数据源,算子,分流,富函数(一)

1.wordCout

2020-06-18 10:31:07 517

原创 hive,spark经典sql题

1. 请使用Spark SQL完成。有50W个京东店铺,每个顾客访客访问任何一个店铺的任何一个商品时都会产生一条访问日志,访问日志存储的表名为Visit,访客的用户id为user_id,被访问的店铺名称为shop,请统计:1)每个店铺的UV(访客数)2)每个店铺访问次数top3的访客信息。输出店铺名称、访客id、访问次数数据如下:u1 au2 bu1 bu1 au3 cu4 bu1 au2 cu5 bu4 bu6 cu2 cu1 bu2 au2 au3 au5 a

2020-06-14 12:36:58 958 1

原创 Spark总结,面试

1.简述scala语言中case class与class的区别1)样例类仍然是类,和普通类相比,只是其自动生成了伴生对象,并且伴生对象中自动提供了一些常用的方法,如apply、unapply、toString、equals、hashCode和copy。2)样例类是为模式匹配而优化的类,因为其默认提供了unapply方法,因此,样例类可以直接使用模式匹配,而无需自己实现unapply方法。3)构造器中的每一个参数都成为val,除非它被显式地声明为var(不建议这样做))2. Spark有几种部署方式?

2020-06-14 12:11:45 188

原创 Flink写入到外部设备

1.kafka 的sinkimport java.util.Propertiesimport org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.streaming.api.scala._import org.apache.flink.streaming.connectors.kafka.{FlinkKafkaConsumer011, FlinkKafkaProducer011}

2020-06-10 21:03:15 234

原创 idea快捷键收集

ctrl + h 查看子类,父类继承结构ctrl + F12 查看类的所有方法ctrl + o 选择要重写的方法shift + 回车 光标直接切换到下一行ctrl + alt + 回车 光标直接切换到当前行输入代码ctrl + shift + 上箭头 代码向上移动ctrl + alt + m 选择代码后,抽取方法ctrl + D 复制代码到下一行...

2020-06-10 11:25:32 141

原创 新建flink项目,出现ClassNotFoundException异常

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/flink/api/common/typeinfo/TypeInformation at com.atguigu.day01.WordCountFromSocket.main(WordCountFromSocket.scala)Caused by: java.lang.ClassNotFoundException: org.apache.flink.api.comm

2020-06-08 13:02:07 2352

原创 ES查询,过滤,聚合语句

GET /gmall_sale_detail/_search{ "query": { "bool": { "filter": { "term": { "dt": "2020-06-07" } }, "must": [ {"match": { "sku_name": { "query": "手机小米", "operator":

2020-06-07 17:32:11 681

原创 一键启动es脚本,解析

#!/bin/bashes_home=/opt/module/elasticsearch-6.3.1kibana_home=/opt/module/kibana-6.3.1-linux-x86_64case $1 in"start") echo "---------开始启动es---------" for host in hadoop102 hadoop103 hadoop104 do ssh $host "source /etc/profile;nohup $es_home/bin/el

2020-06-02 21:33:02 493 2

原创 IDEA从外部导入一个module

1.复制粘贴到项目所在目录,跟其它module同级2.在Idea里的file,project struct 的module ,再点加号,从外部导入import3.有的要标记为java resource

2020-05-30 11:58:02 3453 1

原创 使用log4j,打印日志生成文件

1.代码 // 2. 日志落盘. (这个个数据, 有可能会给离线需求使用) // 2.1. sprintboot默认使用logging, 需要去掉logging换成 log4j // 2.2. 配置log4j\ private Logger logger = LoggerFactory.getLogger(LoggerController.class); /** * 把日志落盘 * * @param log j

2020-05-28 16:06:14 325

原创 从resource配置文件里读取内容的工具类

1.配置文件config.propertieskafka.servers=hadoop102:9092,hadoop103:9092,hadoop104:9092kafka.group.id=bigdata11282.工具类import java.util.Propertiesobject PropertyUtil { /** * 属性文件 * * @param fileName 属性文件 * @param propertyNam

2020-05-28 15:49:38 257

原创 spark等,消费kafka数据(收集)

1.用spark-streaming从kafka读取 启动日志object DauApp { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("DauApp").setMaster("local[2]") val ssc = new StreamingContext(conf, Seconds(3)) // 1. 消费kafka数据

2020-05-28 15:44:53 231

原创 生产者向kafka发送消息(收集)

1.在springboot里面的KafkaTemplate发送 @Autowired private KafkaTemplate<String, String> kafka; /** * 把日志信息发送到kafka * * @param log */ private void sendToKafka(String log) { // 1. 写一个生产者 // 2. 不同的日志发送不到不同的to

2020-05-28 15:34:46 312 1

原创 Linux环境下执行jar包命令

1. jar包内已经打包的主类java -jar ....jar2. 如果打的jar包中没有主类 java -cp gmall-logger-0.0.1-SNAPSHOT.jar org.springframework.boot.loader.JarLauncher3. 如果打的jar包中没有主类 java -jar gmall-logger-0.0.1-SNAPSHOT.jar org.springframework.boot.loader.JarLauncher...

2020-05-28 15:04:20 163

原创 shell命令查看进程id,并杀死进程,停止脚本

1.jps 只适合java进程 jps | grep gmall | awk '{print $1}' | xargs kill -92.全能获取进程号ps -ef | grep gmall-logger | grep -v grep | awk '{print $2}' | xargs kill -9优化后 ps -ef | awk '/gmall-logger/ && !/awk/{print $2}'3.在停止脚本里使用($2要加反斜杠,因为只在这行代码执行,不

2020-05-28 14:59:49 1924

原创 IDEA的配置收集

1.配置支持变量自动显示

2020-04-20 14:59:51 128

原创 在hive上运行insert语句,报检查虚拟内存大小不够问题,tez

1.由于Hive合成了Tez引擎,Tez加载需要预留大量的内存,所以才高速运行。有时会报这个错Container killed on request. Exit code is 143Container exited with a non-zero exit code 143Failing this attempt. Failing the application.2020-04-04T1...

2020-04-04 15:23:26 1021

原创 安装完mysql,登录报错,bug

1**.Can’t connect to local MySQL server through socket '/var/lib/mysql/mysql.soc**2.报这个错是因为mysql服务没启动,开始要用root权限起

2020-03-31 22:02:25 139

原创 kafka玩坏的情况

1.当时我的kafka坏了的情况是controller一直在重新连接broker,kafka启动过一会就挂了然后会在后台不停的往logs里面写错误日志,我当时没发现1个小时后去看的已经写了一个多g了解决:解决kafka玩坏连接,点这...

2020-03-30 20:04:32 108

原创 kafka玩坏了,如何解决,删除,bug

1.kafka彻底删除topic第一种方式:1.修改server.properties文件delete.topic.enable=trueauto.create.topics.enable=false2.确保所有的生产者,消费者都已经停掉3.执行bin/kafka-topics.sh --delete --zookeeper localhost:2181 --topic demo4....

2020-03-30 20:01:46 1053 1

原创 关于Linux上跑java -jar 版本不对应,报错问题

1.Linux上跑java程序 java -jar log.jar 20 5出现报错如下:报错原因:window的jdk版本是1.8,linux的jdk版本是1.7,1.6解决办法:删除原来系统自带的Jkd,命令:[root@hadoop103 ~]# rpm -e --nodeps java-1.6.0-openjdk-1.6.0.38-1.13.10.4.el6.x86_64...

2020-03-27 21:52:18 317

原创 FastJson的使用 json api

1.FastJson的使用1.1 JSON1.1.1 JSON ObjectJSON Object转为JSON字符串后,格式如下:{"id":1001,"name":"zhangsan","age":20,"friends",[{},{}]}1.1.2 JSON ArrayJSON Array 转为 JSON字符串后,格式如下:[{"id":1001,"name":"zhangsa...

2020-03-25 20:07:19 147

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除