大数据
小卢的博客
奥力奥力给~
展开
-
flink使用dataStream Api消费数据保存到mysql
记录一下基础的自定义sink:flink处理流式数据保存到mysql中话不多说,上代码:pom.xml<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <flink.version>1.7.0</flink.version> <java.version>1.8</jav原创 2020-05-27 18:45:45 · 1025 阅读 · 0 评论 -
Incorrect string value: '\xE5\xBC\xA0\xE6\x96\x87...'数据库字符集问题解决
因为我的mysql数据库创建时,忘记设置编码为utf8了,然后再创建表的时候每一列的编码也是latin1,所以才会报这个错误。解决:然后通过查看数据表编码show create table person;查看每一列的编码,将latin1修改为utf8就可以了。...原创 2020-04-02 14:26:20 · 621 阅读 · 0 评论 -
hive的UDAF函数
这篇文章非常清楚的结合例子介绍了UDAF函数https://blog.csdn.net/l1028386804/article/details/80602283原创 2020-03-30 14:18:25 · 387 阅读 · 0 评论 -
spark shuffle详解(hashShuffle和sortShuffle)
Shuffle简介Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下,reduc...原创 2019-12-16 16:37:03 · 1979 阅读 · 0 评论 -
hive优化总结篇
下面这篇博客,总结的非常好!https://blog.csdn.net/yu0_zhang0/article/details/81776459原创 2019-12-09 16:04:24 · 127 阅读 · 0 评论 -
hive的原理详解
hive的概念及优化:https://www.cnblogs.com/hackerer/p/10781289.html原创 2019-12-09 13:38:33 · 125 阅读 · 0 评论 -
kafka为什么可以支持那么大吞吐量,怎么实现的?
kafka为什么可以支持那么大吞吐量,怎么实现的?1、顺序读写磁盘,充分利用了操作系统的预读机制,不需要硬盘磁头的寻道时间。2、kafka的message是按topic分类存储的,topic中的数据又是按照一个一个分区存储都不同的broker节点的,分区实际上又是按照segment分段存储的。kafka又为分段的数据建立了索引文件。这种分区分段+索引的设计,提高了数据操作的并行度及数据读取的效...原创 2019-12-06 15:54:32 · 727 阅读 · 0 评论 -
kafka的key为null时,如何存储的?
http://m.sohu.com/a/161873968_315839原创 2019-12-06 15:38:43 · 497 阅读 · 0 评论 -
sparkStreaming消费kafka数据的两种方式(Receiver和Direct)详解及区别
spark Streaming读取kafka数据的两种方式:(1)receiver-baseReceiver模式是使用kafka的高层次的消费者api来实现的,这种方式是使用receiver不间断的来接收数据(push的模式),接收的数据会存储到Executor中(默认存储级别是内存满后写入磁盘),然后sparkStreaming启动作业去处理数据,处理完这一批数据之后,更新zookeeper...原创 2019-11-27 16:49:19 · 830 阅读 · 0 评论 -
spark的任务调度流程和资源调度机制
spark的*任务调度流程(1)提交应用程序之后,会在该节点启动Driver,Driver构建应用程序的运行环境,启动sparkContext,sparkContext构建DAG有向无环图。DAGScheduler根据RDD的宽窄依赖将DAG有向无环图切割成一个个的stage,将stage封装成taskset对象,将一个个taskset发送给taskscheduler(2)taskschedu...原创 2019-11-27 14:55:01 · 291 阅读 · 0 评论 -
spark的hashshuffle和sortShuffle详解及区别
spark的shuffle两种实现在Spark 1.2以前,默认的shuffle计算引擎是HashShuffleManager。该ShuffleManager而HashShuffleManager有着一个非常严重的弊端,就是会产生大量的中间磁盘文件,进而由大量的磁盘IO操作影响了性能。在Spark 1.2以后的版本中,默认的ShuffleManager改成了SortShuffleManager...原创 2019-11-26 09:51:16 · 2575 阅读 · 0 评论 -
spark的RDD、DataFrame、DataSet之间的区别
RDD、DataFrame和DataSet的区别:RDD是弹性分布式数据集,不可变,可分区DataFrame是RDD的基础上加上结构信息,可以将他看成数据库的表,但是不知道各个字段。DataSet在DataFrame的基础上用样例类(Person)作为DataSet的数据结构。所以:DataSet[Row]=DataFrameDataset结合了RDD和DataFrame的所有优点。...原创 2019-11-26 09:46:33 · 179 阅读 · 0 评论 -
spark的几种模式下的运行流程
7.spark的有几种部署模式,每种模式特点?1)本地模式Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地模式分三类· local:只启动一个executor· local[k]:启动k个executor· local:启动跟cpu数目相同的 executor2)standalo...原创 2019-11-22 14:55:11 · 242 阅读 · 0 评论 -
flink实现状态一致性
状态一致性分类:At-Most-Once(最多一次)当任务故障时,最简单的做法是什么都不干,即不恢复丢失的状态,也不重播丢失的数据。At-most-once的语义是最多处理一次的事件At-Least-Once(至少一次)在大多数的真实应用场景中,我们希望不丢失事件。这种类型的保障成为at-least-once,意思就是所有的事件都得到处理,而且有一些事件还可能被处理多次ExactLy-...原创 2019-11-20 15:12:40 · 646 阅读 · 0 评论 -
flink消费kafka保存到kafka实现的精确一致性
这次介绍的是kafka-flink-kafka实现的精确一致性(两阶段的实现):1、第一条数据来了之后,开启一个kafka的事务,正常写入kafka分区日志但是标记为未提交,这就是未提交。2、jobmanager触发checkpoint操作,barrier从source开始向下传递,遇到barrier的算子将状态存入状态后端,并通知jobmanager3、sink连接器收到barrier,保...原创 2019-11-20 15:09:23 · 1566 阅读 · 0 评论 -
Flink的No implicits found for parameter evidence$11: TypeInformation[String]报错
flink的wordcout报错:No implicits found for parameter evidence$11: TypeInformation[String]这是类型转换时没有找到jar包:导入:import org.apache.flink.api.scala._或者import org.apache.flink.streaming.api.scala._...原创 2019-11-07 15:25:00 · 497 阅读 · 0 评论 -
java.lang.NoClassDefFoundError: org/apache/tez/dag/api/SessionNotRunning
IDEA编写程序:spark SQL连接 hive报错:java.lang.NoClassDefFoundError: org/apache/tez/dag/api/SessionNotRunning我的问题出现在:方法一:把hive-site.xml拷贝到idea的resources中后,hive-site.xml中的一个配置需要改:简单来说,把 “hive.execution.eng...原创 2019-10-17 15:47:34 · 7235 阅读 · 10 评论 -
sparksql用户自定义函数(UDF和聚合函数)
这段时间复习了spark,自己用spark sql 实现了udf和用户自定义函数。废话少说,直接上代码:DataFrame的用户自定义UDF函数用户根据业务情况自定义的函数实现某些功能//创建一个dfval df = spark.read.json(“in/user.json”)//创建一个临时表df.createOrReplaceTempView(“person”)//创建一个u...原创 2019-10-17 11:10:34 · 818 阅读 · 0 评论 -
Spark streaming结合kafka以及结合flume详解
Spark streamingSpark streaming是一种数据传输技术,它把客户机收到的数据变成一个稳定的连续的流,源源不断的送出。流式计算框架:Apache stormspark streamingApache samza数据来源 实时处理 存储到接下来实现一个spark stream...原创 2019-05-26 15:41:36 · 422 阅读 · 0 评论 -
flink table api/sql消费kafka的json数据保存到mysql
flink消费kafka数据的版本问题,可以去https://mvnrepository.com/,查看对应版本。如果在开发过程中,出现版本不对应,那么kafka的topic一定要重新创建一个,以防各种错误。环境:mysqlzookeeper:3.4.13kafka:0.8_2.11flink:1.7.2(pom.xml中)启动zookeeperbin/zkServer.sh st...原创 2019-06-14 15:04:06 · 10238 阅读 · 5 评论