SusurHe-CSDN博客

原创 Flink-双十一神话的基石

2019年天猫双11再次刷新世界记录，订单创新峰值达到54.4万笔/秒，单日数据处理量达到970PB；支撑起这个双十一狂欢神话是阿里强悍的数据云上系统，这其中阿里的数据计算云引擎Blink功不可没，而Blink正是由Apache的顶级项目Flink经过"阿里化“而来；四代计算引擎：MapReduce：批处理引擎，为其他计算引擎提供量大数据处理的核心思想：Mapper、Reduce；Stor...

2019-11-14 10:05:26 353

Flink容错机制以及Chandy-Lamport算法流式计算分为有状态和无状态两种情况，所谓状态就是计算过程中的中间值；对于无状态计算，会独立观察每个独立事件，并根据最后一个事件输出结果：对于一个流式系统接收到一系列的数字，当数字大于N则输出，这时候在此之前的数字的值、和等情况，压根不关心，只和最后这个大于N的数字相关就行；有状态计算：想求过去一分钟所有数字的和或者平均数等，这种就需要保存...

2019-11-17 14:44:47 303

原创 Flink的时间(Time)机制

乱序问题某数据源中的某些数据由于某种原因会有5秒的延迟，也就是在实际时间的第1秒产生的数据有可能5秒中产生的数据之后到来，如何让这个延迟的数据回到正确的顺序位置；Time类型：Time是Flink中重要概念之；关于Apache Flink中有如下三种时间类型：Processing Time : 处理时间，当前机器处理该事件的时间(即进入某个算子时的系统时间)，有着最好的性能和最低的延迟...

2019-11-14 21:34:25 2183

原创 Spark Streaming详解

内容sparkStreaming简介spark Streaming和Storm区别Spark Streaming算子Spark checkpointingSpark和kafka整合Spark StreamingSparkStreaming是一种流式处理框架，是SparkAPI的扩展，支持可扩展、高吞吐、容错的***准实时***数据处理，实时数据的来源可以事：Kafka、F...

2019-11-02 11:46:37 396

原创 Spark 常用算子详解（转换算子、行动算子、控制算子）

Spark简介Spark是专为大规模数据处理而设计的快速通用的计算引擎；Spark拥有Hadoop MapReduce所具有的优点，但是运行速度却比MapReduce有很大的提升，特别是在数据挖掘、机器学习等需要迭代的领域可提升100x倍的速度：Spark是基于内存进行数据处理的，MapReduce是基于磁盘进行数据处理的；Spark中具有DAG有向无环图，DAG有向无环图在此过程中减少...

2019-10-22 18:20:47 6552

原创大数据开发Hadoop2.7+zookeeper+Hbase+Hive完全分布式搭建（超详细）

Hadoop2.7+zookeeper+Hbase+Hive完全分布式搭建最近在新电脑上配置大数据开发环境，踩了不少坑，更具网上的一些方法整理了一套比较简单的hadoop+zookeeper+hbase+hive环境的搭建（由于虚拟机环境均以root用户操作）；除了zookeeper的myid，其他设置所有虚拟机上都一样，所以可以一台虚拟机全部安装配置完以后直接完全克隆几个，再配置单独的静态...

2019-09-26 10:41:15 2542

原创好看的web用户管理模块(登录注册)

简洁的登录注册前台登录界面导入bootstrap和jquery路径<link rel="stylesheet" href="statics/bootstrap/css/bootstrap.min.css" /><script type="text/javascript" src="statics/js/jquery-3.4.1.js"></script&gt...

2019-06-14 09:24:49 5155 3

weixin_44735572的博客