- 博客(7)
- 收藏
- 关注
原创 Flink-双十一神话的基石
2019年天猫双11再次刷新世界记录,订单创新峰值达到54.4万笔/秒,单日数据处理量达到970PB;支撑起这个双十一狂欢神话是阿里强悍的数据云上系统,这其中阿里的数据计算云引擎Blink功不可没,而Blink正是由Apache的顶级项目Flink经过"阿里化“而来;四代计算引擎:MapReduce:批处理引擎,为其他计算引擎提供量大数据处理的核心思想:Mapper、Reduce;Stor...
2019-11-14 10:05:26 353
原创 Flink容错机制-双十一神话的安全保障
Flink容错机制以及Chandy-Lamport算法流式计算分为有状态和无状态两种情况,所谓状态就是计算过程中的中间值;对于无状态计算,会独立观察每个独立事件,并根据最后一个事件输出结果:对于一个流式系统接收到一系列的数字,当数字大于N则输出,这时候在此之前的数字的值、和等情况,压根不关心,只和最后这个大于N的数字相关就行;有状态计算:想求过去一分钟所有数字的和或者平均数等,这种就需要保存...
2019-11-17 14:44:47 303
原创 Flink的时间(Time)机制
乱序问题某数据源中的某些数据由于某种原因会有5秒的延迟,也就是在实际时间的第1秒产生的数据有可能5秒中产生的数据之后到来,如何让这个延迟的数据回到正确的顺序位置;Time类型:Time是Flink中重要概念之;关于Apache Flink中有如下三种时间类型:Processing Time : 处理时间,当前机器处理该事件的时间(即进入某个算子时的系统时间),有着最好的性能和最低的延迟...
2019-11-14 21:34:25 2183
原创 Spark Streaming详解
内容sparkStreaming简介spark Streaming和Storm区别Spark Streaming算子Spark checkpointingSpark和kafka整合Spark StreamingSparkStreaming是一种流式处理框架,是SparkAPI的扩展,支持可扩展、高吞吐、容错的***准实时***数据处理,实时数据的来源可以事:Kafka、F...
2019-11-02 11:46:37 396
原创 Spark 常用算子详解(转换算子、行动算子、控制算子)
Spark简介Spark是专为大规模数据处理而设计的快速通用的计算引擎;Spark拥有Hadoop MapReduce所具有的优点,但是运行速度却比MapReduce有很大的提升,特别是在数据挖掘、机器学习等需要迭代的领域可提升100x倍的速度:Spark是基于内存进行数据处理的,MapReduce是基于磁盘进行数据处理的;Spark中具有DAG有向无环图,DAG有向无环图在此过程中减少...
2019-10-22 18:20:47 6552
原创 大数据开发Hadoop2.7+zookeeper+Hbase+Hive完全分布式搭建(超详细)
Hadoop2.7+zookeeper+Hbase+Hive完全分布式搭建最近在新电脑上配置大数据开发环境,踩了不少坑,更具网上的一些方法整理了一套比较简单的hadoop+zookeeper+hbase+hive环境的搭建(由于虚拟机环境均以root用户操作);除了zookeeper的myid,其他设置所有虚拟机上都一样,所以可以一台虚拟机全部安装配置完以后直接完全克隆几个,再配置单独的静态...
2019-09-26 10:41:15 2542
原创 好看的web用户管理模块(登录注册)
简洁的登录注册前台登录界面导入bootstrap和jquery路径<link rel="stylesheet" href="statics/bootstrap/css/bootstrap.min.css" /><script type="text/javascript" src="statics/js/jquery-3.4.1.js"></script>...
2019-06-14 09:24:49 5155 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人