- 博客(726)
- 资源 (294)
- 论坛 (42)
- 收藏
- 关注
转载 滴滴Flink-1.10升级之路
1.背景在本次升级之前,我们使用的主要版本为Flink-1.4.2,并且在社区版本上进行了一些增强,提供了StreamSQL和低阶API两种服务形式。现有集群规模达到了1500台物理...
2021-01-15 09:11:04
4
转载 连续三年蝉联第一,Flink 荣膺全球最活跃的 Apache 开源项目
2020年,一个注定会被历史铭记的一年。在全球化合作受到挑战的大环境下,作为全球最大的开源软件基金会,Apache 软件基金所引领的开源社区,依然汇聚了全球的顶尖开发人员,交出了一份鼓舞...
2021-01-14 09:00:00
10
转载 Apache Kylin 在汽车之家的实时多维分析演进与实践
近期,Apache Kylin 5 周年在线庆典顺利结束,来自汽车之家的实时计算平台负责人 邸星星 老师为大家介绍了 Apache Kylin 在汽车之家的升级历程,以及在实时多维分析方...
2021-01-14 09:00:00
6
转载 致ClickHouse用户的一封信
亲爱的ClickHouse用户:您好!感谢您在百忙之中抽出时间来阅读此信。虽然未曾谋面,但我们关注您已经有很长一段时间了。您的企业非常重视数据分析工作,想通过数据分析来提升运营效率,发现...
2021-01-13 08:55:08
22
转载 Apache Kylin 在 eBay 的实践
作者简介 Lisa Li,在 eBay 中国研发中心大数据平台部门担任研发主管。带领的团队主要负责 SQL on Hadoop 的方案,给使用 SQL 查询语言的数据分析师在开源的 Ha...
2021-01-12 09:14:29
13
转载 360 一站式大数据资源管理与开发平台
360系统部成立于2010年,负责整个集团的大数据底层基础平台建设(包括分布式存储、分布式计算、大数据搜索、图计算等各类大数据服务),目前服务于整个集团30+部门,1000+用户,服务器...
2021-01-11 09:07:06
28
转载 关于大数据中台被问最多的问题,今天一次性说清!
你被大数据杀过熟吗?当今企业对数据的重视度越来越高,在大数据系统架构设计层面,大数据架构师需要完成技术决策、技术选型,还需要根据不同时期的业务场景,不断优化和演进软件架构,最终攻克技术难...
2021-01-11 09:07:06
16
转载 快手大数据平台服务化实践
本文是围绕着快手的数据服务化中台进行介绍。第一部分是背景介绍,包括数据开发的痛点,第二部分是介绍大数据服务化平台,包括平台架构以及关键细节详解,第三部分是经验总结和未来思考。背景快手是一...
2021-01-10 21:09:00
28
转载 为什么 Linux 默认页大小是 4KB
我们都知道 Linux 会以页为单位管理内存,无论是将磁盘中的数据加载到内存中,还是将内存中的数据写回磁盘,操作系统都会以页面为单位进行操作,哪怕我们只向磁盘中写入一个字节的数据,我们也...
2021-01-09 20:30:03
24
转载 推荐一个Java大数据公众号
以下为部分文章列表:(点击文字可访问文章)JavaJava日常开发的21个坑,你踩过几个?Java云服务开发知识学习Q&A大数据2020大数据面试题真题总结(附答案)大数据快速入...
2021-01-08 09:42:07
19
转载 携程商旅用户画像系统设计实现
一、用户画像用户画像这一概念最早源于交互设计领域,由交互设计之父Alan Cooper提出。其指出用户画像是真实用户的虚拟代表,是建立在真实数据之上的目标用户模型。具体而言,在互联网用户...
2021-01-08 09:42:07
46
原创 图文理解 Spark 3.0 的动态分区裁剪优化
Spark 3.0 为我们带来了许多令人期待的特性。动态分区裁剪(dynamic partition pruning)就是其中之一。本文将通过图文的形式来带大家理解什么是动态分区裁剪。S...
2021-01-07 09:16:24
6800
4
原创 Delta Lake 提供纯 Scala\Java\Python 操作 API,和 Flink 整合更加容易
最近,Delta Lake 发布了一项新功能,也就是支持直接使用 Scala、Java 或者 Python 来查询 Delta Lake 里面的数据,这个是不需要通过 Spark 引擎来...
2021-01-06 08:54:00
28
转载 基于Flink构建实时数仓实践
导读随着公司用户增长业务快速发展,陆续孵化出 部落、同镇、C 端会员、游戏等非常多的业务板块。与此同时产品及运营对实时数据需求逐渐增多,帮助他们更快的做出决策,更好的进行产品迭代,实时数...
2021-01-05 09:00:00
101
转载 揭秘PB级大数据中台架构设计方案!OLTP、OLAP架构场景剖析
你被大数据杀过熟吗?当今企业对数据的重视度越来越高,在大数据系统架构设计层面,大数据架构师需要完成技术决策、技术选型,还需要根据不同时期的业务场景,不断优化和演进软件架构,最终攻克技术难...
2021-01-04 09:00:00
45
转载 大数据权限安全在滴滴的实践
在滴滴,数据是非常重要的资产,基于数据的数仓建设,数据分析、数据挖掘、数据科学等构建了滴滴的数据体系,支撑着滴滴的业务快速发展。在这个背景下,如何保障用户获...
2021-01-04 09:00:00
17
原创 盘点2020年晋升为Apache TLP的大数据相关项目
在过去一年有很多 Apache 孵化项目顺利毕业成顶级项目(Top-Level Project ,简称 TLP ),在这里我将给大家盘点 2020 年晋升为 Apache TLP 的大数...
2021-01-03 21:14:00
56
转载 Docker 被禁,K8S 救火!
作为一个Java架构师,做了多年的分布式系统,其实,真正关心的并不是服务器、交换机、负载均衡器、监控与部署这些事物,而是“服务”本身。直到Kubernetes的出现,很大程度上提升了软件...
2021-01-03 21:14:00
22
转载 Java 16 即将发布,你还能追上 Java 的更新速度吗?
当开发者深陷 Java 8 版本之际,这边下一版本 Java 16 有了最新的消息,与 Java 15 一样,作为短期版本,Oracle 仅提供 6 个月的支持。根据发布计划,JDK 1...
2021-01-02 20:45:18
62
转载 2020年度阅读数TOP 20文章汇总
在过去的2020年,过往记忆大数据公众号发布了300+技术文章,此处列举全年阅读数 TOP 20 的文章,再次分享给大家。•Apache Spark 3.0.0 正式版终于发布了,重要特...
2021-01-02 20:45:18
28
原创 Twitter 如何将 Kafka 当做一个存储系统
前言当开发人员通过我们提供的 API 使用公开的 Twitter 数据时,他们需要可靠性、高效的性能以及稳定性。因此,在前一段时间,我们为 Account Activity API 启动...
2020-12-31 08:52:52
27
1
转载 PrestoSQL 项目更名为 Trino,彻底和 PrestoDB 分家
2020年12月27日,Martin Traverso、 Dain Sundstrom 以及 David Phillips 大佬们宣布将 PrestoSQL 项目的名字更名为 Trino...
2020-12-30 09:00:00
131
转载 ClickHouse在京东流量分析的应用实践
前言ClickHouse 是一款开源列式存储的分析型数据库,相较业界OLAP数据库系统,其最核心优势就是极致的查询性能。它实现了向量化执行和SIMD指令,对内存中的列式数据,一个batc...
2020-12-29 09:40:18
136
转载 还有多久 Flink 会取代 Spark?先看看 Flink 流批一体有多牛吧!
身为大数据工程师,你还在苦学Spark、Hadoop、Storm,却还没搞过Flink?醒醒吧!刚过去的2020双11,阿里在Flink实时计算技术的驱动下全程保持了“如丝般顺滑”,基于...
2020-12-28 09:00:00
50
转载 携程 Redis 治理演进之路
作者简介本文为联合撰稿,作者团队包括:布莱德,携程技术专家;向晨,携程数据库专家;骋成,携程技术专家;小峰,携程高级软件工程师。一、背景携程Redis集群规模和数据规模在过去几年里快速...
2020-12-28 09:00:00
20
原创 Apache Kafka 2.7.0 稳定版发布,有哪些值得关心的变化?
Apache Kafka 2.7.0 于2020年12月21日正式发布,这个版本是目前 Kafka 最新稳定版本,大家可以根据需要自行决定是否需要升级到次版本,关于各个版本升级到 Apa...
2020-12-27 20:35:07
5287
3
转载 Flink Forward Asia 2020 -- Keynote 总结
作者:王峰(莫问)、梅源剩喜漫天飞玉蝶,不嫌幽谷阻黄莺。2020 年是不寻常的一年,Flink 也在这一年迎来了新纪元。12 月13 – 15 号,2020 Flink Forward...
2020-12-26 08:59:00
34
转载 详解分布式协调服务 ZooKeeper,再也不怕面试问这个了
ZooKeeper 是一个分布式协调服务,由 Apache 进行维护。ZooKeeper 可以视为一个高可用的文件系统。ZooKeeper 可以用于发布/订阅、负载均衡、命令服务、分布...
2020-12-25 09:04:37
43
转载 eBay 广告数据平台的 OLAP 系统演进实战
01背景eBay广告数据平台为eBay第一方广告主(使用Promoted Listing服务的卖家)提供了广告流量、用户行为和效果数据分析功能。广告卖家通过卖家中心(Seller Hu...
2020-12-24 08:52:00
40
转载 滴滴在HBase性能与可用性上的探索与实践
导读:HBase作为Hadoop生态中表现较为突出的分布式在线数据存储产品,在滴滴有着非常广泛的应用,但同样存在比较突出的短板问题——例如可用性较弱、毛刺严重等,一定程度上限制了它的业务...
2020-12-23 09:00:00
31
转载 想入行大数据领域,学习路线怎么规划?
自从“大数据”成为国民热词以来,想入行的人越来越多,不管是为了提高收入还是兴趣使然,只要是想学习新的知识,就必须有套系统的学习路线。本文整理了大数据领域入门必学的一些知识点,以及每个知识...
2020-12-23 09:00:00
56
转载 10小时,就能吃透Kafka源码?
在大数据时代飞速发展的当下,Kafka凭借着其高吞吐低延迟、高压缩性、持久性、可靠性、容错性以及高并发的优势,解决了“在巨大数据下进行准确收集并分析”的难题,也受到了不少大厂以及工程师的...
2020-12-22 09:00:00
44
转载 Presto 在有赞的实践之路
本文主要介绍了 Presto 的简单原理,以及 Presto 在有赞的实践之路。一、Presto 介绍Presto 是由 Facebook 开发的开源大数据分布式高性能 SQL 查询引擎...
2020-12-22 09:00:00
98
转载 Flink 还是 Spark?阿里技术专家一语道破真相!
身为大数据工程师,你还在苦学Spark、Hadoop、Storm,却还没搞过Flink?醒醒吧!刚过去的2020双11,阿里在Flink实时计算技术的驱动下全程保持了“如丝般顺滑”,基于...
2020-12-21 09:00:00
54
转载 贝壳找房 OLAP 平台实践
Kylin 在贝壳的使用情况介绍Kylin从2017年开始作为贝壳公司级OLAP引擎对外提供服务,目前有100多台Kylin实例;有800多个Cube;有300多T的单副本存储;在贝壳 ...
2020-12-21 09:00:00
69
转载 Apache Flink 1.12.0 正式发布,真正的流批一体
Apache Flink 社区很荣幸地宣布 Flink 1.12.0 版本正式发布!近 300 位贡献者参与了 Flink 1.12.0 的开发,提交了超过 1000 多个修复或优化...
2020-12-20 21:07:00
409
转载 万亿级数据应该怎么迁移?
背景在星爷的《大话西游》中有一句非常出名的台词:“曾经有一份真挚的感情摆在我的面前我没有珍惜,等我失去的时候才追悔莫及,人间最痛苦的事莫过于此,如果上天能给我一次再来一次的机会,我会对哪...
2020-12-19 09:30:00
40
原创 Presto在车好多的实践
本文作者:车好多大数据OLAP团队-王培Presto 简介1.简介Presto 最初是由 Facebook 开发的一个分布式 SQL 执行引擎, 它被设计为用来专门进行高速、实时的数据分...
2020-12-18 08:22:00
3970
7
转载 推荐一个不发广告的大数据公众号
公众号无疑是最方便、最直接的获取内容的方式,奈何很多公众号为了生存,不得不接一些广告,虽说不发广告的时候,技术文章质量很高,但到底是影响阅读体验。现如今,还有没有一个纯净的、只发干货文章...
2020-12-18 08:22:00
35
1
The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf
2019-10-28
Spark SQL 在字节跳动的优化实践-郭俊.pdf
2019-12-03
Apache Doris (Incubating) 原理与实践.pdf
2019-12-10
spark-summit-north-america-2018-06 全部 PPT -part2
2018-06-17
spark-summit-north-america-2018-06 全部 PPT -part1
2018-06-19
Spark AI Summit Europe 2018 全部PPT
2018-10-13
SPARK + AI SUMMIT 2019 全部 PPT
2019-09-21
Spark+AI Summit Europe 2019_iteblog.zip.002
2019-11-01
Spark+AI Summit Europe 2019_iteblog.zip.001
2019-11-01
Windows GUI高级编程(C#编程篇) 英文版
2011-08-16
Learning Python Network Programming.pdf
2017-02-13
高可用性的HDFS:Hadoop分布式文件系统深度实践
2013-11-29
Apache Spark 3.0, Koalas, Delta Lake 最新进展
2019-10-28
Fast Data Processing with Spark
2014-12-08
Hadoop Real-World Solutions Cookbook
2014-03-27
Apache Hadoop YARN
2014-03-27
Hadoop.The.Definitive.Guide.3rd.Edition
2013-12-02
Professional Hadoop Solutions
2013-12-02
Hadoop权威指南(第2版)
2013-12-02
Lucene实战(第2版)中文版(免积分)
2013-08-05
Spring攻略 英文第二版
2013-08-01
过往记忆的留言板
发表于 2020-01-02 最后回复 2020-01-02
java读取网页保存之后都是乱码
发表于 2012-07-28 最后回复 2019-09-26
有谁和我一样一直找不到CSDN的用户空间页面?
发表于 2014-10-09 最后回复 2017-07-02
C结构体、C++结构体 和 C++类的区别
发表于 2012-06-29 最后回复 2017-04-05
PD4ML处理中文的页面怎么处理乱码的问题?
发表于 2012-07-16 最后回复 2016-10-19
java中JTextField怎么设置只能输入一个数字?
发表于 2012-04-08 最后回复 2016-08-14
linux 里面编写c语言用什么软件好用啊?
发表于 2010-04-28 最后回复 2015-06-10
hibernate怎么查询具体一行数据
发表于 2010-05-31 最后回复 2013-07-18
访问自己配置的juddi出现异常
发表于 2013-03-01 最后回复 2013-03-01
安装Joomla!配置mysql数据库时候出错?
发表于 2013-01-06 最后回复 2013-01-06
【【已答复】【腾讯2013校招笔试试题】资源怎么莫名被删掉?求解释!
发表于 2012-12-16 最后回复 2012-12-18
linux里面运行最简单的c程序居然出现这种情况
发表于 2010-04-29 最后回复 2012-11-23
Java中两个模板类对象怎么共享一个容器?
发表于 2012-09-25 最后回复 2012-09-25
java程序访问一个网站次多了就被限制IP了怎么处理?
发表于 2012-08-10 最后回复 2012-08-13
两个很大的数据相加如何实现?
发表于 2012-08-07 最后回复 2012-08-08
下面的两段代码为什么输出不一样??
发表于 2012-08-05 最后回复 2012-08-07
URL相对地址以及绝对地址怎么区分?
发表于 2012-07-28 最后回复 2012-07-28
下面的程序哪有出错了?
发表于 2012-07-25 最后回复 2012-07-25
【已处理】资源不存在为什么还要扣除我们的积分?
发表于 2012-07-14 最后回复 2012-07-16
java创建文件失败
发表于 2012-07-09 最后回复 2012-07-09
怎么求一个给定数组连续区间数之和绝对值最大
发表于 2012-05-12 最后回复 2012-05-13
这个程序哪里有问题??
发表于 2012-05-12 最后回复 2012-05-12
哪里可以下载ANSI C标准库里面函数实现的代码?
发表于 2012-05-11 最后回复 2012-05-11
下面程序哪里有问题
发表于 2012-04-09 最后回复 2012-04-09
C++内存泄漏问题
发表于 2012-03-23 最后回复 2012-03-23
谁有jsp的视屏教程下载网站啊
发表于 2009-12-28 最后回复 2012-02-18
如何得到canvas面板上图片的坐标?
发表于 2011-02-21 最后回复 2011-02-21
Ubuntu中网页各种插件安装命令
发表于 2010-05-01 最后回复 2010-10-10
制作一个24点游戏的算法…………
发表于 2010-07-13 最后回复 2010-07-13
哪里有像javaeye里面的UBB下载啊?
发表于 2010-05-01 最后回复 2010-07-13
懂制作网站的请进
发表于 2010-07-09 最后回复 2010-07-13
是学java有前途还是学c++或者c有前途??
发表于 2010-06-13 最后回复 2010-06-17
考研到底需要报辅导班不?
发表于 2010-06-11 最后回复 2010-06-12
用java制作一个词法分析器?
发表于 2010-06-11 最后回复 2010-06-11
懂hibernate请进【外键出错】…
发表于 2010-05-04 最后回复 2010-05-10
求助下拉式列表框(Select)
发表于 2010-05-08 最后回复 2010-05-08
Hibernate 怎么在查询语句里面进行排序
发表于 2010-05-07 最后回复 2010-05-08
Tomcat常见错误代号
发表于 2009-12-25 最后回复 2010-04-28
java里面的mouseDown时间的用法
发表于 2010-03-15 最后回复 2010-03-15
知道scwcd考试的请进
发表于 2009-12-25 最后回复 2009-12-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人 TA的粉丝