- 博客(36)
- 资源 (291)
- 收藏
- 关注
转载 腾讯月薪20k的数据分析人才,需要具备怎样的技能?
每年5、6月份,都难逃求职话题。尤其在当前不容易乐观的经济形势下,更让人关注。据招聘平台智联调研,2020复工第七周,周竞争指数超去年1.8。求职的同学今年明显感受到竞争的激烈。据猎聘对...
2020-06-30 20:00:00 453
转载 美团点评实时数仓实践
整理 | 青渊(Flink 社区志愿者)校对 | 青雉(Flink 社区志愿者)摘要:本文根据 Apache Flink 系列直播整理而成,由美团点评数据系统研发工程师黄伟伦老师分享。主...
2020-06-30 20:00:00 678
原创 全方位解读数砖的 Delta Engine
在 Spark AI Summit 的第一天会议中,数砖重磅发布了 Delta Engine。这个引擎 100% 兼容 Apache Spark 的向量化查询引擎,并且利用了现代化的 C...
2020-06-28 21:31:21 926
转载 完成你的第一个智能无人机
前 言对于大多数无人机爱好者来说,能自己从头开始组装一台无人机,之后加入AI算法,能够航拍,可以目标跟踪,是心中的梦想。并且,亲自从零开始完成复杂系统,这是掌握核心技术的必经之路。基于此...
2020-06-27 20:00:00 731 2
转载 跨境电商 Shopee 的实时数仓演进之路
摘要:本文讲述 Flink 在 Shopee 新加坡数据组(Shopee Singapore Data Team)的应用实践,主要内容包括:实时数仓建设背景Flink 在实时数据数仓建设...
2020-06-27 20:00:00 749
原创 Spark 背后的商业公司收购的 Redash 是个啥?
在2020年6月24日的 Spark AI summit Keynote 上,数砖的首席执行官 Ali Ghodsi 宣布其收购了 Redash 开源产品的背后公司 Redash!如果想...
2020-06-26 19:57:03 1466
原创 马铁大神的 Apache Spark 十年回顾
首先祝大家端午节快乐,幸福安康。就在上周五, Apache Spark 3.0全新发布,此版本给我们带来了许多重要的特性,感兴趣的同学可以看下这篇文章:Apache Spark 3....
2020-06-25 16:53:19 1067
转载 一份 Hadoop 面试 【避坑指南】 拍了拍你!
在热招的开发岗面试中,Hadoop、HDFS 题被面试官选中的几率非常大,也是 HR 的杀手锏之一,常会被问的有以下几种面试题: 1. HDFS 的架构设计是怎样的? 2. HDFS...
2020-06-24 19:54:43 460
转载 YARN 在字节跳动的优化与实践
导读:本文从利用率提升、多负载场景优化、稳定性提升、异地多活四个方面介绍了字节跳动在四年来对 Hadoop YARN 进行的一系列的优化,以及生产环境中的实践经验。1.YARN 简介1...
2020-06-23 20:02:00 1350
转载 大规模使用 Apache Kafka 的20个最佳实践
Apache Kafka是一款流行的分布式数据流平台,它已经广泛地被诸如New Relic(数据智能平台)、Uber、Square(移动支付公司)等大型公司用来构建可扩展的、高吞吐量的、...
2020-06-22 21:48:41 402
原创 Apache Arrow:跨平台的内存数据交换格式
ApacheArrow是Apache基金会下一个全新的开源项目,同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。它为列式内存存储的处理和交互提供了规范...
2020-06-21 19:51:00 1014
转载 深入分析 Flink SQL 工作机制
整理|陈婧敏(Flink 社区志愿者)摘要:本文整理自 Flink Forward 2020 全球在线会议中文精华版,由 Apache Flink PMC 伍翀(云邪)分享,社区志愿...
2020-06-20 20:03:00 1095
原创 Apache Spark 3.0.0 正式版终于发布了,重要特性全面解析
原计划在2019年年底发布的 Apache Spark 3.0.0 今天终于赶在下周二举办的 Spark Summit AI 会议之前正式发布了! Apache Spark 3.0.0 ...
2020-06-19 08:07:26 3157
转载 完美避坑!记一次Elasticsearch集群迁移架构实战
作者介绍李猛(ynuosoft),Elastic-stack产品深度用户,ES认证工程师,2012年接触Elasticsearch,对Elastic-Stack开发、架构、运维等方面有深...
2020-06-18 08:30:00 1099
转载 Kafka面试,你真的过关了吗?
在热招的大数据架构师岗位面试中,Kafka 面试题被面试官选中的几率非常大,也是HR 的杀手锏和狠招,一般来讲,面试题有以下几种:1. Kafka 为什么这么快?2. 如何对 Kafka...
2020-06-17 08:28:00 648
原创 从行存储到 RCFile,Facebook 为什么要设计出 RCFile?
2010年,Facebook 的工程师在 ICDC(IEEE International Conference on Data Engineering) 发表了一篇 《RCFile: A...
2020-06-17 08:28:00 714
转载 Kafka架构原理,也就这么回事!
图片来自 Pexels最终大家会掌握 Kafka 中最重要的概念,分别是 Broker、Producer、Consumer、Consumer Group、Topic、Partition、...
2020-06-15 08:27:00 458
原创 来自 Facebook 的 Spark 大作业调优经验
Facebook Spark 的使用情况在介绍下面文章之前我们来看看 Facebook 的 Spark 使用情况:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注...
2020-06-14 20:20:02 923
转载 日志采集系统都用到哪些技术?
本文原文:http://jm.taobao.org/2018/06/13/日志采集中的关键技术分析/ (点击下面阅读原文即可进入)概述日志从最初面向人类演变到现在的面向机器发生了巨大的变...
2020-06-13 20:34:35 612
转载 Flink在快手实时多维分析场景的应用
分享嘉宾:董亭亭、徐明 快手编辑整理:王洪达内容来源:Flink Forward Asia出品平台:Flink中文社区、DataFunTalk导读:作为短视频分享跟直播的平台,快手有诸多...
2020-06-12 20:00:00 725
转载 58同城宝实时数仓建设实践
背景作为国内领先的覆盖生活全领域的服务平台,58同城业务覆盖招聘、房产、汽车、金融等生活领域的各个方面。58同城宝是针对生活服务信息做广告推广的平台,依托58同城海量的商户和每天更新的生...
2020-06-11 20:52:00 5946
转载 HBase 不停机升级在滴滴的实践
桔妹导读:滴滴HBase团队日前完成了0.98版本 -> 1.4.8版本滚动升级,用户无感知。新版本为我们带来了丰富的新特性,在性能、稳定性与易用性方便也均有很大提升。我们将整个升...
2020-06-10 20:00:05 416
转载 当当年中庆典,力度超前,据说他花200买了10本书!
囤书囤书我们一起阅读经典,紧跟前沿技术不掉队这次继续给爱读书的你们最大的优惠力度当当618年中大促,百万自营图书>>每满100减50 <<满200减100满3...
2020-06-09 19:54:00 472
转载 Apache Spark 在eBay 的优化
供稿 |eBay DSSTeam作者| 田川晓阳编辑 | 顾欣怡本文4490字,预计阅读时间14分钟导读新一代数据开发分析平台Zeta由eBay DSS(Data Services...
2020-06-09 19:54:00 820
转载 支撑美团万亿级数据中心的计算引擎架构演进
本文将详细阐述 Watt 计算引擎的演进历程及架构设计,同时详细介绍其全面提升计算能力、吞吐能力、降低运维成本所采用的各项技术方案。希望能给大家一些启发或者帮助。一、OCTO数据中心简介...
2020-06-08 08:31:00 669
转载 “疫情之下,我同时收到腾讯发过来的3份offer”
一般来说年后的这段时间是大厂招聘、就业者求职跳槽的黄金时期,但今年因为疫情的原因,很多人的辞职计划被搁浅了下来,有些年前已经辞完职坐等年后复工找新工作的程序员陷入了迟迟找不到工作的焦虑中...
2020-06-08 08:31:00 678
转载 一份优秀的大数据开发简历是怎么样的?
有个朋友,上个月准备从 Java 转做大数据,一个月过去了,一份面试都没约到,来问我怎么回事。我一看简历,期望年薪 40w,深度也不够,要大项目也没有。我们做大数据的,虽说是薪资高,但...
2020-06-07 09:57:00 4412 1
原创 一文彻底搞清 Kafka 的副本复制机制
也可以到过往记忆大数据博客阅读(点击下面阅读原文即可) https://www.iteblog.com/archives/2556.html让分布式系统的操作变得简单,在某种程度上是一种...
2020-06-07 09:57:00 508
转载 Elasticsearch如何做到亿级数据查询毫秒级返回?
点击▲关注 “过往记忆大数据” 给公众号标星置顶更多精彩 第一时间直达本文转自|https://zhuanlan.zhihu.com/p/60458049面试题es 在数据量很大...
2020-06-06 21:51:30 645
转载 Apache Spark + AI,快来解救我们的脊椎
2020年6月4日,首届 Apache Spark AI 智能诊断大赛在天池官网上线。Spark “数字人体” AI挑战赛——脊柱疾病智能诊断大赛,聚焦医疗领域应用,召集全球开发者利用人...
2020-06-05 20:00:00 935
转载 Flink Checkpoint 原理流程以及常见失败原因分析
作者:沈磊团队:大数据Tips:文末有免费送书活动哦!!前言目前有赞实时任务主要以 Flink 为主,为了保证实时任务的容错恢复以及停止重启时的状态恢复,几乎所有的实时任务都会开启 Ch...
2020-06-05 20:00:00 1562
转载 一文了解 Apache Flink 的资源管理机制
整理:王文杰(Flink 社区志愿者)摘要:本文根据 Apache Flink 系列直播整理而成,由阿里巴巴高级开发工程师宋辛童分享。文章主要从基本概念、当前机制与策略、未来发展方向等三...
2020-06-04 12:01:54 306
转载 QQ音乐PB级ClickHouse实时数据平台架构演进之路
导语 |OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值。本文基于QQ音乐海量大数据实时分...
2020-06-03 12:05:51 944 1
转载 上个月,我撸了一份阿里架构师 651 多个技术分支的脑图,要么?(限时领)...
经常有大数据工程师问我,自己想往大数据架构师方向发展,问我应该怎么努力!其实,蹲上架构师的坑需要的是更高层次的开发构架设计能力。这时候,架构师技术能力的强弱、素质的高低直接关乎了软件项目...
2020-06-03 12:05:51 398
转载 即将发布的 Flink 1.11 新特性:流批一体的 Hive 数仓
首先恭喜 Table/SQL 的 blink planner 成为默认 Planner,撒花、撒花。Flink 1.11 中流计算结合 Hive 批处理数仓,给离线数仓带来 Flink ...
2020-06-02 21:03:15 1898
转载 大数据平台架构设计没思路?来看这篇就知道了!
图片来自 Pexels在业务增涨过程中,每个企业不知不觉积累积累了一些数据。无论数据是多是少,企业都希望让“数据说话”,通过对数据的采集、存储、分析、计算最终提供对业务有价值信息。此时,...
2020-06-01 21:46:22 915
HBase in Practise: 性能、监控和问题排查
2018-08-13
HBase Procedure V2介绍
2018-08-13
Scala Cheat Sheet
2018-07-04
Apache Hive Functions Cheat Sheet
2018-07-04
Apache Spark Cheat Sheet
2018-07-04
spark-summit-north-america-2018-06 全部 PPT -part1
2018-06-19
spark-summit-north-america-2018-06 全部 PPT -part2
2018-06-17
A Deep Dive into Stateful Stream Processing in Structured Streaming
2018-06-17
Implementing AutoML Techniques at Salesforce Scale
2018-06-17
Using AI to Deliver a Device as a Service
2018-06-17
Foundations of streaming SQL
2018-06-15
Deep Dive into Spark SQL with Advanced Performance Tuning
2018-06-11
Qcon北京2018-《区块链服务在华为公有云平台上的重要问题设计实现及解决方法》-张子怡.pdf
2018-05-16
QCon北京2018-强业务驱动的互联网+,技术管理的坑与路--廖雪梅.pdf
2018-05-16
QCon北京2018-《用正确分享来磨练专家实力——分享型专家升级记》-黄闻欣.pdf
2018-05-16
QCon北京2018-《Oracle区块链架构及其应用开发》-蒋春明.pdf
2018-05-16
Apache iceberg:Netflix 数据仓库的基石
2020-02-23
Apache Hadoop 3.x state of the union and upgrade guidance
2020-02-04
Apache Doris (Incubating) 原理与实践.pdf
2019-12-10
Spark SQL 在字节跳动的优化实践-郭俊.pdf
2019-12-03
Spark+AI Summit Europe 2019 Part 3
2019-11-03
Spark+AI Summit Europe 2019_iteblog.zip.002
2019-11-01
Spark+AI Summit Europe 2019_iteblog.zip.001
2019-11-01
The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf
2019-10-28
Apache Spark 3.0, Koalas, Delta Lake 最新进展
2019-10-28
SPARK + AI SUMMIT 2019 全部 PPT
2019-09-21
From Stream Processor to a Unified Data Processing System
2019-04-20
Apache Spark 2.4 and beyond
2019-04-14
Flink社区专刊S2-重新定义计算
2019-04-11
从MPP数仓迁移至Spark:案例与最佳实践分享
2019-03-31
2018 Apache HBase 技术实战专刊
2019-01-07
Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]
2018-12-10
Apache Spark Shuffle I/O 在 Facebook 的优化
2018-12-10
不仅仅是流计算:Apache Flink实践
2018-11-29
Spark AI Summit Europe 2018 全部PPT - part1
2018-10-13
Easy, Scalable, Fault-tolerant stream processing with Structured Streaming-TD
2018-09-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人