- 博客(33)
- 资源 (291)
- 收藏
- 关注
原创 如何使用 Spark 3.0 中新加的 Structured Streaming UI 来进行异常分析
本文为阿里巴巴技术专家余根茂在社区发的一篇文章。Structured Streaming 最初是在 Apache Spark 2.0 中引入的,它已被证明是构建分布式流处理应用程序的最佳...
2020-07-31 08:28:00 574
转载 面对无代码 / 低代码带来的技术变革,开发者该如何拥抱变化?
预计到2024年,65%的应用将在无代码 / 低代码平台中开发——华为云董鑫武真正实现全民开发,是无代码 / 低代码平台的愿景。当下的数字化趋势使得客户对商业需求更具个性化,且变化加...
2020-07-30 08:30:00 409
转载 基于Apache Iceberg打造T+0实时数仓
导语大数据处理技术现今已广泛应用于各个行业,为业务解决海量存储和海量分析的需求。但数据量的爆发式增长,对数据处理能力提出了更大的挑战,同时对时效性也提出了更高的要求。业务通常已不再满足滞...
2020-07-29 08:30:00 3051 1
转载 马蜂窝数据仓库的架构、模型与应用实践
Part.1马蜂窝数据仓库与数据中台最近几年,数据中台概念的热度一直不减。2018 年起,马蜂窝也开始了自己的数据中台探索之路。数据中台到底是什么?要不要建?和数据仓库有什么本质的区别?...
2020-07-28 19:59:00 411
转载 后端,还是大数据?
最近到了招聘旺季,发现一些朋友很纠结一个问题:做后端开发和做大数据开发?这个问题还是比较普遍的。其实,后端开发,更专注于一种技术栈的开发,对于成熟的开发框架而言,的确市面上的竞争压力会比...
2020-07-27 20:00:00 5995
转载 Kafka原理和实践
背景最近要把原来做的那套集中式日志监控系统进行迁移,原来的实现方案是: Log Agent => Log Server => ElasticSearch => Kiba...
2020-07-27 20:00:00 1106
原创 图文了解 Kafka 的副本复制机制
也可以到我个人博客阅读(点击下面阅读原文即可) https://www.iteblog.com/archives/2556.html让分布式系统的操作变得简单,在某种程度上是一种艺术,通...
2020-07-26 21:12:04 315
转载 华为云FusionInsight MRS融合大数据平台进阶之路
【摘要】 FusionInsight 8.0 MRS新版本由华为研发团队精心打磨,是产品演进的重要转折点,通过对CarbonData、HetuEngine及众多社区组件的升级...
2020-07-24 17:59:00 1971
转载 蚂蚁金服上市估值2000亿美元,又有多少个千万富翁诞生?
2020年魔幻开局,疫情肆虐。大家都说,今年的市场太难了。但就在三天前,蚂蚁金服在科创板和港交所上市,估值2000亿美元。由于40%员工持股,蚂蚁上市这波操作又被称为史上最大的一次“造富...
2020-07-23 08:30:00 1244
转载 工行“去O”数据库选型与分布式架构设计
魏亚东工商银行软件开发中心经理中国工商银行软件开发中心三级经理,资深架构师。杭州研发部数据库专家牵头人和开发中心安全团队成员,负责技术管理、数据库和安全相关工作。2009年加入中国工商银...
2020-07-23 08:30:00 1832
转载 58同城 Elasticsearch 应用及平台建设实践
分享嘉宾:于伯伟 58同城 高级架构师编辑整理:陈树昌内容来源:DataFunTalk导读:Elasticsearch是一个分布式的搜索和分析引擎,可以用于全文检索、结构化检索和分析,并...
2020-07-21 08:30:00 347
转载 爱奇艺在日志实时数据监控的探索与实践
——2019年6月爱奇艺会员规模突破1亿,爱奇艺的会员服务业务随之迅速增长,同时也带来了机器集群规模的增加,原有的监控体系也暴露出一些问题。数据监控体系是业务维持稳定服务的基石,会员日志...
2020-07-20 20:00:00 406
转载 数据分析的核心能力是什么?数据可视化?
很多人问,数据分析需要哪些能力?1. 基本的理论知识。数理统计、模型原理、市场研究等。2.常规分析工具的使用。常用办公软件(Excel、PPT、思维导图)、数据库、统计分析工具、数据挖掘...
2020-07-20 20:00:00 1004
原创 Spark + AI Summit North America 202006 高清 PPT 全部更新完
Spark Summit North America 2020 会议结束距今已经快一个月了,我也在会议一结束整理了一部分可下载的 PPT,参见《你要的 Spark AI Summit 2...
2020-07-18 20:34:00 477
转载 解密华为云FusionInsight MRS单集群2W节点优化实践
【导读】7月9日,中国信通院在大数据产业峰会·成果发布会上公布了本次大数据产品能力评估的结果。不难看出,随着5G、互联网、IoT的发展,大数据技术在分布式批处理平台的基础能力方面进一步加...
2020-07-17 09:29:25 1397
原创 Spark on K8S 的最佳实践和需要注意的坑
本文来自 Data Mechanics 的 CEO Jean-Yves Stephan 和 CTO Julien Dumazert 在 Spark Summit North Americ...
2020-07-16 19:59:00 6704
转载 Apache Flink 服务化在 eBay 的实践
供稿 | Rheos Team 徐朝晖编辑 | 顾欣怡本文2238字,预计阅读时间7分钟实时数据处理是当前数据生态的热门关注环节,是业务创新的重要前提。Flink从诞生之初就定位于实时计...
2020-07-15 08:29:11 380
转载 你与30W奖金只差一个 Apache Flink 极客挑战赛的报名
万众瞩目的第二届 Apache Flink 极客挑战赛来啦!去年,第一届 Apache Flink 极客挑战赛,汇集了全球11个国家和地区,233所高校,397家企业,4393位顶尖选手...
2020-07-14 20:30:00 429
转载 力度更大的当当购书优惠来了!实付满200-50!
博文视点联合过往记忆大数据特别送出一批“实付满200减50”优惠码可以和满减活动叠加使用怎么BUY?优惠码:CGFEBX使用渠道:仅限当当APP使用时间:7.6-7.19使用方法:步骤一...
2020-07-14 20:30:00 692
转载 分布式图数据库在贝壳的应用实践
分享嘉宾:高攀贝壳搜索平台负责人编辑整理:王洪达内容来源:贝壳找房知识图谱技术大会出品平台:DataFunTalk导读:你想知道百亿级图谱如何实现毫秒级查询吗?社区众多的图数据库中如...
2020-07-14 20:30:00 1198 2
转载 网易分布式数据库多活架构的演进与实践
周劲松网易杭州研究院资深研发工程师来自网易数据科学中心,目前是网易分布式数据库DDB及网易数据运河NDC项目负责人。对数据库及相关中间件的设计和研发有丰富经验。大家好,今天给大家分享一些...
2020-07-13 20:30:00 662
转载 Apache Flink 1.11.0 重要功能全面解析
来源|Apache Flink 官方博客翻译| 高赟(云骞)Apache Flink 社区很荣幸的宣布 Flink 1.11.0 版本正式发布!超过 200 名贡献者参与了 Fli...
2020-07-11 20:30:00 2253
原创 Apache Spark 3.0 中的向量化 IO
R 是数据科学中最流行的计算机语言之一,专门用于统计分析和一些扩展,如用于数据处理和机器学习任务的 RStudio addins 和其他 R 包。此外,它使数据科学家能够轻松地可视化他们...
2020-07-10 08:23:00 583
原创 Spark 3.0 中七个必须知道的 SQL 性能优化
本文来自IBM 东京研究院的高级技术人员 Kazuaki Ishizaki 博士在Spark Summit North America 2020 的 《SQL Performance...
2020-07-09 08:39:00 1080
转载 为什么那么多 OLAP 系统选择列式存储?
作者介绍傅宇,阿里巴巴分布式数据库(DRDS)团队高级开发工程师,专注大数据与分布式系统。个人博客 https://ericfu.me/列式存储(Column-oriented Stor...
2020-07-08 08:24:00 1658
转载 小米 Redis 的 K8S 容器化部署实践
背景Why K8SHow K8sWhy ProxyProxy带来的问题K8s带来的好处遇到的问题总结背景小米的Redis使用规模很大,现在有数万个实例,并且每天有百万亿次的访问频率,...
2020-07-07 08:26:00 744
原创 Sputnik:Airbnb基于Spark构建的数据开发框架
本文来自Airbnb 的工程师Egor Pakhomov 在Spark Summit North America 2020 的 《Sputnik: Airbnb’s Apache ...
2020-07-06 21:34:04 481
原创 Spark SQL 中 Broadcast Join 一定比 Shuffle Join 快?那你就错了。
本资料来自 Workday 的软件开发工程师 Jianneng Li 在 Spark Summit North America 2020 的 《On Improving Broadcas...
2020-07-05 20:02:00 1562
原创 你要的 Spark AI Summit 2020 PPT 我已经给你整理好了
为期五天的 Spark Summit North America 2020在美国时间 2020-06-22 ~ 06-26 举行。由于今年新冠肺炎的影响,本次会议第一次以线上的形式进行。...
2020-07-04 18:50:19 1563
转载 Uber 如何使用 Apache Hudi 支撑 PB 级数据湖
1. 引言从确保准确预计到达时间到预测最佳交通路线,在Uber平台上提供安全、无缝的运输和交付体验需要可靠、高性能的大规模数据存储和分析。2016年,Uber开发了增量处理框架Apach...
2020-07-03 08:48:36 2393
转载 Redis 集群原理,再也不怕面试被问倒
图片来自 Pexels本文主要围绕如下几个方面介绍集群:集群简介集群作用配置集群手动、自动故障转移故障转移原理本文实现环境:CentOS7.3Redis 4.0Redis 工作目录 /...
2020-07-02 09:40:00 331
转载 年薪40w的大数据开发,它不香么?
薪资高、机会多、缺口大,让大数据在开发圈里成了香饽饽。与此同时,在我做公众号的这两年,目睹了太多人「从入门到放弃」,甚至有些人连大数据的门都没进来。看看你是哪种?在中小企业做了一段时...
2020-07-01 08:30:00 388
转载 趣头条基于Flink+ClickHouse的实时数据分析平台
分享嘉宾:王金海趣头条编辑整理:王彦内容来源:Flink Forward Asia出品平台:DataFunTalk导读:趣头条一直致力于使用大数据分析指导业务发展。目前在实时化领域主要...
2020-07-01 08:30:00 3741 3
HBase in Practise: 性能、监控和问题排查
2018-08-13
HBase Procedure V2介绍
2018-08-13
Scala Cheat Sheet
2018-07-04
Apache Hive Functions Cheat Sheet
2018-07-04
Apache Spark Cheat Sheet
2018-07-04
spark-summit-north-america-2018-06 全部 PPT -part1
2018-06-19
spark-summit-north-america-2018-06 全部 PPT -part2
2018-06-17
A Deep Dive into Stateful Stream Processing in Structured Streaming
2018-06-17
Implementing AutoML Techniques at Salesforce Scale
2018-06-17
Using AI to Deliver a Device as a Service
2018-06-17
Foundations of streaming SQL
2018-06-15
Deep Dive into Spark SQL with Advanced Performance Tuning
2018-06-11
Qcon北京2018-《区块链服务在华为公有云平台上的重要问题设计实现及解决方法》-张子怡.pdf
2018-05-16
QCon北京2018-强业务驱动的互联网+,技术管理的坑与路--廖雪梅.pdf
2018-05-16
QCon北京2018-《用正确分享来磨练专家实力——分享型专家升级记》-黄闻欣.pdf
2018-05-16
QCon北京2018-《Oracle区块链架构及其应用开发》-蒋春明.pdf
2018-05-16
Apache iceberg:Netflix 数据仓库的基石
2020-02-23
Apache Hadoop 3.x state of the union and upgrade guidance
2020-02-04
Apache Doris (Incubating) 原理与实践.pdf
2019-12-10
Spark SQL 在字节跳动的优化实践-郭俊.pdf
2019-12-03
Spark+AI Summit Europe 2019 Part 3
2019-11-03
Spark+AI Summit Europe 2019_iteblog.zip.002
2019-11-01
Spark+AI Summit Europe 2019_iteblog.zip.001
2019-11-01
The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf
2019-10-28
Apache Spark 3.0, Koalas, Delta Lake 最新进展
2019-10-28
SPARK + AI SUMMIT 2019 全部 PPT
2019-09-21
From Stream Processor to a Unified Data Processing System
2019-04-20
Apache Spark 2.4 and beyond
2019-04-14
Flink社区专刊S2-重新定义计算
2019-04-11
从MPP数仓迁移至Spark:案例与最佳实践分享
2019-03-31
2018 Apache HBase 技术实战专刊
2019-01-07
Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]
2018-12-10
Apache Spark Shuffle I/O 在 Facebook 的优化
2018-12-10
不仅仅是流计算:Apache Flink实践
2018-11-29
Spark AI Summit Europe 2018 全部PPT - part1
2018-10-13
Easy, Scalable, Fault-tolerant stream processing with Structured Streaming-TD
2018-09-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人