- 博客(36)
- 资源 (291)
- 收藏
- 关注
转载 爱奇艺大数据生态的实时化建设
数据作为互联网时代的基础生产资料,在各大公司企业拥有举足轻重的地位。数据的价值在互联网公司的体现,大致而言可以分成三类:(1)发掘数据中的信息来指导决策,如产品运营、用户增长相关的BI报表...
2021-03-31 09:00:00 583
转载 大数据技术新趋势来了!DT 时代这波红利让无数人财富自由?
2021 年,大数据不再只是一个流行词,而是一个强大的行业。字节跳动大数据中心足足配备了 17 万台服务器,阿里更是多次公开强调数据价值,并视数据为业务线“命脉”和未来的筹码。如果你是一名...
2021-03-31 09:00:00 1127
转载 一文了解实时数据仓库的发展、架构和趋势
数据处理现状:当前基于Hive的离线数据仓库已经非常成熟,数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一...
2021-03-30 09:00:00 1876
转载 Apache Flink 的流批一体融合之路
一、背景随着互联网和移动互联网的不断发展,各行各业都积累海量的业务数据。而企业为了改善用户体验,提升产品在市场上的竞争力,都采取了实时化方式来处理大数据。社交媒体的实时大屏、电商的实时推荐...
2021-03-29 09:00:00 1299
原创 Prism:Uber 的 Presto 查询网关服务
本文来自3月24日举办的 PrestoCon Day 2021。作者 Hitarth Trivedi,Uber 的软件工程师。Prism 是 Uber 所有 Presto 查询的网关服务(...
2021-03-28 21:15:04 1077 1
转载 ClickHouse 在唯品会 OLAP 系统的实践
供稿:王新春、王玉、王康、徐其民01OLAP在唯品会演进迭代1.1 Presto/Kylin在唯品会的使用Presto作为当前唯品会OLAP主力军,经历了数次架构和使用方式演进。当前阶段,...
2021-03-26 09:00:00 1752
转载 Impala 在网易有数 BI 应用场景下的实践
本文总结了Impala在网易有数BI应用场景下的最新查询优化经验,并探讨后续进一步优化的思路。文章首先简述有数BI + Impala在网易云音乐等业务使用时遇到的挑战,再介绍进行有数查询优...
2021-03-25 09:00:00 1066
转载 Apache Doris 在京东广告报表查询场景下的应用
1、序言本文主要介绍Apache Doris在京东广告报表查询场景下的应用。文章将从我们原有系统开始讲述,包括我们遇到的问题,面临的挑战,以及我们为何选择使用Apache Doris。最后...
2021-03-23 09:00:00 1884
转载 Flink技术到底是什么?Flink原理及深度解析
如今越来越多的企业对数据的实时性要求很高,以电商为例,阿里在双 11 会竖起一面电子屏幕,实时展示淘宝数据,例如成交额、访问人数、订单量、下单量、成交量等等。这个电子大屏的背后,就是用到我...
2021-03-22 08:59:00 1427
原创 一文了解 Apache Hive 联邦查询(Query Federation)
如今,很多公司可能会在内部使用多种数据存储和处理系统。这些不同的系统解决了对应的使用案例。除了传统的 RDBMS (比如 Oracle DB,Teradata或PostgreSQL) 之外...
2021-03-21 21:08:50 2821
转载 多业务线亿级体量,携程的账务数据中台实践
本文为联合撰文,作者团队负责携程集团支付账务系统、消费金融账务系统、清结算和对账等工作的的开发、设计和运维工作。一一、前言原先携程内部的各账务系统都是随着自身的业务发展而建立起来的,其中...
2021-03-20 21:08:36 1409
转载 数据库发展新趋势!新鲜开源的流数据库了解一下
引言随着计算机和网络技术的迅猛发展以及向各行业的不断渗透,如今数据的产生方式和产生来源相比以前都有了极大的丰富,比如:来自传感器的数据、网站上的用户活动数据、来自移动终端和智能设备的数据、...
2021-03-19 09:00:00 2166
转载 唯品会基于 Alluxio 优化电商平台热点数据访问性能的实践
背景概述在互联网电商平台上,广告是提升成交总额(Gross Merchandise Volume)和拉取新客的常见途经。在广告系统或广告运营中都需要基于人群数据分析进行定向的用户广告投放。...
2021-03-18 09:00:00 515
转载 分布式缓存与数据库秒级一致设计实践
一、前言爆款项目是2020年携程的一个新项目,目标是将全品类、高性价比的旅行商品统一集合在一个频道供用户选购。出于这样的业务定位,项目有三个特点:1)高流量2)部分商品会成为热卖商品3)...
2021-03-17 09:00:00 709
转载 Spark 凭什么成为最火的大数据计算引擎?
这年代,做数据的,没人不知道 Spark 是什么吧。作为最火的大数据计算引擎,现在基本上是各互联网大厂的标配了。比如,字节跳动基于 Spark 构建的数据仓库,服务了几乎所有的产品线,包括...
2021-03-16 09:00:00 3748
转载 美团外卖特征平台的建设与实践
1 背景美团外卖业务种类繁多、场景丰富,根据业务特点可分为推荐、广告、搜索三大业务线以及数个子业务线,比如商家推荐、菜品推荐、列表广告、外卖搜索等等,满足了数亿用户对外卖服务的全方面需求。...
2021-03-16 09:00:00 1193
转载 OPPO在A/B实验分析平台的建设与实践
A/B实验是很多公司的标配,在OPPO也不例。它是提供科学的数据决策的方式,帮助深入分析用户行为,支持个性化策略,同时降低产品迭代风险,达到业务快速验证、快速迭代的效果。但在Galileo...
2021-03-15 09:00:00 987
转载 网易云音乐数仓建模实践
数仓是商业智能的基础,它为OLAP、数据挖掘提供分析和决策支持。本文以在声波业务中的实践经历,总结了如何开始构建一个数仓模型、如何配置数据任务流调度、以及如何在自助取数上抽象模型配置cub...
2021-03-14 20:30:00 847
转载 Twine:Facebook 集群调度管理系统
本文要介绍的是 2020 年 OSDI 期刊中的论文 —— Twine: A Unified Cluster Management System for Shared Infrastruc...
2021-03-13 21:29:49 1469
转载 使用 Flink 前需要知道的 10 个『陷阱』
Contentsquare 公司的 Robin 总结了他们将 Spark 任务迁移到 Flink 遇到的 10 个『陷阱』。对于第一次将 Flink 用于生产环境的用户来说,这些经验非常有...
2021-03-12 09:29:43 1192
转载 HBase 性能与可用性在滴滴的探索与实践
1.背景HBase 是一个基于 HDFS 的低成本、分布式LSM结构数据库,可以支持毫秒级别查询;支持海量的PB级的大数据存储,适用于高QPS的随机读写和前缀范围查询等场景。此外,优秀的...
2021-03-11 09:00:00 764
转载 4000人入营的阿里云Flink训练营再升级!4天get双11在用的高阶技能,结营礼抢天猫精灵!...
都说大数据工程师吃香,但很多人都倒在了进阶的关键一步。怎么从单纯的“倒腾数据”到真正理解架构、高效管理?如何从小场景的个人技术摸索到大型业务场景的理解和实战?突破这一步,找到学习的突破口、...
2021-03-11 09:00:00 296
转载 终于有人从 0 到 1 把包罗万象的数据中台讲透了!
你被大数据杀过熟吗?当今企业对数据的重视度越来越高,在大数据系统架构设计层面,大数据架构师需要完成技术决策、技术选型,还需要根据不同时期的业务场景,不断优化和演进软件架构,最终攻克技术难点...
2021-03-10 09:00:00 266
转载 Apache Kylin 在 58 同城的实践与优化
查询响应时间P90 0.5s,700 个 Cube,122 个 Project,16000 多个 Segment,单副本的存储500T,日查询量20w,日输入量200 亿。从 16...
2021-03-10 09:00:00 545
转载 48万招的大数据开发,竟是Python转的…
最近又到了金三银四求职季,公号后台多了不少大数据的相关问题:· 号主,最近有想往大数据开发转,Python能用上吗?· 找工作的时候发现,Python薪资不行,大数据开发的起薪是工作2年...
2021-03-09 09:00:00 712
转载 如何避免Spark SQL做数据导入时产生大量小文件
我们之前的文章《蚂蚁绊倒大象...》介绍过,海量小文件是大数据领域中公认的难题,对时间和性能都可能造成毁灭性打击。本文将继续针对小文件,讲解小文件产生的原因和一些解决办法,希望对大家能有所...
2021-03-09 09:00:00 2314
转载 Bigo 基于 Flink 构建流批一体实时计算平台的实践
摘要:本文由Bigo 计算平台负责人徐帅分享,主要介绍 Bigo 实时计算平台建设实践的介绍。内容包括:Bigo 实时计算平台的发展历程特色与改进业务场景效率提升总结展望Tips:点击文...
2021-03-08 09:00:00 999
转载 一文理解分布式常见的一致性算法
导语 | 后台服务架构经过了集中式、SOA、微服务和服务网格四个阶段,目前互联网界大都使用微服务和服务网格。服务从集中式、中心化向分布式、去中心化不断演进,服务也变得更灵活,能够自动扩缩容...
2021-03-07 21:23:05 4138
转载 如何系统性地学习分布式系统
本文的缘起是回答知乎圆桌会议「分布式系统之美」的问题「如何系统性地学习分布式系统?」,后面稍微整理了一下,形成了这一篇文章(知乎 ID:kylin)。前言学习一个知识之前,我觉得比较好的方...
2021-03-06 21:28:54 549
转载 Presto 兼容 Hive 语法语义的实践
Presto是一款优秀的交互式查询解决方案,并且已经被诸多公司证实过,因为其数倍于Hive的查询速度的优势,团队决定引入Presto用于交互式查询场景。但是因为迁移成本和服务器成本,Pre...
2021-03-05 08:32:08 1924 1
转载 MongoDB 在 vivo 评论中台的探索与实践
一、业务背景随着公司业务发展和用户规模的增多,很多项目都在打造自己的评论功能,而评论的业务形态基本类似。当时各项目都是各自设计实现,存在较多重复的工作量;并且不同业务之间数据存在孤岛,很难...
2021-03-04 07:53:33 429 1
转载 Apache Spark 3.1.1 版本发布,众多新特性介绍
Apache Spark 3.1.1 版本于美国当地时间2021年3月2日正式发布,这个版本继续保持使得 Spark 更快,更容易和更智能的目标,Spark 3.1 的主要目标如下:•提升...
2021-03-03 08:58:00 2192
转载 做大数据一定要牢牢掌握的现象级技术!
你被大数据杀过熟吗?当今企业对数据的重视度越来越高,在大数据系统架构设计层面,大数据架构师需要完成技术决策、技术选型,还需要根据不同时期的业务场景,不断优化和演进软件架构,最终攻克技术难点...
2021-03-03 08:58:00 344 1
转载 网易云音乐数仓模型设计实践
写在前面:我们为什么要建模这里想先说下,这些年我在数仓摸爬滚打的一些经历:刚毕业那会儿,我觉得数仓简单啊,不就是用sql开发一张张表嘛,谁不会呀,那段时间觉得好没挑战呀,没事的时候捣鼓下高...
2021-03-02 09:00:00 843 1
转载 Spark 迁移到 K8S 在有赞的实践与经验
一、前言随着近几年业务快速发展与迭代,大数据的成本也水涨船高,如何优化成本,建设低成本高效率的底层服务成为了有赞数据基础平台2020年的主旋律。本文主要介绍了随着云原生时代的到来,经历7年...
2021-03-01 09:26:12 1914
转载 科技圈沸腾了!这个微信群可以学金融理财,而且全程免费
最近,不少科技圈的小伙伴发现,在微信群里居然可以学金融知识!而且全程免费!群里面会有免费的CFA(特许金融分析师)直播课,免费的CFA课程资料,还有专业的财经老师辅导学习...
2021-03-01 09:26:12 2050
HBase in Practise: 性能、监控和问题排查
2018-08-13
HBase Procedure V2介绍
2018-08-13
Scala Cheat Sheet
2018-07-04
Apache Hive Functions Cheat Sheet
2018-07-04
Apache Spark Cheat Sheet
2018-07-04
spark-summit-north-america-2018-06 全部 PPT -part1
2018-06-19
spark-summit-north-america-2018-06 全部 PPT -part2
2018-06-17
A Deep Dive into Stateful Stream Processing in Structured Streaming
2018-06-17
Implementing AutoML Techniques at Salesforce Scale
2018-06-17
Using AI to Deliver a Device as a Service
2018-06-17
Foundations of streaming SQL
2018-06-15
Deep Dive into Spark SQL with Advanced Performance Tuning
2018-06-11
Qcon北京2018-《区块链服务在华为公有云平台上的重要问题设计实现及解决方法》-张子怡.pdf
2018-05-16
QCon北京2018-强业务驱动的互联网+,技术管理的坑与路--廖雪梅.pdf
2018-05-16
QCon北京2018-《用正确分享来磨练专家实力——分享型专家升级记》-黄闻欣.pdf
2018-05-16
QCon北京2018-《Oracle区块链架构及其应用开发》-蒋春明.pdf
2018-05-16
Apache iceberg:Netflix 数据仓库的基石
2020-02-23
Apache Hadoop 3.x state of the union and upgrade guidance
2020-02-04
Apache Doris (Incubating) 原理与实践.pdf
2019-12-10
Spark SQL 在字节跳动的优化实践-郭俊.pdf
2019-12-03
Spark+AI Summit Europe 2019 Part 3
2019-11-03
Spark+AI Summit Europe 2019_iteblog.zip.002
2019-11-01
Spark+AI Summit Europe 2019_iteblog.zip.001
2019-11-01
The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf
2019-10-28
Apache Spark 3.0, Koalas, Delta Lake 最新进展
2019-10-28
SPARK + AI SUMMIT 2019 全部 PPT
2019-09-21
From Stream Processor to a Unified Data Processing System
2019-04-20
Apache Spark 2.4 and beyond
2019-04-14
Flink社区专刊S2-重新定义计算
2019-04-11
从MPP数仓迁移至Spark:案例与最佳实践分享
2019-03-31
2018 Apache HBase 技术实战专刊
2019-01-07
Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]
2018-12-10
Apache Spark Shuffle I/O 在 Facebook 的优化
2018-12-10
不仅仅是流计算:Apache Flink实践
2018-11-29
Spark AI Summit Europe 2018 全部PPT - part1
2018-10-13
Easy, Scalable, Fault-tolerant stream processing with Structured Streaming-TD
2018-09-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人