2021年03月_过往记忆

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载爱奇艺大数据生态的实时化建设

数据作为互联网时代的基础生产资料，在各大公司企业拥有举足轻重的地位。数据的价值在互联网公司的体现，大致而言可以分成三类：（1）发掘数据中的信息来指导决策，如产品运营、用户增长相关的BI报表...

2021-03-31 09:00:00 583

转载大数据技术新趋势来了！DT 时代这波红利让无数人财富自由？

2021 年，大数据不再只是一个流行词，而是一个强大的行业。字节跳动大数据中心足足配备了 17 万台服务器，阿里更是多次公开强调数据价值，并视数据为业务线“命脉”和未来的筹码。如果你是一名...

2021-03-31 09:00:00 1127

转载一文了解实时数据仓库的发展、架构和趋势

数据处理现状：当前基于Hive的离线数据仓库已经非常成熟，数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀，业界最近几年就一...

2021-03-30 09:00:00 1876

转载 Apache Flink 的流批一体融合之路

一、背景随着互联网和移动互联网的不断发展，各行各业都积累海量的业务数据。而企业为了改善用户体验，提升产品在市场上的竞争力，都采取了实时化方式来处理大数据。社交媒体的实时大屏、电商的实时推荐...

2021-03-29 09:00:00 1299

原创 Prism：Uber 的 Presto 查询网关服务

本文来自3月24日举办的 PrestoCon Day 2021。作者 Hitarth Trivedi，Uber 的软件工程师。Prism 是 Uber 所有 Presto 查询的网关服务（...

2021-03-28 21:15:04 1077 1

转载 ClickHouse 在唯品会 OLAP 系统的实践

供稿：王新春、王玉、王康、徐其民01OLAP在唯品会演进迭代1.1 Presto/Kylin在唯品会的使用Presto作为当前唯品会OLAP主力军，经历了数次架构和使用方式演进。当前阶段，...

2021-03-26 09:00:00 1752

转载 Impala 在网易有数 BI 应用场景下的实践

本文总结了Impala在网易有数BI应用场景下的最新查询优化经验，并探讨后续进一步优化的思路。文章首先简述有数BI + Impala在网易云音乐等业务使用时遇到的挑战，再介绍进行有数查询优...

2021-03-25 09:00:00 1066

转载 Apache Doris 在京东广告报表查询场景下的应用

1、序言本文主要介绍Apache Doris在京东广告报表查询场景下的应用。文章将从我们原有系统开始讲述，包括我们遇到的问题，面临的挑战，以及我们为何选择使用Apache Doris。最后...

2021-03-23 09:00:00 1884

转载 Flink技术到底是什么？Flink原理及深度解析

如今越来越多的企业对数据的实时性要求很高，以电商为例，阿里在双 11 会竖起一面电子屏幕，实时展示淘宝数据，例如成交额、访问人数、订单量、下单量、成交量等等。这个电子大屏的背后，就是用到我...

2021-03-22 08:59:00 1427

原创一文了解 Apache Hive 联邦查询（Query Federation）

如今，很多公司可能会在内部使用多种数据存储和处理系统。这些不同的系统解决了对应的使用案例。除了传统的 RDBMS （比如 Oracle DB，Teradata或PostgreSQL）之外...

2021-03-21 21:08:50 2821

转载多业务线亿级体量，携程的账务数据中台实践

本文为联合撰文，作者团队负责携程集团支付账务系统、消费金融账务系统、清结算和对账等工作的的开发、设计和运维工作。一一、前言原先携程内部的各账务系统都是随着自身的业务发展而建立起来的，其中...

2021-03-20 21:08:36 1409

转载数据库发展新趋势！新鲜开源的流数据库了解一下

引言随着计算机和网络技术的迅猛发展以及向各行业的不断渗透，如今数据的产生方式和产生来源相比以前都有了极大的丰富，比如：来自传感器的数据、网站上的用户活动数据、来自移动终端和智能设备的数据、...

2021-03-19 09:00:00 2166

转载唯品会基于 Alluxio 优化电商平台热点数据访问性能的实践

背景概述在互联网电商平台上，广告是提升成交总额（Gross Merchandise Volume）和拉取新客的常见途经。在广告系统或广告运营中都需要基于人群数据分析进行定向的用户广告投放。...

2021-03-18 09:00:00 515

转载分布式缓存与数据库秒级一致设计实践

一、前言爆款项目是2020年携程的一个新项目，目标是将全品类、高性价比的旅行商品统一集合在一个频道供用户选购。出于这样的业务定位，项目有三个特点：1）高流量2）部分商品会成为热卖商品3）...

2021-03-17 09:00:00 709

转载 Spark 凭什么成为最火的大数据计算引擎？

这年代，做数据的，没人不知道 Spark 是什么吧。作为最火的大数据计算引擎，现在基本上是各互联网大厂的标配了。比如，字节跳动基于 Spark 构建的数据仓库，服务了几乎所有的产品线，包括...

2021-03-16 09:00:00 3748

转载美团外卖特征平台的建设与实践

1 背景美团外卖业务种类繁多、场景丰富，根据业务特点可分为推荐、广告、搜索三大业务线以及数个子业务线，比如商家推荐、菜品推荐、列表广告、外卖搜索等等，满足了数亿用户对外卖服务的全方面需求。...

2021-03-16 09:00:00 1193

转载 OPPO在A/B实验分析平台的建设与实践

A/B实验是很多公司的标配，在OPPO也不例。它是提供科学的数据决策的方式，帮助深入分析用户行为，支持个性化策略，同时降低产品迭代风险，达到业务快速验证、快速迭代的效果。但在Galileo...

2021-03-15 09:00:00 987

转载网易云音乐数仓建模实践

数仓是商业智能的基础，它为OLAP、数据挖掘提供分析和决策支持。本文以在声波业务中的实践经历，总结了如何开始构建一个数仓模型、如何配置数据任务流调度、以及如何在自助取数上抽象模型配置cub...

2021-03-14 20:30:00 847

转载 Twine：Facebook 集群调度管理系统

本文要介绍的是 2020 年 OSDI 期刊中的论文 —— Twine: A Unified Cluster Management System for Shared Infrastruc...

2021-03-13 21:29:49 1469

转载使用 Flink 前需要知道的 10 个『陷阱』

Contentsquare 公司的 Robin 总结了他们将 Spark 任务迁移到 Flink 遇到的 10 个『陷阱』。对于第一次将 Flink 用于生产环境的用户来说，这些经验非常有...

2021-03-12 09:29:43 1192

转载 HBase 性能与可用性在滴滴的探索与实践

1.背景HBase 是一个基于 HDFS 的低成本、分布式LSM结构数据库，可以支持毫秒级别查询；支持海量的PB级的大数据存储，适用于高QPS的随机读写和前缀范围查询等场景。此外，优秀的...

2021-03-11 09:00:00 764

转载 4000人入营的阿里云Flink训练营再升级！4天get双11在用的高阶技能，结营礼抢天猫精灵！...

都说大数据工程师吃香，但很多人都倒在了进阶的关键一步。怎么从单纯的“倒腾数据”到真正理解架构、高效管理？如何从小场景的个人技术摸索到大型业务场景的理解和实战？突破这一步，找到学习的突破口、...

2021-03-11 09:00:00 296

转载终于有人从 0 到 1 把包罗万象的数据中台讲透了！

你被大数据杀过熟吗？当今企业对数据的重视度越来越高，在大数据系统架构设计层面，大数据架构师需要完成技术决策、技术选型，还需要根据不同时期的业务场景，不断优化和演进软件架构，最终攻克技术难点...

2021-03-10 09:00:00 266

转载 Apache Kylin 在 58 同城的实践与优化

查询响应时间P90 0.5s，700 个 Cube，122 个 Project，16000 多个 Segment，单副本的存储500T，日查询量20w，日输入量200 亿。从 16...

2021-03-10 09:00:00 545

转载 48万招的大数据开发，竟是Python转的…

最近又到了金三银四求职季，公号后台多了不少大数据的相关问题：· 号主，最近有想往大数据开发转，Python能用上吗？· 找工作的时候发现，Python薪资不行，大数据开发的起薪是工作2年...

2021-03-09 09:00:00 712

转载如何避免Spark SQL做数据导入时产生大量小文件

我们之前的文章《蚂蚁绊倒大象...》介绍过，海量小文件是大数据领域中公认的难题，对时间和性能都可能造成毁灭性打击。本文将继续针对小文件，讲解小文件产生的原因和一些解决办法，希望对大家能有所...

2021-03-09 09:00:00 2314

转载 Bigo 基于 Flink 构建流批一体实时计算平台的实践

摘要：本文由Bigo 计算平台负责人徐帅分享，主要介绍 Bigo 实时计算平台建设实践的介绍。内容包括：Bigo 实时计算平台的发展历程特色与改进业务场景效率提升总结展望Tips：点击文...

2021-03-08 09:00:00 999

转载一文理解分布式常见的一致性算法

导语 | 后台服务架构经过了集中式、SOA、微服务和服务网格四个阶段，目前互联网界大都使用微服务和服务网格。服务从集中式、中心化向分布式、去中心化不断演进，服务也变得更灵活，能够自动扩缩容...

2021-03-07 21:23:05 4138

转载如何系统性地学习分布式系统

本文的缘起是回答知乎圆桌会议「分布式系统之美」的问题「如何系统性地学习分布式系统?」，后面稍微整理了一下，形成了这一篇文章（知乎 ID：kylin）。前言学习一个知识之前，我觉得比较好的方...

2021-03-06 21:28:54 549

转载 Presto 兼容 Hive 语法语义的实践

Presto是一款优秀的交互式查询解决方案，并且已经被诸多公司证实过，因为其数倍于Hive的查询速度的优势，团队决定引入Presto用于交互式查询场景。但是因为迁移成本和服务器成本，Pre...

2021-03-05 08:32:08 1924 1

转载 MongoDB 在 vivo 评论中台的探索与实践

一、业务背景随着公司业务发展和用户规模的增多，很多项目都在打造自己的评论功能，而评论的业务形态基本类似。当时各项目都是各自设计实现，存在较多重复的工作量；并且不同业务之间数据存在孤岛，很难...

2021-03-04 07:53:33 429 1

转载 Apache Spark 3.1.1 版本发布，众多新特性介绍

Apache Spark 3.1.1 版本于美国当地时间2021年3月2日正式发布，这个版本继续保持使得 Spark 更快，更容易和更智能的目标，Spark 3.1 的主要目标如下：•提升...

2021-03-03 08:58:00 2192

转载网易云音乐数仓模型设计实践

写在前面：我们为什么要建模这里想先说下，这些年我在数仓摸爬滚打的一些经历：刚毕业那会儿，我觉得数仓简单啊，不就是用sql开发一张张表嘛，谁不会呀，那段时间觉得好没挑战呀，没事的时候捣鼓下高...

2021-03-02 09:00:00 843 1

转载 Spark 迁移到 K8S 在有赞的实践与经验

一、前言随着近几年业务快速发展与迭代，大数据的成本也水涨船高，如何优化成本，建设低成本高效率的底层服务成为了有赞数据基础平台2020年的主旋律。本文主要介绍了随着云原生时代的到来，经历7年...

2021-03-01 09:26:12 1914

转载科技圈沸腾了！这个微信群可以学金融理财，而且全程免费

最近，不少科技圈的小伙伴发现，在微信群里居然可以学金融知识！而且全程免费！群里面会有免费的CFA（特许金融分析师）直播课，免费的CFA课程资料，还有专业的财经老师辅导学习...

2021-03-01 09:26:12 2050

WeCenter 3.2.2

WeCenter 是一款开源知识型的社交化问答社区程序，专注于社区内容的整理、归类和检索，并通过连接微信公众平台，移动APP进行内容分发。

2018-09-13

HBase在不同版本（1.x, 2.x, 3.0）中针对不同类型的硬件（以IO为例，HDD/SATA-SSD/PCIe-SSD/Cloud）和场景（single/batch, get/scan）做了（即将做）各种不同的优化，这些优化都有哪些？如何针对自己的生产业务和硬件环境选择和使用合适的版本/功能？在生产环境可能出现各种问题，而监控系统是发现并解决问题的关键。目前HBase提供了大量的metrics用于监控，其中有哪些是要特别关注的？线上不同类型的问题应该重点查看哪些metrics来定位问题？如何结合metrics和客户端／服务端日志快速定位问题？

2018-08-13

HBase Procedure V2介绍

主要介绍一下Procedure V2的设计和结构，以及为什么用Procedure V2能比较容易实现出正确的AssignmentManager。最后介绍一下最近在2.1分支上对一些Procedure实现修正和改进。

2018-08-13

HBase在贝壳找房的应用实践

介绍贝壳基于hbase在多维分析（kylin）,楼盘字典等核心项目的应用，并分享在实践过程中遇到的问题和性能优化经验。

2018-08-13

Scala Cheat Sheet

本速查表可以用于快速地查找Scala语法结构。Licensed by Brendan O’Connor under a CC-BY-SA 3.0 license.

2018-07-04

Apache Hive Functions Cheat Sheet

How to create and use Hive Functions, Listing of Built-In Functions that are supported in Hive

2018-07-04

Apache Spark Cheat Sheet

Apache Spark has become the engine to enhance many of the capabilities of the ever-present Apache Hadoop environment. For Big Data, Apache Spark meets a lot of needs and runs natively on Apache Hadoop’s YARN. By running Apache Spark in your Apache Hadoop environment, you gain all the security, governance, and scalability inherent to that platform. Apache Spark is also extremely well integrated with Apache Hive and gains access to all your Apache Hadoop tables utilizing integrated security.

2018-07-04

spark-summit-north-america-2018-06 全部 PPT -part1

spark-summit-north-america-2018-06 全部 PPT -part1部分。 spark-summit-north-america-2018-06 全部 PPT -part1部分

2018-06-19

spark-summit-north-america-2018-06 全部 PPT -part2

spark-summit-north-america-2018-06全部PPT，下载。spark-summit-north-america-2018-06

2018-06-17

A Deep Dive into Stateful Stream Processing in Structured Streaming

A Deep Dive into Stateful Stream Processing in Structured Streaming A Deep Dive into Stateful Stream Processing in Structured Streaming

2018-06-17

Implementing AutoML Techniques at Salesforce Scale

Implementing AutoML Techniques at Salesforce Scale,Implementing AutoML Techniques at Salesforce Scale

2018-06-17

Using AI to Deliver a Device as a Service

Using AI to Deliver a Device as a Service,Using AI to Deliver a Device as a Service

2018-06-17

Foundations of streaming SQL

Covering ideas from across the Apache Beam, Apache Calcite, Apache Kafka, and Apache Flink communities, with thoughts and contributions from Julian Hyde, Fabian Hueske, Shaoxuan Wang, Kenn Knowles, Ben Chambers, Reuven Lax, Mingmin Xu, James Xu, Martin Kleppmann, Jay Kreps and many more, not to mention that whole database community thing...

2018-06-15

Deep Dive into Spark SQL with Advanced Performance Tuning

Spark SQL is a highly scalable and efficient relational processing engine with ease-to-use APIs and mid-query fault tolerance. It is a core module of Apache Spark. Spark SQL can process, integrate and analyze the data from diverse data sources (e.g., Hive, Cassandra, Kafka and Oracle) and file formats (e.g., Parquet, ORC, CSV, and JSON). This talk will dive into the technical details of SparkSQL spanning the entire lifecycle of a query execution. The audience will get a deeper understanding of Spark SQL and understand how to tune Spark SQL performance.

2018-06-11

QCon北京2018－《RandonDb新一代分布式关系型数据库》－张雁飞.pdf

RadonDB ►可扩展 ►高可用 ►强一致 ►易部署 ►MyNewSQL

2018-05-16

QCon北京2018-《TiDB架构与开源之路》-申砾.pdf

TiDB架构与开源之路,TiDB架构与开源之路,TiDB架构与开源之路

2018-05-16

Qcon北京2018-《区块链服务在华为公有云平台上的重要问题设计实现及解决方法》-张子怡.pdf

区块链是在点对点网络中对交易具有防篡改功能的共享数据账本，Hyperledger fabric是一个比较知名的开源区块链框架，其中作为分布式系统的核心问题就是共识算法以及共识算法的效率问题。如何既保证这个共识算法能让参与区块链的联盟各方都认可它的安全可信，又能提高联盟成员间的共识效率就是一个所有人都关注的重要问题，这里我们将会介绍一种优化的bft共识算法的设计和使用方式。对于区块链服务的使用者，数据安全性是一个非常重要的问题，例如同态加密，零知识证明和国密算法等，我们会介绍这些高级功能特性，讲解这些特性的原理，以及介绍华为提供的这些特性支持中接口是怎么使用，还有通过代码示例演示怎么使用这些高级特性，让大家对区块链服务的基础和基于它的一些高级功能能有初步认识到基本实践的能力。

2018-05-16

QCon北京2018-强业务驱动的互联网+，技术管理的坑与路--廖雪梅.pdf

作为一名10年的互联网从业者，见证过流量分发、移动互联网等技术为王的时代，也正在经历以技术驱动传统行业改造的互联网+时代。在流量分发的年代，一个算法的优化，可以轻松提高收入，一个首屏加载时间的优化，可以快速提高转化率，那是一个技术为王的时代，我们会对高QPS、更短访问耗时津津乐道。而在互联网+时代，我们用自己引以为豪的技术继续去改造一个个自己并不熟悉的传统行业，突然发现我们做了很多管理系统，类erp系统，只是这些系统比之前复杂很多，我们经常在中间晕头转向，而我们引以为豪的高性能高并发各类技术似乎没有了用武之地。互联网+时代，技术管理者身边充斥这样的声音：后端研发跟你抱怨技术挑战小，没有成长空间；前端小伙伴跟你吐槽做了太多管理系统，想玩各类新技术RN、酷炫的动画都找不到试验田；业务还不会不断告诉你，xx系统的设计方案完全不符合线下场景……在焦躁不安中，甚至开始怀疑，这还是就技术改变世界的时代吗？

2018-05-16

QCon北京2018-《用正确分享来磨练专家实力——分享型专家升级记》-黄闻欣.pdf

有一期《奇葩说》，老罗说跨界很重要，实在想不到跨什么，就跨界去学演讲吧。他给的道理是影响力。我给的道理是演讲能从根本上提升你的软实力和硬实力。这次分享，我会用我的从工程师到专家工程师的亲身经历作为案例，从沟通力，学习力，思考力，强迫力，告诉大家，用怎样的钥匙才能打开这扇门。希望听众能收获并践行，让自己的职业生涯更进一步。

2018-05-16

QCon北京2018-《Oracle区块链架构及其应用开发》-蒋春明.pdf

Oracle区块链云服务基于开源的Hyperledger Fabric软件打造，是一个与其他高性能Oracle云服务相集成，且预先集成了Oracle SaaS和Oracle内部部署应用的开放的API式解决方案，能够与任何系统进行定制化整合。

2018-05-16

Apache iceberg：Netflix 数据仓库的基石

Apache Iceberg 是一种用于跟踪超大规模表的新格式，是专门为对象存储（如S3）而设计的。本文将介绍为什么 Netflix 需要构建 Iceberg，Apache Iceberg 的高层次设计，并会介绍那些能够更好地解决查询性能问题的细节。

2020-02-23

Apache Hadoop 3.x state of the union and upgrade guidance

Apache Hadoop YARN is the modern distributed operating system for big data applications. It morphed the Hadoop compute layer to be a common resource-management platform that can host a wide variety of applications. Many organizations leverage YARN in building their applications on top of Hadoop without repeatedly worrying about resource management, isolation, multitenancy issues, etc. The Hadoop Distributed File System (HDFS) is the primary data storage system used by Hadoop applications. It employs a NameNode and DataNode architecture to implement a distributed file system that provides high-performance access to data across highly scalable Hadoop clusters. Wangda Tan and Wei-Chiu Chuang the current status of Apache Hadoop 3.x—how it’s used today in deployments large and small, and they dive into the exciting present and future of Hadoop 3.x—features that further strengthen Hadoop as the primary resource-management platform and the storage system for enterprise data centers. They explore the current status and the future promise of features and initiatives for both YARN and HDFS of Hadoop 3.×. For YARN 3.x, there is powerful container placement, global scheduling, support for machine learning (Spark) and deep learning (TensorFlow) workloads through GPU and field-programmable gate array (FPGA) scheduling and isolation support, extreme scale with YARN federation, containerized apps on YARN, support for long-running services (alongside applications) natively without any changes, seamless application/services upgrades, powerful scheduling features like application priorities, intra-queue preemption across applications, and operational enhancements including insights through Timeline Service v2, a new web UI, better queue management, etc. Also, HDFS 3.0 announced GA for erasure coding, which doubles the storage efficiency of data and thus reduces the cost of storage for enterprise use cases. HDFS added support for multiple standby NameNodes for better availability. For better reliability of metadata and easier operations, Journal nodes have been enhanced to sync the edit log segments to protect against rolling failures. Disk balancing within a DataNode was another important feature added to ensure disks are evenly utilized in a DataNode, which also ensures better aggregate throughput and prevents from lopsided utilization if new disks are added or replaced in a DataNode. The HDFS team is currently driving the Ozone initiative, which lays the foundation of the next generation of storage architecture for HDFS where data blocks are organized in storage containers for higher scale and handling of small objects in HDFS. The Ozone project also includes an object store implementation to support new use cases. And you’ll leave with all the knowledge of how to upgrade painlessly from 2.x to 3.x to get all the benefits.

2020-02-04

Apache Doris (Incubating) 原理与实践.pdf

Doris（原百度 Palo）是一款基于大规模并行处理技术的分布式 SQL 数据库，由百度在 2017 年开源，2018 年 8 月进入 Apache 孵化器。

2019-12-10

Spark SQL 在字节跳动的优化实践-郭俊.pdf

Spark 在字节跳动内部扮演着重要角色。在数据仓库领域，Spark SQL 正在逐渐取代 Hive 成为主要的 ETL 计算引擎，另外它还是字节跳动内部重要的 ad-hoc 查询引擎。目前 Spark 每天处理百万亿级数据，单任务 Shuffle 数据量可超过 200TB。同时 Spark 与其它系统混合部署，因此性能与稳定性都是需要重点解决的问题。本次分享将会基于基础架构团队过往的工作成果，介绍字节跳动在提升基于 Spark SQL 的 ETL 稳定性以及优化 ad-hoc 查询的性能方面的实践。

2019-12-03

Spark+AI Summit Europe 2019 Part 3

Spark+AI Summit Europe 2019 补充PPT，解压密码请到 https://www.iteblog.com/archives/8424.html 获取。为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的，而 Spark 能够处理海量数据的分析，将 Spark 和 AI 进行结合，无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议，大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了Apache Spark™、TensorFlow、MLflow 、 PyTorch、Delta Lake、 MLflow 以及 Koalas 等开源技术的最新进展，以及在现实世界中部署人工智能的最佳实践。

2019-11-03

Spark+AI Summit Europe 2019_iteblog.zip.002

由于文件过大，分成2个文件下载。解压密码请到 https://www.iteblog.com/archives/8424.html 获取。为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的，而 Spark 能够处理海量数据的分析，将 Spark 和 AI 进行结合，无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议，大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了Apache Spark™、TensorFlow、MLflow 、 PyTorch、Delta Lake、 MLflow 以及 Koalas 等开源技术的最新进展，以及在现实世界中部署人工智能的最佳实践。

2019-11-01

Spark+AI Summit Europe 2019_iteblog.zip.001

2019-11-01

The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf

数据工程师的纠结与运维的凌乱 • Delta Lake基本原理 • Delta 架构 • Delta 架构的特性 • Delta 架构的经典案例 & Demo • Delta Lake 社区

2019-10-28

Apache Spark 3.0, Koalas, Delta Lake 最新进展

In this talk, we will highlight major efforts happening in the Spark ecosystem. In particular, we will dive into the details of adaptive and static query optimizations in Spark 3.0 to make Spark easier to use and faster to run. We will also demonstrate how new features in Koalas, an open source library that provides Pandas-like API on top of Spark, helps data scientists gain insights from their data quicker.

2019-10-28

SPARK + AI SUMMIT 2019 全部 PPT

为期三天的 SPARK + AI SUMMIT 2019 于 2019年04月23日-25日在旧金山（San Francisco）进行。数据和 AI 是需要结合的，而 Spark 能够处理海量数据的分析，将 Spark 和 AI 进行结合，无疑会带来更好的产品。作为大数据领域的顶级会议，Spark+AI Summit 2019 吸引了全球大量技术大咖参会，而且 Spark+AI Summit 越做越大，本次会议议题快接近200多个。详情：https://www.iteblog.com/archives/2431.html

2019-09-21

From Stream Processor to a Unified Data Processing System

The Apache Flink community has pushed (and continues to push) the boundary for Stream Processing over the last years, following the understanding that Stream Processing is unifying paradigm to build data processing applications, beyond real-time analytics. The latest major effort in the Flink community is nothing less then re-architecting the API and runtime stack, with the goal to naturally support the spectrum of analytics and data-driven applications, to unify the APIs for batch and streaming (Table API and DataStream API), and to build a streaming runtime that is not only state-of-the-art in stream processing, but also in batch processing performance. In this keynote, we give an overview of the goals and technology behind the above effort, and look at the adoption of Apache Flink for Stream Processing and "beyond streaming" use cases, as well as various efforts in the community to support the growth in users, applications, and ecosystem.

2019-04-20

Apache Spark 2.4 and beyond

Apache Spark 2.4 comes packed with a lot of new functionalities and improvements, including the new barrier execution mode, flexible streaming sink, the native AVRO data source, PySpark’s eager evaluation mode, Kubernetes support, higher-order functions, Scala 2.12 support, and more. Xiao Li and Wenchen Fan offer an overview of the major features and enhancements in Apache Spark 2.4. Along the way, you’ll learn about the design and implementation of V2 of theData Source API and catalog federation in the upcoming Spark release. Then you’ll get the chance to ask all your burning Spark questions.

2019-04-14

Flink社区专刊S2-重新定义计算

阿里巴巴最新一期Flink电子月刊《重新定义计算：Apache Flink 实践》正式发布，该月刊融合了 Apache Flink 在国内各大互联网公司的大规模实践和Flink Forward China峰会上的精彩演讲内容，希望对大家有所帮助。详情参考：https://mp.weixin.qq.com/s/HS9qoGTKzyd46VgjEpNiwg

2019-04-11

从MPP数仓迁移至Spark：案例与最佳实践分享

本次主要分享关于迁移实际案例与最佳实践更加深入的探讨。在迁移过程中，我们遇到了很多的预料之外的问题，如字符集问题，数字进位问题，各种OOM等等，更加深入地了解了Spark和RDMBS之间的差异。在弥补鸿沟和解决问题的过程中，我们做了很多的实践，贡献给了社区很多的反馈，也解决了很多的bug。即便对于Spark当前不能处理的场景，比如recurisve query，也有了一些可行的探索。此外，我们现在还开发了一套自动化框架来帮助加速迁移工作。在这次分享中，我们会深入迁移的关键步骤，并分享踩过的一些坑，最后会介绍我们的自动化工具，如SQL Converter等。相信对正工作在类似的任务或者即将开展类似工作的工程师们会有所帮助。下面是PPT原文：关注 Hadoop技术博文并回复 ebay_spark 获取本文PPT。

2019-03-31

2018 Apache HBase 技术实战专刊

本专刊由中国HBase技术社区整理，一共156页，包含HBase案例、组件、技术、平台等方面的介绍，详情参见https://www.iteblog.com/archives/2496.html

2019-01-07

Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]

我们都知道，Shuffle 操作在 Spark 中是一种昂贵的操作。在 Facebook，单个 Job 的 Shuffle 就可能往磁盘中写入 300TB 的数据；而且 shuffle reads 也是一种低效的操作，这会大大延长作业的整体执行时间，并且消耗大量的系统资源。为了提高 shuffle 的性能并提高资源利用率，Facebook 开发了 Spark-optimized Shuffle (SOS) 。这种 shuffle 技术有效地将大量小的 shuffle 读请求转换成少并且大的顺序 I/O 请求。目前这个技术于2018年4月已经在 Facebook 大规模使用了，作业整体的 I/O 提升了两倍，计算效率提高10％。值得高兴的是，这项技术 Facebook 打算共享给社区。本地址是这项技术的视频介绍。关注Hadoop技术博文(iteblog_hadoop) 公众号并回复 sos 获取本文相关ppt及相关技术论文。

2018-12-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

WeCenter 3.2.2

HBase in Practise: 性能、监控和问题排查

HBase Procedure V2介绍

HBase在贝壳找房的应用实践

Scala Cheat Sheet

Apache Hive Functions Cheat Sheet

Apache Spark Cheat Sheet

spark-summit-north-america-2018-06 全部 PPT -part1

spark-summit-north-america-2018-06 全部 PPT -part2

A Deep Dive into Stateful Stream Processing in Structured Streaming

Implementing AutoML Techniques at Salesforce Scale

Using AI to Deliver a Device as a Service

Foundations of streaming SQL

Deep Dive into Spark SQL with Advanced Performance Tuning

QCon北京2018－《RandonDb新一代分布式关系型数据库》－张雁飞.pdf

QCon北京2018-《TiDB架构与开源之路》-申砾.pdf

Qcon北京2018-《区块链服务在华为公有云平台上的重要问题设计实现及解决方法》-张子怡.pdf

QCon北京2018-强业务驱动的互联网+，技术管理的坑与路--廖雪梅.pdf

QCon北京2018-《用正确分享来磨练专家实力——分享型专家升级记》-黄闻欣.pdf

QCon北京2018-《Oracle区块链架构及其应用开发》-蒋春明.pdf

Apache iceberg：Netflix 数据仓库的基石

Apache Hadoop 3.x state of the union and upgrade guidance

Apache Doris (Incubating) 原理与实践.pdf

Spark SQL 在字节跳动的优化实践-郭俊.pdf

Spark+AI Summit Europe 2019 Part 3

Spark+AI Summit Europe 2019_iteblog.zip.002

Spark+AI Summit Europe 2019_iteblog.zip.001

The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf

Apache Spark 3.0, Koalas, Delta Lake 最新进展

SPARK + AI SUMMIT 2019 全部 PPT

From Stream Processor to a Unified Data Processing System

Apache Spark 2.4 and beyond

Flink社区专刊S2-重新定义计算

从MPP数仓迁移至Spark：案例与最佳实践分享

2018 Apache HBase 技术实战专刊

Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]

Apache Spark Shuffle I/O 在 Facebook 的优化

不仅仅是流计算：Apache Flink实践

Spark AI Summit Europe 2018 全部PPT - part1

Easy, Scalable, Fault-tolerant stream processing with Structured Streaming-TD

空空如也