2019年12月_过往记忆

12月 11月 10月 09月 05月

原创盘点2019年晋升为Apache TLP以及进去Apache孵化器的大数据相关项目

今天是 2019年的最后一天了，明天就是新的一年，在这里预祝大家元旦快乐！也感谢大家过去一年对小编的支持！在过去两年，本博客盘点了当年晋升为 Apache TLP（Apache Top-...

2019-12-31 08:17:07 1280

转载基于 MySQL Binlog 的 Elasticsearch 数据同步实践

一、为什么要做随着马蜂窝的逐渐发展，我们的业务数据越来越多，单纯使用 MySQL 已经不能满足我们的数据查询需求，例如对于商品、订单等数据的多维度检索。使用 Elasticsearch ...

2019-12-30 21:48:00 1442

转载为什么使用 MD5 存储密码非常危险

很多软件工程师都认为 MD5 是一种加密算法，然而这种观点其实是大错特错并且十分危险的，作为一个 1992 年第一次被公开的算法，到今天为止已经被发现了一些致命的漏洞，我们在生产环境的任...

2019-12-29 21:47:00 2812 3

转载八种解决 Spark 数据倾斜的方法

一、什么是数据倾斜对 Spark/Hadoop 这样的分布式大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜。对于分布式系统而言，理想情况下，随着系统规模（节点数量）的增加，应用整体耗...

2019-12-29 21:47:00 2573

转载我用九天时间，深挖一条闲鱼诈骗黑色产业链。

大家好，我是凌云。因为平常干的事比较特殊，所以我微信上加了挺多的警察，有时间会跟他们一块聊聊技术，分析一些案件。2019年12月15号，有个警察老哥跟我聊了聊二手平台诈骗的事，两天后...

2019-12-27 21:58:14 12111 11

原创 Apache Kafka 2.4 正式发布，重要功能详细介绍

2019年12月18日 Apache Kafka 2.4 正式发布了，这个版本有很多新功能，本文将介绍这个版本比较重要的功能，完整的更新可以参见 release notes。Kafka ...

2019-12-26 21:58:00 1096

转载抢票软件哪家强？实测告诉你答案

地球上最大的人口迁移：中国一年一度的春运高峰，马上就要开始了。2020 年春运将从 1 月 10 日开始，2 月 18 日结束，共计 40 天。春运回家时，最让人头疼的事情的就是抢火车票...

2019-12-26 21:58:00 1697 2

原创 Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比

Delta Lake 是数砖公司在2017年10月推出来的一个项目，并于2019年4月24日在美国旧金山召开的 Spark+AI Summit 2019 会上开源的一个存储层。它是 Da...

2019-12-24 18:04:46 4137

转载 Spark ML的特征处理实战

一、特征处理的意义通常情况下，我们得到的数据中包含脏数据或者噪声。在模型训练前，需要对这些数据进行预处理，否则再好的模型也只能“garbage in，garbage out”。数据预处...

2019-12-23 22:31:11 1176

转载计算机百科丨存储介质发展史

我们生活在一个信息爆炸的时代，据 IDC 预测 2020 年全球产生数据量将超过 40ZB，相当于地球上每个人每年将产生 5200GB 的数据。数据科普：存储单位换算表1 B(Byte ...

2019-12-22 21:21:10 5561

转载一文读懂云计算：发展历程、概念技术与现状分析

掐指一算，云计算已经有了十年的历史，发展到今天几乎可以算是近十年最伟大的技术进步之一。「云计算」这个术语，也早已从一个新鲜词汇，成为了妇孺皆知的流行语。任何事物的诞生和发展一定有其前...

2019-12-21 22:35:59 9734

转载那些所谓的“年初计划”,慢慢都变成了“年终笑话”!

很多人都制定年初计划，说明很多人都有想变好的期望！很多人的计划都泡汤了，说明懒惰是很多人共同的属性！时间过得好快，2019年接近尾声了。年初鸡血满满，准备新年大展宏图！年尾微微一笑，...

2019-12-21 22:35:59 405

转载 Kylin 迁移到 HBase 实践在小米的实践

背景小米Kylin生产环境部署的是基于社区2.5.2修改的内部版本，所依赖HBase集群是一个公共集群，小米内部很多离线计算服务共享使用该HBase集群。由于Kylin已经...

2019-12-20 21:50:00 712

转载面试突然问Java多线程原理，我哭了！

图片来自 Pexels谈到 Java 的多线程编程，一定绕不开线程的安全性，线程安全又包括原子性，可见性和有序性等特性。今天，我们就来看看他们之间的关联和实现原理。线程与竞态开发的应用程...

2019-12-20 21:50:00 414

转载百度为什么要投资开源中国？

12月6日，开源中国最新获得百度战略投资。百度为什么投资开源中国？意义何在？其实不只是百度，科技巨头都在加紧建设开源生态。去年10月，GitHub收购案尘埃落定，微软以75亿美元价格将G...

2019-12-19 21:58:00 511

原创 60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

Facebook 经常使用分析来进行数据驱动的决策。在过去的几年里，用户和产品都得到了增长，使得我们分析引擎中单个查询的数据量达到了数十TB。我们的一些批处理分析都是基于 Hive 平台...

2019-12-19 21:58:00 619

转载全面AI时代颠覆的第一个领域，必将是金融

“15年内，人工智能和自动化将具备取代40%-50%岗位的技术能力”，这是李开复在其新书《AI未来》发布会上的一句预测。你的工作会被人工智能取代吗？当我们第一次接触Siri的时候，这份焦...

2019-12-18 21:54:21 981

转载 360 千亿级数据量的 Kafka 深度实践

讲师介绍严锁鹏，奇虎360大数据架构运维专家，具有10年基础架构与大数据开发经验。2013年加入360商业化团队，负责消息中间件开发与运维，同时涉及大数据架构、微服务架构、实时计算平台、...

2019-12-18 21:54:21 508

转载 2019年字节跳动招聘算法岗，他们最看重哪些新技术能力？

【导读】合格的算法工程师真正应该具备什么技能？在面试时，面试官又会如何验证你具备这些新技能？毕业仅一年，相继拿下头条、阿里、腾讯等offer的本文作者，为你绘制了一幅面试技能雷达图。1◆...

2019-12-17 19:58:00 2034

转载 Apache Doris：基于 MPP 的交互式SQL数据仓库，可用于 OLAP

奇技指南近日，我们邀请到百度高级研发工程师李超勇前来360，分享百度开源数据库Apache Doris 的原理与实践。Apache Doris简介Doris（原百度 Palo）是一款基于...

2019-12-17 19:58:00 1342

转载 Docker 核心技术与实现原理

提到虚拟化技术，我们首先想到的一定是 Docker，经过四年的快速发展 Docker 已经成为了很多公司的生产环境中大规模使用，也不再是一个只能在开发阶段使用的玩具了。作为在生产环境中广...

2019-12-16 21:58:00 492

原创 Delta Lake 0.5.0 正式发布，支持包括 Hive/Presto 等多种查询引擎

Delta Lake 0.5.0 于2019年12月13日正式发布，正式版本可以到 https://github.com/delta-io/delta/releases/tag/v0.5...

2019-12-15 21:55:00 1419

转载当小内存遇上大量数据，你该怎么解决这个问题？

作者丨Itamar Turner-Trauring译者丨夏夜策划丨万佳当你写了一个处理数据的软件，它可能在小样本文件上运行地很好，但一旦加载大量真实数据后，这个软件就会崩溃。问题在于你没...

2019-12-14 21:43:21 1098

转载互联网公司的裁员，能玩出多少种花样？

裁员，也是一门学问，可谓博大精深！以下，是互联网公司的裁员的多种方法：-正文开始-135岁+不予续签的理由：千禧一代网感更强。95后不予通过试用期的理由：已婚已育员工更有责任心。2通知...

2019-12-13 21:46:00 530

转载从 Hive 大规模迁移作业到 Spark 在有赞的实践

作者：胡加华团队：大数据团队一、前言在 2019 年 1 月份的时候，我们发表过一篇博客 SparkSQL在有赞大数据的实践，里面讲述我们在 Spark 里所做的一些优化和任务迁移相关的...

2019-12-12 21:30:00 904

转载百万级高并发MongoDB集群性能数十倍提升优化实践

1. 背景线上某集群峰值TPS超过100万/秒左右(主要为写流量，读流量很低)，峰值tps几乎已经到达集群上限，同时平均时延也超过100ms，随着读写流量的进一步增加，时延抖动严重影响业...

2019-12-11 21:58:00 1205

转载我花了10个小时，写出了这篇K8S架构解析

图片来自 Pexels每个微服务通过 Docker 进行发布，随着业务的发展，系统中遍布着各种各样的容器。于是，容器的资源调度，部署运行，扩容缩容就是我们要面临的问题。基于 Kubern...

2019-12-09 21:32:10 443

转载 GitHub 长期被中国人“霸榜”？看完榜单我呆了...

你平常逛 GitHub 都会看什么？作为「技术行业观察者」的我，平时经常会逛 GitHub 找选题，最近我又在上面发现了很多宝藏...或者叫大宝箱...以下正文：随着 GItHub 在国...

2019-12-08 21:30:00 458

转载 Kylin 在 58 集团的实践和应用

△ Meetup 现场视频01平台优化目前在 58，用户可以通过两种方式来接入 Kylin 平台。一种是通过我们数据产品部开发的“魔方”接入，“魔方”是一个多维分析的 BI 平台。另一种...

2019-12-08 21:30:00 406

转载 “失败”的北漂十年，我真的尽力了。。。

献给所有飘在异乡的“我们”！在我离开北京的时候，我还依稀记得，十年前我对朋友说过的那句话：我一定要留在北京，因为那里有梦想。有时候我甚至想对着北京喊一句：去 TM 的北京，去 TM 的奋...

2019-12-07 21:58:00 444

转载 Spark SQL在携程的实践经验分享

本文根据张翼老师在2018年5月13日【第九届中国数据库技术大会】现场演讲内容整理而成。讲师简介：张翼，10年互联网老兵;2015年3月加入携程，携程的大数据平台技术总监，带领团队构建稳...

2019-12-06 21:57:00 501

转载 DataSphere Studio，打造一站式数据应用开发管理门户

“DataSphere Studio（简称DSS）是微众银行自研的一站式数据应用开发管理门户。基于插拔式的集成框架设计，及计算中间件Linkis，可轻松接入上层各种Web系统，让数据开...

2019-12-06 21:57:00 3985 2

转载直男们是如何通过送礼物气死自己女朋友的？

我看过这么一句话，“80%的男生都找不出女朋友生气的原因，剩下的20%连生不生气都看不出来！”，夸张与否，暂且不说。至少表明，男女的思维的确存在着明显的差异。男女搭配，干活不累，那是工...

2019-12-05 21:48:00 1052

原创 Apache Spark 中编写可伸缩代码的4个技巧

在本文中，我将分享一些关于如何编写可伸缩的 Apache Spark 代码的技巧。本文提供的示例代码实际上是基于我在现实世界中遇到的。因此，通过分享这些技巧，我希望能够帮助新手在不增加集...

2019-12-04 21:44:48 293

转载谷歌创始人退位！印度籍 CEO 这是要“接管”美国科技圈？

Alphabet 和谷歌一直有两位 CEO 和一位总裁。直到今天（北京时间 12 月 4 日），其中的两位 ——46 岁的拉里·佩奇和谢尔盖·布林，正式向 47 岁的皮查伊交接大权。从...

2019-12-04 21:44:48 947

转载 ElasticSearch 亿级数据检索案例实战

一、前言数据平台已迭代三个版本，刚开始遇到很多常见的难题，终于有时间整理一些已完善的文档了，在此分享一下。希望能帮助大家少走些弯路，在此篇幅中偏重于ES的优化。关于HBase，Hadoo...

2019-12-03 21:17:29 1574

转载 Flink Forward Asia 2019 总结和展望 - 附PPT下载

11 月 28 - 30 日，北京迎来了入冬以来的第一场雪，2019 Flink Forward Asia（FFA）也在初雪的召唤下顺利拉开帷幕。尽管天气寒冷，FFA 实际到会人次超过 ...

2019-12-03 21:17:29 833

转载有赞数据中台建设实践

点击关注“有赞coder”获取更多技术干货哦～作者：贺飞团队：大数据团队概述究竟什么是中台, 业界并没有一个标准答案, 各个厂商都有自己的定义. 笔者比较认可的一个定义是 Thought...

2019-12-02 21:58:00 1377

转载这可能是介绍 ZooKeeper 最好的文章了

在 2006 年，Google 发表了一篇名为 The Chubby lock service for loosely-coupled distributed systems 的论文，其...

2019-12-01 21:57:38 411

转载高以翔死因曝光！猝死前最后4分钟，他本还有一次活的机会...

“ 11 月 27 日，因电视剧《遇见王沥川》中“王沥川”一角而为人熟知的台湾演员高以翔，在宁波录制浙江卫视节目《追我吧》时发生意外，不幸“心源性猝死”，时年 35 岁。事发后，不少声音...

2019-12-01 21:57:38 3726

WeCenter 3.2.2

WeCenter 是一款开源知识型的社交化问答社区程序，专注于社区内容的整理、归类和检索，并通过连接微信公众平台，移动APP进行内容分发。

2018-09-13

HBase在不同版本（1.x, 2.x, 3.0）中针对不同类型的硬件（以IO为例，HDD/SATA-SSD/PCIe-SSD/Cloud）和场景（single/batch, get/scan）做了（即将做）各种不同的优化，这些优化都有哪些？如何针对自己的生产业务和硬件环境选择和使用合适的版本/功能？在生产环境可能出现各种问题，而监控系统是发现并解决问题的关键。目前HBase提供了大量的metrics用于监控，其中有哪些是要特别关注的？线上不同类型的问题应该重点查看哪些metrics来定位问题？如何结合metrics和客户端／服务端日志快速定位问题？

2018-08-13

HBase Procedure V2介绍

主要介绍一下Procedure V2的设计和结构，以及为什么用Procedure V2能比较容易实现出正确的AssignmentManager。最后介绍一下最近在2.1分支上对一些Procedure实现修正和改进。

2018-08-13

HBase在贝壳找房的应用实践

介绍贝壳基于hbase在多维分析（kylin）,楼盘字典等核心项目的应用，并分享在实践过程中遇到的问题和性能优化经验。

2018-08-13

Scala Cheat Sheet

本速查表可以用于快速地查找Scala语法结构。Licensed by Brendan O’Connor under a CC-BY-SA 3.0 license.

2018-07-04

Apache Hive Functions Cheat Sheet

How to create and use Hive Functions, Listing of Built-In Functions that are supported in Hive

2018-07-04

Apache Spark Cheat Sheet

Apache Spark has become the engine to enhance many of the capabilities of the ever-present Apache Hadoop environment. For Big Data, Apache Spark meets a lot of needs and runs natively on Apache Hadoop’s YARN. By running Apache Spark in your Apache Hadoop environment, you gain all the security, governance, and scalability inherent to that platform. Apache Spark is also extremely well integrated with Apache Hive and gains access to all your Apache Hadoop tables utilizing integrated security.

2018-07-04

spark-summit-north-america-2018-06 全部 PPT -part1

spark-summit-north-america-2018-06 全部 PPT -part1部分。 spark-summit-north-america-2018-06 全部 PPT -part1部分

2018-06-19

spark-summit-north-america-2018-06 全部 PPT -part2

spark-summit-north-america-2018-06全部PPT，下载。spark-summit-north-america-2018-06

2018-06-17

A Deep Dive into Stateful Stream Processing in Structured Streaming

A Deep Dive into Stateful Stream Processing in Structured Streaming A Deep Dive into Stateful Stream Processing in Structured Streaming

2018-06-17

Implementing AutoML Techniques at Salesforce Scale

Implementing AutoML Techniques at Salesforce Scale,Implementing AutoML Techniques at Salesforce Scale

2018-06-17

Using AI to Deliver a Device as a Service

Using AI to Deliver a Device as a Service,Using AI to Deliver a Device as a Service

2018-06-17

Foundations of streaming SQL

Covering ideas from across the Apache Beam, Apache Calcite, Apache Kafka, and Apache Flink communities, with thoughts and contributions from Julian Hyde, Fabian Hueske, Shaoxuan Wang, Kenn Knowles, Ben Chambers, Reuven Lax, Mingmin Xu, James Xu, Martin Kleppmann, Jay Kreps and many more, not to mention that whole database community thing...

2018-06-15

Deep Dive into Spark SQL with Advanced Performance Tuning

Spark SQL is a highly scalable and efficient relational processing engine with ease-to-use APIs and mid-query fault tolerance. It is a core module of Apache Spark. Spark SQL can process, integrate and analyze the data from diverse data sources (e.g., Hive, Cassandra, Kafka and Oracle) and file formats (e.g., Parquet, ORC, CSV, and JSON). This talk will dive into the technical details of SparkSQL spanning the entire lifecycle of a query execution. The audience will get a deeper understanding of Spark SQL and understand how to tune Spark SQL performance.

2018-06-11

QCon北京2018－《RandonDb新一代分布式关系型数据库》－张雁飞.pdf

RadonDB ►可扩展 ►高可用 ►强一致 ►易部署 ►MyNewSQL

2018-05-16

QCon北京2018-《TiDB架构与开源之路》-申砾.pdf

TiDB架构与开源之路,TiDB架构与开源之路,TiDB架构与开源之路

2018-05-16

Qcon北京2018-《区块链服务在华为公有云平台上的重要问题设计实现及解决方法》-张子怡.pdf

区块链是在点对点网络中对交易具有防篡改功能的共享数据账本，Hyperledger fabric是一个比较知名的开源区块链框架，其中作为分布式系统的核心问题就是共识算法以及共识算法的效率问题。如何既保证这个共识算法能让参与区块链的联盟各方都认可它的安全可信，又能提高联盟成员间的共识效率就是一个所有人都关注的重要问题，这里我们将会介绍一种优化的bft共识算法的设计和使用方式。对于区块链服务的使用者，数据安全性是一个非常重要的问题，例如同态加密，零知识证明和国密算法等，我们会介绍这些高级功能特性，讲解这些特性的原理，以及介绍华为提供的这些特性支持中接口是怎么使用，还有通过代码示例演示怎么使用这些高级特性，让大家对区块链服务的基础和基于它的一些高级功能能有初步认识到基本实践的能力。

2018-05-16

QCon北京2018-强业务驱动的互联网+，技术管理的坑与路--廖雪梅.pdf

作为一名10年的互联网从业者，见证过流量分发、移动互联网等技术为王的时代，也正在经历以技术驱动传统行业改造的互联网+时代。在流量分发的年代，一个算法的优化，可以轻松提高收入，一个首屏加载时间的优化，可以快速提高转化率，那是一个技术为王的时代，我们会对高QPS、更短访问耗时津津乐道。而在互联网+时代，我们用自己引以为豪的技术继续去改造一个个自己并不熟悉的传统行业，突然发现我们做了很多管理系统，类erp系统，只是这些系统比之前复杂很多，我们经常在中间晕头转向，而我们引以为豪的高性能高并发各类技术似乎没有了用武之地。互联网+时代，技术管理者身边充斥这样的声音：后端研发跟你抱怨技术挑战小，没有成长空间；前端小伙伴跟你吐槽做了太多管理系统，想玩各类新技术RN、酷炫的动画都找不到试验田；业务还不会不断告诉你，xx系统的设计方案完全不符合线下场景……在焦躁不安中，甚至开始怀疑，这还是就技术改变世界的时代吗？

2018-05-16

QCon北京2018-《用正确分享来磨练专家实力——分享型专家升级记》-黄闻欣.pdf

有一期《奇葩说》，老罗说跨界很重要，实在想不到跨什么，就跨界去学演讲吧。他给的道理是影响力。我给的道理是演讲能从根本上提升你的软实力和硬实力。这次分享，我会用我的从工程师到专家工程师的亲身经历作为案例，从沟通力，学习力，思考力，强迫力，告诉大家，用怎样的钥匙才能打开这扇门。希望听众能收获并践行，让自己的职业生涯更进一步。

2018-05-16

QCon北京2018-《Oracle区块链架构及其应用开发》-蒋春明.pdf

Oracle区块链云服务基于开源的Hyperledger Fabric软件打造，是一个与其他高性能Oracle云服务相集成，且预先集成了Oracle SaaS和Oracle内部部署应用的开放的API式解决方案，能够与任何系统进行定制化整合。

2018-05-16

Apache iceberg：Netflix 数据仓库的基石

Apache Iceberg 是一种用于跟踪超大规模表的新格式，是专门为对象存储（如S3）而设计的。本文将介绍为什么 Netflix 需要构建 Iceberg，Apache Iceberg 的高层次设计，并会介绍那些能够更好地解决查询性能问题的细节。

2020-02-23

Apache Hadoop 3.x state of the union and upgrade guidance

Apache Hadoop YARN is the modern distributed operating system for big data applications. It morphed the Hadoop compute layer to be a common resource-management platform that can host a wide variety of applications. Many organizations leverage YARN in building their applications on top of Hadoop without repeatedly worrying about resource management, isolation, multitenancy issues, etc. The Hadoop Distributed File System (HDFS) is the primary data storage system used by Hadoop applications. It employs a NameNode and DataNode architecture to implement a distributed file system that provides high-performance access to data across highly scalable Hadoop clusters. Wangda Tan and Wei-Chiu Chuang the current status of Apache Hadoop 3.x—how it’s used today in deployments large and small, and they dive into the exciting present and future of Hadoop 3.x—features that further strengthen Hadoop as the primary resource-management platform and the storage system for enterprise data centers. They explore the current status and the future promise of features and initiatives for both YARN and HDFS of Hadoop 3.×. For YARN 3.x, there is powerful container placement, global scheduling, support for machine learning (Spark) and deep learning (TensorFlow) workloads through GPU and field-programmable gate array (FPGA) scheduling and isolation support, extreme scale with YARN federation, containerized apps on YARN, support for long-running services (alongside applications) natively without any changes, seamless application/services upgrades, powerful scheduling features like application priorities, intra-queue preemption across applications, and operational enhancements including insights through Timeline Service v2, a new web UI, better queue management, etc. Also, HDFS 3.0 announced GA for erasure coding, which doubles the storage efficiency of data and thus reduces the cost of storage for enterprise use cases. HDFS added support for multiple standby NameNodes for better availability. For better reliability of metadata and easier operations, Journal nodes have been enhanced to sync the edit log segments to protect against rolling failures. Disk balancing within a DataNode was another important feature added to ensure disks are evenly utilized in a DataNode, which also ensures better aggregate throughput and prevents from lopsided utilization if new disks are added or replaced in a DataNode. The HDFS team is currently driving the Ozone initiative, which lays the foundation of the next generation of storage architecture for HDFS where data blocks are organized in storage containers for higher scale and handling of small objects in HDFS. The Ozone project also includes an object store implementation to support new use cases. And you’ll leave with all the knowledge of how to upgrade painlessly from 2.x to 3.x to get all the benefits.

2020-02-04

Apache Doris (Incubating) 原理与实践.pdf

Doris（原百度 Palo）是一款基于大规模并行处理技术的分布式 SQL 数据库，由百度在 2017 年开源，2018 年 8 月进入 Apache 孵化器。

2019-12-10

Spark SQL 在字节跳动的优化实践-郭俊.pdf

Spark 在字节跳动内部扮演着重要角色。在数据仓库领域，Spark SQL 正在逐渐取代 Hive 成为主要的 ETL 计算引擎，另外它还是字节跳动内部重要的 ad-hoc 查询引擎。目前 Spark 每天处理百万亿级数据，单任务 Shuffle 数据量可超过 200TB。同时 Spark 与其它系统混合部署，因此性能与稳定性都是需要重点解决的问题。本次分享将会基于基础架构团队过往的工作成果，介绍字节跳动在提升基于 Spark SQL 的 ETL 稳定性以及优化 ad-hoc 查询的性能方面的实践。

2019-12-03

Spark+AI Summit Europe 2019 Part 3

Spark+AI Summit Europe 2019 补充PPT，解压密码请到 https://www.iteblog.com/archives/8424.html 获取。为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的，而 Spark 能够处理海量数据的分析，将 Spark 和 AI 进行结合，无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议，大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了Apache Spark™、TensorFlow、MLflow 、 PyTorch、Delta Lake、 MLflow 以及 Koalas 等开源技术的最新进展，以及在现实世界中部署人工智能的最佳实践。

2019-11-03

Spark+AI Summit Europe 2019_iteblog.zip.002

由于文件过大，分成2个文件下载。解压密码请到 https://www.iteblog.com/archives/8424.html 获取。为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的，而 Spark 能够处理海量数据的分析，将 Spark 和 AI 进行结合，无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议，大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了Apache Spark™、TensorFlow、MLflow 、 PyTorch、Delta Lake、 MLflow 以及 Koalas 等开源技术的最新进展，以及在现实世界中部署人工智能的最佳实践。

2019-11-01

Spark+AI Summit Europe 2019_iteblog.zip.001

2019-11-01

The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf

数据工程师的纠结与运维的凌乱 • Delta Lake基本原理 • Delta 架构 • Delta 架构的特性 • Delta 架构的经典案例 & Demo • Delta Lake 社区

2019-10-28

Apache Spark 3.0, Koalas, Delta Lake 最新进展

In this talk, we will highlight major efforts happening in the Spark ecosystem. In particular, we will dive into the details of adaptive and static query optimizations in Spark 3.0 to make Spark easier to use and faster to run. We will also demonstrate how new features in Koalas, an open source library that provides Pandas-like API on top of Spark, helps data scientists gain insights from their data quicker.

2019-10-28

SPARK + AI SUMMIT 2019 全部 PPT

为期三天的 SPARK + AI SUMMIT 2019 于 2019年04月23日-25日在旧金山（San Francisco）进行。数据和 AI 是需要结合的，而 Spark 能够处理海量数据的分析，将 Spark 和 AI 进行结合，无疑会带来更好的产品。作为大数据领域的顶级会议，Spark+AI Summit 2019 吸引了全球大量技术大咖参会，而且 Spark+AI Summit 越做越大，本次会议议题快接近200多个。详情：https://www.iteblog.com/archives/2431.html

2019-09-21

From Stream Processor to a Unified Data Processing System

The Apache Flink community has pushed (and continues to push) the boundary for Stream Processing over the last years, following the understanding that Stream Processing is unifying paradigm to build data processing applications, beyond real-time analytics. The latest major effort in the Flink community is nothing less then re-architecting the API and runtime stack, with the goal to naturally support the spectrum of analytics and data-driven applications, to unify the APIs for batch and streaming (Table API and DataStream API), and to build a streaming runtime that is not only state-of-the-art in stream processing, but also in batch processing performance. In this keynote, we give an overview of the goals and technology behind the above effort, and look at the adoption of Apache Flink for Stream Processing and "beyond streaming" use cases, as well as various efforts in the community to support the growth in users, applications, and ecosystem.

2019-04-20

Apache Spark 2.4 and beyond

Apache Spark 2.4 comes packed with a lot of new functionalities and improvements, including the new barrier execution mode, flexible streaming sink, the native AVRO data source, PySpark’s eager evaluation mode, Kubernetes support, higher-order functions, Scala 2.12 support, and more. Xiao Li and Wenchen Fan offer an overview of the major features and enhancements in Apache Spark 2.4. Along the way, you’ll learn about the design and implementation of V2 of theData Source API and catalog federation in the upcoming Spark release. Then you’ll get the chance to ask all your burning Spark questions.

2019-04-14

Flink社区专刊S2-重新定义计算

阿里巴巴最新一期Flink电子月刊《重新定义计算：Apache Flink 实践》正式发布，该月刊融合了 Apache Flink 在国内各大互联网公司的大规模实践和Flink Forward China峰会上的精彩演讲内容，希望对大家有所帮助。详情参考：https://mp.weixin.qq.com/s/HS9qoGTKzyd46VgjEpNiwg

2019-04-11

从MPP数仓迁移至Spark：案例与最佳实践分享

本次主要分享关于迁移实际案例与最佳实践更加深入的探讨。在迁移过程中，我们遇到了很多的预料之外的问题，如字符集问题，数字进位问题，各种OOM等等，更加深入地了解了Spark和RDMBS之间的差异。在弥补鸿沟和解决问题的过程中，我们做了很多的实践，贡献给了社区很多的反馈，也解决了很多的bug。即便对于Spark当前不能处理的场景，比如recurisve query，也有了一些可行的探索。此外，我们现在还开发了一套自动化框架来帮助加速迁移工作。在这次分享中，我们会深入迁移的关键步骤，并分享踩过的一些坑，最后会介绍我们的自动化工具，如SQL Converter等。相信对正工作在类似的任务或者即将开展类似工作的工程师们会有所帮助。下面是PPT原文：关注 Hadoop技术博文并回复 ebay_spark 获取本文PPT。

2019-03-31

2018 Apache HBase 技术实战专刊

本专刊由中国HBase技术社区整理，一共156页，包含HBase案例、组件、技术、平台等方面的介绍，详情参见https://www.iteblog.com/archives/2496.html

2019-01-07

Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]

我们都知道，Shuffle 操作在 Spark 中是一种昂贵的操作。在 Facebook，单个 Job 的 Shuffle 就可能往磁盘中写入 300TB 的数据；而且 shuffle reads 也是一种低效的操作，这会大大延长作业的整体执行时间，并且消耗大量的系统资源。为了提高 shuffle 的性能并提高资源利用率，Facebook 开发了 Spark-optimized Shuffle (SOS) 。这种 shuffle 技术有效地将大量小的 shuffle 读请求转换成少并且大的顺序 I/O 请求。目前这个技术于2018年4月已经在 Facebook 大规模使用了，作业整体的 I/O 提升了两倍，计算效率提高10％。值得高兴的是，这项技术 Facebook 打算共享给社区。本地址是这项技术的视频介绍。关注Hadoop技术博文(iteblog_hadoop) 公众号并回复 sos 获取本文相关ppt及相关技术论文。

2018-12-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

WeCenter 3.2.2

HBase in Practise: 性能、监控和问题排查

HBase Procedure V2介绍

HBase在贝壳找房的应用实践

Scala Cheat Sheet

Apache Hive Functions Cheat Sheet

Apache Spark Cheat Sheet

spark-summit-north-america-2018-06 全部 PPT -part1

spark-summit-north-america-2018-06 全部 PPT -part2

A Deep Dive into Stateful Stream Processing in Structured Streaming

Implementing AutoML Techniques at Salesforce Scale

Using AI to Deliver a Device as a Service

Foundations of streaming SQL

Deep Dive into Spark SQL with Advanced Performance Tuning

QCon北京2018－《RandonDb新一代分布式关系型数据库》－张雁飞.pdf

QCon北京2018-《TiDB架构与开源之路》-申砾.pdf

Qcon北京2018-《区块链服务在华为公有云平台上的重要问题设计实现及解决方法》-张子怡.pdf

QCon北京2018-强业务驱动的互联网+，技术管理的坑与路--廖雪梅.pdf

QCon北京2018-《用正确分享来磨练专家实力——分享型专家升级记》-黄闻欣.pdf

QCon北京2018-《Oracle区块链架构及其应用开发》-蒋春明.pdf

Apache iceberg：Netflix 数据仓库的基石

Apache Hadoop 3.x state of the union and upgrade guidance

Apache Doris (Incubating) 原理与实践.pdf

Spark SQL 在字节跳动的优化实践-郭俊.pdf

Spark+AI Summit Europe 2019 Part 3

Spark+AI Summit Europe 2019_iteblog.zip.002

Spark+AI Summit Europe 2019_iteblog.zip.001

The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf

Apache Spark 3.0, Koalas, Delta Lake 最新进展

SPARK + AI SUMMIT 2019 全部 PPT

From Stream Processor to a Unified Data Processing System

Apache Spark 2.4 and beyond

Flink社区专刊S2-重新定义计算

从MPP数仓迁移至Spark：案例与最佳实践分享

2018 Apache HBase 技术实战专刊

Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]

Apache Spark Shuffle I/O 在 Facebook 的优化

不仅仅是流计算：Apache Flink实践

Spark AI Summit Europe 2018 全部PPT - part1

Easy, Scalable, Fault-tolerant stream processing with Structured Streaming-TD

空空如也