- 博客(43)
- 资源 (291)
- 收藏
- 关注
原创 Twitter 如何将 Kafka 当做一个存储系统
前言当开发人员通过我们提供的 API 使用公开的 Twitter 数据时,他们需要可靠性、高效的性能以及稳定性。因此,在前一段时间,我们为 Account Activity API 启动...
2020-12-31 08:52:52 425 1
转载 PrestoSQL 项目更名为 Trino,彻底和 PrestoDB 分家
2020年12月27日,Martin Traverso、 Dain Sundstrom 以及 David Phillips 大佬们宣布将 PrestoSQL 项目的名字更名为 Trino...
2020-12-30 09:00:00 6080
转载 ClickHouse在京东流量分析的应用实践
前言ClickHouse 是一款开源列式存储的分析型数据库,相较业界OLAP数据库系统,其最核心优势就是极致的查询性能。它实现了向量化执行和SIMD指令,对内存中的列式数据,一个batc...
2020-12-29 09:40:18 2139 1
转载 还有多久 Flink 会取代 Spark?先看看 Flink 流批一体有多牛吧!
身为大数据工程师,你还在苦学Spark、Hadoop、Storm,却还没搞过Flink?醒醒吧!刚过去的2020双11,阿里在Flink实时计算技术的驱动下全程保持了“如丝般顺滑”,基于...
2020-12-28 09:00:00 1873
转载 携程 Redis 治理演进之路
作者简介本文为联合撰稿,作者团队包括:布莱德,携程技术专家;向晨,携程数据库专家;骋成,携程技术专家;小峰,携程高级软件工程师。一、背景携程Redis集群规模和数据规模在过去几年里快速...
2020-12-28 09:00:00 287
原创 Apache Kafka 2.7.0 稳定版发布,有哪些值得关心的变化?
Apache Kafka 2.7.0 于2020年12月21日正式发布,这个版本是目前 Kafka 最新稳定版本,大家可以根据需要自行决定是否需要升级到次版本,关于各个版本升级到 Apa...
2020-12-27 20:35:07 6745 3
转载 Flink Forward Asia 2020 -- Keynote 总结
作者:王峰(莫问)、梅源剩喜漫天飞玉蝶,不嫌幽谷阻黄莺。2020 年是不寻常的一年,Flink 也在这一年迎来了新纪元。12 月13 – 15 号,2020 Flink Forward...
2020-12-26 08:59:00 262
转载 详解分布式协调服务 ZooKeeper,再也不怕面试问这个了
ZooKeeper 是一个分布式协调服务,由 Apache 进行维护。ZooKeeper 可以视为一个高可用的文件系统。ZooKeeper 可以用于发布/订阅、负载均衡、命令服务、分布...
2020-12-25 09:04:37 419
转载 eBay 广告数据平台的 OLAP 系统演进实战
01背景eBay广告数据平台为eBay第一方广告主(使用Promoted Listing服务的卖家)提供了广告流量、用户行为和效果数据分析功能。广告卖家通过卖家中心(Seller Hu...
2020-12-24 08:52:00 371
转载 滴滴在HBase性能与可用性上的探索与实践
导读:HBase作为Hadoop生态中表现较为突出的分布式在线数据存储产品,在滴滴有着非常广泛的应用,但同样存在比较突出的短板问题——例如可用性较弱、毛刺严重等,一定程度上限制了它的业务...
2020-12-23 09:00:00 287
转载 想入行大数据领域,学习路线怎么规划?
自从“大数据”成为国民热词以来,想入行的人越来越多,不管是为了提高收入还是兴趣使然,只要是想学习新的知识,就必须有套系统的学习路线。本文整理了大数据领域入门必学的一些知识点,以及每个知识...
2020-12-23 09:00:00 623 1
转载 10小时,就能吃透Kafka源码?
在大数据时代飞速发展的当下,Kafka凭借着其高吞吐低延迟、高压缩性、持久性、可靠性、容错性以及高并发的优势,解决了“在巨大数据下进行准确收集并分析”的难题,也受到了不少大厂以及工程师的...
2020-12-22 09:00:00 393
转载 Presto 在有赞的实践之路
本文主要介绍了 Presto 的简单原理,以及 Presto 在有赞的实践之路。一、Presto 介绍Presto 是由 Facebook 开发的开源大数据分布式高性能 SQL 查询引擎...
2020-12-22 09:00:00 1085 1
转载 Flink 还是 Spark?阿里技术专家一语道破真相!
身为大数据工程师,你还在苦学Spark、Hadoop、Storm,却还没搞过Flink?醒醒吧!刚过去的2020双11,阿里在Flink实时计算技术的驱动下全程保持了“如丝般顺滑”,基于...
2020-12-21 09:00:00 625
转载 贝壳找房 OLAP 平台实践
Kylin 在贝壳的使用情况介绍Kylin从2017年开始作为贝壳公司级OLAP引擎对外提供服务,目前有100多台Kylin实例;有800多个Cube;有300多T的单副本存储;在贝壳 ...
2020-12-21 09:00:00 597
转载 Apache Flink 1.12.0 正式发布,真正的流批一体
Apache Flink 社区很荣幸地宣布 Flink 1.12.0 版本正式发布!近 300 位贡献者参与了 Flink 1.12.0 的开发,提交了超过 1000 多个修复或优化...
2020-12-20 21:07:00 2306
转载 万亿级数据应该怎么迁移?
背景在星爷的《大话西游》中有一句非常出名的台词:“曾经有一份真挚的感情摆在我的面前我没有珍惜,等我失去的时候才追悔莫及,人间最痛苦的事莫过于此,如果上天能给我一次再来一次的机会,我会对哪...
2020-12-19 09:30:00 464 1
原创 Presto在车好多的实践
本文作者:车好多大数据OLAP团队-王培Presto 简介1.简介Presto 最初是由 Facebook 开发的一个分布式 SQL 执行引擎, 它被设计为用来专门进行高速、实时的数据分...
2020-12-18 08:22:00 5673 8
转载 推荐一个不发广告的大数据公众号
公众号无疑是最方便、最直接的获取内容的方式,奈何很多公众号为了生存,不得不接一些广告,虽说不发广告的时候,技术文章质量很高,但到底是影响阅读体验。现如今,还有没有一个纯净的、只发干货文章...
2020-12-18 08:22:00 333 1
转载 Clickhouse的实践之路
导读在数据量日益增长的当下,传统数据库的查询性能已满足不了我们的业务需求。而Clickhouse在OLAP领域的快速崛起引起了我们的注意,于是我们引入Clickhouse并不断优化系统性...
2020-12-17 09:00:00 6249 2
转载 如何转行大数据方向?
经常有同学在后台留言问我,自己觉得大数据行业薪资很高,想往大数据方向发展,但不知道该学哪些知识,应该具备的技能树是啥样的。迷茫和焦虑都要溢出屏幕了……如果觉得薪资高就业好,想往大数据方向...
2020-12-16 09:00:00 793
转载 Spark SQL 查询 Parquet 文件的性能提升 30%,字节是如何做到的?
本文来自11月举办的Data + AI Summit 2020(原 Spark+AI Summit),主题为《Improving Spark SQL Performance by 3...
2020-12-16 09:00:00 2434 1
转载 AI论文选得好,工资老婆都会好!
搞AI,在不断精进自己代码的同时,更应该提升自己的阅读能力。需要不断地阅读大量的最新、最前沿的论文,也要深扎经典论文根基。因为阅读论文可以帮助你深入原理,理解AI更前沿的发展状态,掌握更...
2020-12-15 09:00:00 115
转载 漫话docker的衰落与kubernetes的兴起
伴随着kubernetes 1.20中对于docker的弃用,关于docker的灭亡与kubernetes的兴起的话题再度热了起来。讨论中关于docker灭亡的观点我不敢苟同。docke...
2020-12-15 09:00:00 285
转载 58同城用户行为数仓建设及实践
背景随着58业务体系的不断建设与发展,数据分析与应用需求越来越丰富,给数据仓库的建设工作带来了很大的挑战。全站行为数据仓库建设过程中,我们总结的问题包括如下几点:(1) 数据体系架构已经...
2020-12-14 09:00:00 397
原创 物化列:字节为解决 Spark 嵌套列查询性能低下的优化
本文来自11月举办的Data + AI Summit 2020(原 Spark+AI Summit),主题为《Materialized Column- An Efficient Wa...
2020-12-13 21:18:30 894
转载 IntelliJ IDEA 2020.3 正式版发布,多项超酷新功能
2020年12月01日,IntelliJ IDEA 2020.3 正式发布,这是2020年的第三个里程碑版本本文主要介绍 IntelliJ IDEA 2020.3 的新功能。用户体验重新...
2020-12-12 21:04:00 5026 2
转载 Redis有啥可牛的?
如果你是一位后端工程师,面试时八成会被问到 Redis,特别是那些大型互联网公司,不仅要求面试者能简单使用 Redis,还要深入理解其底层实现原理,具备解决常见问题的能力。可以说,熟练使...
2020-12-11 09:17:28 293
转载 Spark-Redis入门到解决执行海量数据插入、查询作业时碰到的问题
Spark 是专为大规模数据处理而设计的快速通用的计算引擎,起源于UC Berkeley AMP lab的一个研究项目。相比传统的Hadoop(MapReduce) ,Spark的性能快...
2020-12-11 09:17:28 1319 1
转载 恭喜!新一代分布式对象存储 Ozone 成为顶级项目
刚刚获悉,Apache基金董事会通过一致表决,正式批准分布式文件对象存储Ozone从Hadoop社区孵化成功,成为独立的Apache顶级开源项目。这意味着,作为腾讯大数据团队首个参与和主...
2020-12-10 09:07:00 1031
转载 HDFS 下一代对象存储 Ozone 在腾讯的使用
背景介绍腾讯目前在HDFS上存储了海量的数据,但HDFS在可扩展性上的缺陷,以及对小文件的不友好,限制了HDFS在许多场景下的应用。为了寻找能解决这些问题的存储系统,Ozone走入了我们...
2020-12-09 09:01:22 1407
转载 10PB 规模的 HDFS 数据在 eBay 的迁移实战
导读INTRODUCTIONHadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件上的分布式文件系统(Distributed File System)。本文将介绍eBay ...
2020-12-08 09:00:00 670
转载 你为什么总学不会设计模式?
设计模式对你来说,应该不陌生。在面试中,经常会被问到,在工作中也会用到。一些设计模式书籍,比如大名鼎鼎的GoF的《设计模式》、通俗易懂的《Head First设计模式》,估计你也都研读过...
2020-12-08 09:00:00 245
转载 京东EB级全域大数据平台的演进与治理历程
讲师介绍包勇军,目前在京东任职数据基础平台部、广告质量部、推荐研发部负责人,同时担任京东集团技术委员会委员、京东零售数据算法委员会会长。负责大数据平台基础架构的建设和产品开发、AI算法平...
2020-12-07 09:00:00 722
原创 Data + AI Summit 欧洲2020全部超清 PPT 下载
Data + AI Summit Europe 2020 原 Spark + AI Summit Europe 于2020年11月17日至19日举行。由于新冠疫情影响,本次会议和六月份举...
2020-12-06 21:11:57 851
转载 为什么全网都劝你不要学C++?
学C++能干什么?往细了说,后端、客户端、游戏引擎开发以及人工智能领域都需要它。往大了说,构成一个工程师核心能力的东西,都在C++里。跟面向对象型的语言相比,C++是一门非常考验技术想...
2020-12-06 21:11:57 1577
转载 年底看机会,欢迎加入Java大数据招聘群!
欢迎加入群【Java-大数据招聘求职信息群】【已发布职位】加群请确认已关注公众号:Java与大数据架构在上面的公众号后台回复:666 获取进群方式(如群满,请加个人微信拉你进群:del...
2020-12-05 22:08:53 433
转载 基于 Flink+Iceberg 构建企业级实时数据湖
Apache Flink 是大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构。那么当 Apache Flink 遇见数据湖时,会碰撞出什么样的火花呢?本次...
2020-12-04 08:26:00 614
转载 分布式搜索引擎Elasticsearch的架构分析
一、写在前面ES(Elasticsearch下文统一称为ES)越来越多的企业在业务场景是使用ES存储自己的非结构化数据,例如电商业务实现商品站内搜索,数据指标分析,日志分析等,ES作为...
2020-12-03 09:00:00 370
HBase in Practise: 性能、监控和问题排查
2018-08-13
HBase Procedure V2介绍
2018-08-13
Scala Cheat Sheet
2018-07-04
Apache Hive Functions Cheat Sheet
2018-07-04
Apache Spark Cheat Sheet
2018-07-04
spark-summit-north-america-2018-06 全部 PPT -part1
2018-06-19
spark-summit-north-america-2018-06 全部 PPT -part2
2018-06-17
A Deep Dive into Stateful Stream Processing in Structured Streaming
2018-06-17
Implementing AutoML Techniques at Salesforce Scale
2018-06-17
Using AI to Deliver a Device as a Service
2018-06-17
Foundations of streaming SQL
2018-06-15
Deep Dive into Spark SQL with Advanced Performance Tuning
2018-06-11
Qcon北京2018-《区块链服务在华为公有云平台上的重要问题设计实现及解决方法》-张子怡.pdf
2018-05-16
QCon北京2018-强业务驱动的互联网+,技术管理的坑与路--廖雪梅.pdf
2018-05-16
QCon北京2018-《用正确分享来磨练专家实力——分享型专家升级记》-黄闻欣.pdf
2018-05-16
QCon北京2018-《Oracle区块链架构及其应用开发》-蒋春明.pdf
2018-05-16
Apache iceberg:Netflix 数据仓库的基石
2020-02-23
Apache Hadoop 3.x state of the union and upgrade guidance
2020-02-04
Apache Doris (Incubating) 原理与实践.pdf
2019-12-10
Spark SQL 在字节跳动的优化实践-郭俊.pdf
2019-12-03
Spark+AI Summit Europe 2019 Part 3
2019-11-03
Spark+AI Summit Europe 2019_iteblog.zip.002
2019-11-01
Spark+AI Summit Europe 2019_iteblog.zip.001
2019-11-01
The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf
2019-10-28
Apache Spark 3.0, Koalas, Delta Lake 最新进展
2019-10-28
SPARK + AI SUMMIT 2019 全部 PPT
2019-09-21
From Stream Processor to a Unified Data Processing System
2019-04-20
Apache Spark 2.4 and beyond
2019-04-14
Flink社区专刊S2-重新定义计算
2019-04-11
从MPP数仓迁移至Spark:案例与最佳实践分享
2019-03-31
2018 Apache HBase 技术实战专刊
2019-01-07
Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]
2018-12-10
Apache Spark Shuffle I/O 在 Facebook 的优化
2018-12-10
不仅仅是流计算:Apache Flink实践
2018-11-29
Spark AI Summit Europe 2018 全部PPT - part1
2018-10-13
Easy, Scalable, Fault-tolerant stream processing with Structured Streaming-TD
2018-09-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人