自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

转载 滴滴ElasticSearch千万级TPS写入性能翻倍技术剖析

桔妹导读:滴滴ElasticSearch平台承接了公司内部所有使用ElasticSearch的业务,包括核心搜索、RDS从库、日志检索、安全数据分析、指标数据分析等等。平台规模达到了30...

2020-08-14 08:40:00 3

转载 眨眼 Spark 都 3.0 了!

福利手慢无廖雪峰的大数据开发必备教程-Spark视频资料终于免费了!限额领取~今年不少人觉得职场晋升不那么顺畅,说是大环境所致,这也没错。但身边有些人,却能在如此“艰难”的环境下,顺利...

2020-08-13 08:33:57 14

转载 自适应查询执行AQE:在运行时加速SparkSQL

演讲嘉宾简介:王道远,阿里巴巴技术专家以下内容根据演讲视频以及PPT整理而成。点击链接观看精彩回放:https://developer.aliyun.com/live/43188自适应查...

2020-08-12 08:30:00 5

转载 2020 年最新 Elasticsearch 7.x 使用教程

搜索是软件工程师的一项必备技能。而 Elasticsearch 就是一款功能强大的开源分布式搜索与分析引擎,在同领域几乎没有竞争对手——近三年 DB-Engines 数据库评测中,ES ...

2020-08-11 20:30:00 53

转载 Flink x Zeppelin ,Hive Streaming 实战解析

Flink 1.11 正式发布已经三周了,其中最吸引我的特性就是 Hive Streaming。正巧 Zeppelin-0.9-preview2 也在前不久发布了,所以就写了一篇 Zep...

2020-08-11 20:30:00 22

转载 逼自己玩命学了6个多月,吃透这31个大数据知识点!分享给你,让你今年进个大厂!...

2020年魔幻开局,上半年疫情肆虐,逼自己学完了这套Kafka 源码深度剖析课程视频,通过对Kafka高性能的消息封装流程源码剖析,服务端高性能架构设计源码剖析等,看完彻底掌握了Kafk...

2020-08-10 08:40:00

转载 Zeta:eBay 基于 Apache Spark 开发的新一代数据开发分析平台

供稿 |eBay DSSTeam作者| 田川晓阳编辑 | 顾欣怡本文4490字,预计阅读时间14分钟导读新一代数据开发分析平台Zeta由eBay DSS(Data Services...

2020-08-10 08:40:00 16

原创 Presto on Spark:扩展 Presto 以支持大规模 ETL

前言Facebook 的数据仓库构建在 HDFS 集群之上。在很早之前,为了能够方便分析存储在 Hadoop 上的数据,Facebook 开发了 Hive 系统,使得科学家和分析师可以使...

2020-08-09 22:13:15 102

转载 K8S成精了!

2020,上云之年,产品云端化成为一种趋势。在一线城市,很多公司都已经构建了自己的私有云环境,比如阿里云、网易云、华为云等。而Kubernetes 作为基于容器编排领域的王者,具备扩展...

2020-08-08 20:21:39 17

转载 这个公众号到底有没有好文章?我整理了300篇,觉得不好我跪榴莲!

花了6个小时,总算整理好了,嗯,榴莲,真香!大数据成神之路Spark/Kafka/Flink/ElasticSearch/Hadoop/Hbase/Hive/Yarn/Kylin/Red...

2020-08-07 08:25:00 23

转载 Spark SQL 物化视图技术原理与实践

导言本文将基于 SparkSQL(2.4.4) + Hive (2.3.6), 介绍物化视图在SparkSQL中的实现及应用。什么是物化视图物化视图主要用于预先计算并保存表连接或聚合等耗...

2020-08-06 11:55:28 33

转载 从 0 到 1 搭建一套 Flink 的监控系统

本文带大家讲解一下如何搭建一套完整的 Flink 监控系统,如果你所在的公司没有专门的监控平台,那么可以根据本文的内容来为公司搭建一套属于自己公司的 Flink 监控系统。利用 API ...

2020-08-05 08:30:00 35

转载 大厂的 Redis 都是怎么搞的?

如果你是一位后端工程师,面试时八成会被问到 Redis,特别是那些大型互联网公司,不仅要求面试者能简单使用 Redis,还要深入理解其底层实现原理,具备解决常见问题的能力。可以说,熟练使...

2020-08-04 20:45:00 52

转载 Apache Hudi应用调优指南

通过Spark作业将数据写入Hudi时,Spark应用的调优技巧也适用于此。如果要提高性能或可靠性,请牢记以下几点。输入并行性:Hudi对输入进行分区默认并发度为1500,以确保每个S...

2020-08-04 20:45:00 44

转载 光大银行分布式实战:国内最大缴费平台的数据库架构转型

于树文光大银行资深DBA目前在中国光大银行信息科技部数据库管理团队主要负责分布式数据库建设项目,推进行内技术架构转型等相关工作。从事数据库运维管理工作十余年,在数据库的性能优化,升级迁移...

2020-08-03 09:18:25 45

转载 面试必知的 Spark SQL 几种 Join 实现

Join作为SQL中一个重要语法特性,几乎所有稍微复杂一点的数据分析场景都离不开Join,如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流...

2020-08-02 20:20:47 81

转载 Kafka 是靠什么机制保持高可靠,高可用的?

这个 Acks 参数在 Kafka 的使用中,是非常核心以及关键的一个参数,决定了很多东西。所以无论是为了面试还是实际项目使用,大家都值得看一下这篇文章对 Kafka 的 Acks 参数...

2020-08-01 20:15:55 29

原创 如何使用 Spark 3.0 中新加的 Structured Streaming UI 来进行异常分析

本文为阿里巴巴技术专家余根茂在社区发的一篇文章。Structured Streaming 最初是在 Apache Spark 2.0 中引入的,它已被证明是构建分布式流处理应用程序的最佳...

2020-07-31 08:28:00 50

转载 面对无代码 / 低代码带来的技术变革,开发者该如何拥抱变化?

预计到2024年,65%的应用将在无代码 / 低代码平台中开发——华为云董鑫武真正实现全民开发,是无代码 / 低代码平台的愿景。当下的数字化趋势使得客户对商业需求更具个性化,且变化加...

2020-07-30 08:30:00 48

转载 基于Apache Iceberg打造T+0实时数仓

导语大数据处理技术现今已广泛应用于各个行业,为业务解决海量存储和海量分析的需求。但数据量的爆发式增长,对数据处理能力提出了更大的挑战,同时对时效性也提出了更高的要求。业务通常已不再满足滞...

2020-07-29 08:30:00 115

转载 马蜂窝数据仓库的架构、模型与应用实践

Part.1马蜂窝数据仓库与数据中台最近几年,数据中台概念的热度一直不减。2018 年起,马蜂窝也开始了自己的数据中台探索之路。数据中台到底是什么?要不要建?和数据仓库有什么本质的区别?...

2020-07-28 19:59:00 67

转载 后端,还是大数据?

最近到了招聘旺季,发现一些朋友很纠结一个问题:做后端开发和做大数据开发?这个问题还是比较普遍的。其实,后端开发,更专注于一种技术栈的开发,对于成熟的开发框架而言,的确市面上的竞争压力会比...

2020-07-27 20:00:00 180

转载 Kafka原理和实践

背景最近要把原来做的那套集中式日志监控系统进行迁移,原来的实现方案是: Log Agent => Log Server => ElasticSearch => Kiba...

2020-07-27 20:00:00 94

原创 图文了解 Kafka 的副本复制机制

也可以到我个人博客阅读(点击下面阅读原文即可) https://www.iteblog.com/archives/2556.html让分布式系统的操作变得简单,在某种程度上是一种艺术,通...

2020-07-26 21:12:04 59

转载 华为云FusionInsight MRS融合大数据平台进阶之路

【摘要】 FusionInsight 8.0 MRS新版本由华为研发团队精心打磨,是产品演进的重要转折点,通过对CarbonData、HetuEngine及众多社区组件的升级...

2020-07-24 17:59:00 86

转载 蚂蚁金服上市估值2000亿美元,又有多少个千万富翁诞生?

2020年魔幻开局,疫情肆虐。大家都说,今年的市场太难了。但就在三天前,蚂蚁金服在科创板和港交所上市,估值2000亿美元。由于40%员工持股,蚂蚁上市这波操作又被称为史上最大的一次“造富...

2020-07-23 08:30:00 79

转载 工行“去O”数据库选型与分布式架构设计

魏亚东工商银行软件开发中心经理中国工商银行软件开发中心三级经理,资深架构师。杭州研发部数据库专家牵头人和开发中心安全团队成员,负责技术管理、数据库和安全相关工作。2009年加入中国工商银...

2020-07-23 08:30:00 144

转载 58同城 Elasticsearch 应用及平台建设实践

分享嘉宾:于伯伟 58同城 高级架构师编辑整理:陈树昌内容来源:DataFunTalk导读:Elasticsearch是一个分布式的搜索和分析引擎,可以用于全文检索、结构化检索和分析,并...

2020-07-21 08:30:00 84

转载 爱奇艺在日志实时数据监控的探索与实践

——2019年6月爱奇艺会员规模突破1亿,爱奇艺的会员服务业务随之迅速增长,同时也带来了机器集群规模的增加,原有的监控体系也暴露出一些问题。数据监控体系是业务维持稳定服务的基石,会员日志...

2020-07-20 20:00:00 79

转载 数据分析的核心能力是什么?数据可视化?

很多人问,数据分析需要哪些能力?1. 基本的理论知识。数理统计、模型原理、市场研究等。2.常规分析工具的使用。常用办公软件(Excel、PPT、思维导图)、数据库、统计分析工具、数据挖掘...

2020-07-20 20:00:00 66

原创 Spark + AI Summit North America 202006 高清 PPT 全部更新完

Spark Summit North America 2020 会议结束距今已经快一个月了,我也在会议一结束整理了一部分可下载的 PPT,参见《你要的 Spark AI Summit 2...

2020-07-18 20:34:00 102

转载 解密华为云FusionInsight MRS单集群2W节点优化实践

【导读】7月9日,中国信通院在大数据产业峰会·成果发布会上公布了本次大数据产品能力评估的结果。不难看出,随着5G、互联网、IoT的发展,大数据技术在分布式批处理平台的基础能力方面进一步加...

2020-07-17 09:29:25 139

原创 Spark on K8S 的最佳实践和需要注意的坑

本文来自 Data Mechanics 的 CEO Jean-Yves Stephan 和 CTO Julien Dumazert 在 Spark Summit North Americ...

2020-07-16 19:59:00 444

转载 Apache Flink 服务化在 eBay 的实践

供稿 | Rheos Team 徐朝晖编辑 | 顾欣怡本文2238字,预计阅读时间7分钟实时数据处理是当前数据生态的热门关注环节,是业务创新的重要前提。Flink从诞生之初就定位于实时计...

2020-07-15 08:29:11 84

转载 你与30W奖金只差一个 Apache Flink 极客挑战赛的报名

万众瞩目的第二届 Apache Flink 极客挑战赛来啦!去年,第一届 Apache Flink 极客挑战赛,汇集了全球11个国家和地区,233所高校,397家企业,4393位顶尖选手...

2020-07-14 20:30:00 179

转载 力度更大的当当购书优惠来了!实付满200-50!

博文视点联合过往记忆大数据特别送出一批“实付满200减50”优惠码可以和满减活动叠加使用怎么BUY?优惠码:CGFEBX使用渠道:仅限当当APP使用时间:7.6-7.19使用方法:步骤一...

2020-07-14 20:30:00 134

转载 分布式图数据库在贝壳的应用实践

分享嘉宾:高攀贝壳搜索平台负责人编辑整理:王洪达内容来源:贝壳找房知识图谱技术大会出品平台:DataFunTalk导读:你想知道百亿级图谱如何实现毫秒级查询吗?社区众多的图数据库中如...

2020-07-14 20:30:00 145

转载 网易分布式数据库多活架构的演进与实践

周劲松网易杭州研究院资深研发工程师来自网易数据科学中心,目前是网易分布式数据库DDB及网易数据运河NDC项目负责人。对数据库及相关中间件的设计和研发有丰富经验。大家好,今天给大家分享一些...

2020-07-13 20:30:00 125

转载 Apache Flink 1.11.0 重要功能全面解析

来源|Apache Flink 官方博客翻译| 高赟(云骞)Apache Flink 社区很荣幸的宣布 Flink 1.11.0 版本正式发布!超过 200 名贡献者参与了 Fli...

2020-07-11 20:30:00 264

原创 Apache Spark 3.0 中的向量化 IO

R 是数据科学中最流行的计算机语言之一,专门用于统计分析和一些扩展,如用于数据处理和机器学习任务的 RStudio addins 和其他 R 包。此外,它使数据科学家能够轻松地可视化他们...

2020-07-10 08:23:00 116

提示
确定要删除当前文章?
取消 删除