- 博客(40)
- 资源 (291)
- 收藏
- 关注
原创 盘点2019年晋升为Apache TLP以及进去Apache孵化器的大数据相关项目
今天是 2019年的最后一天了,明天就是新的一年,在这里预祝大家元旦快乐!也感谢大家过去一年对小编的支持!在过去两年,本博客盘点了当年晋升为 Apache TLP(Apache Top-...
2019-12-31 08:17:07 1280
转载 基于 MySQL Binlog 的 Elasticsearch 数据同步实践
一、为什么要做随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。使用 Elasticsearch ...
2019-12-30 21:48:00 1442
转载 为什么使用 MD5 存储密码非常危险
很多软件工程师都认为 MD5 是一种加密算法,然而这种观点其实是大错特错并且十分危险的,作为一个 1992 年第一次被公开的算法,到今天为止已经被发现了一些致命的漏洞,我们在生产环境的任...
2019-12-29 21:47:00 2812 3
转载 八种解决 Spark 数据倾斜的方法
一、什么是数据倾斜对 Spark/Hadoop 这样的分布式大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。对于分布式系统而言,理想情况下,随着系统规模(节点数量)的增加,应用整体耗...
2019-12-29 21:47:00 2573
转载 我用九天时间,深挖一条闲鱼诈骗黑色产业链。
大家好,我是凌云。因为平常干的事比较特殊,所以我微信上加了挺多的警察,有时间会跟他们一块聊聊技术,分析一些案件。2019年12月15号,有个警察老哥跟我聊了聊二手平台诈骗的事,两天后...
2019-12-27 21:58:14 12111 11
原创 Apache Kafka 2.4 正式发布,重要功能详细介绍
2019年12月18日 Apache Kafka 2.4 正式发布了,这个版本有很多新功能,本文将介绍这个版本比较重要的功能,完整的更新可以参见 release notes。Kafka ...
2019-12-26 21:58:00 1096
转载 抢票软件哪家强?实测告诉你答案
地球上最大的人口迁移:中国一年一度的春运高峰,马上就要开始了。2020 年春运将从 1 月 10 日开始,2 月 18 日结束,共计 40 天。春运回家时,最让人头疼的事情的就是抢火车票...
2019-12-26 21:58:00 1697 2
原创 Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比
Delta Lake 是数砖公司在2017年10月推出来的一个项目,并于2019年4月24日在美国旧金山召开的 Spark+AI Summit 2019 会上开源的一个存储层。它是 Da...
2019-12-24 18:04:46 4137
转载 Spark ML的特征处理实战
一 、特征处理的意义通常情况下,我们得到的数据中包含脏数据或者噪声。在模型训练前,需要对这些数据进行预处理,否则再好的模型也只能“garbage in,garbage out”。数据预处...
2019-12-23 22:31:11 1176
转载 计算机百科丨存储介质发展史
我们生活在一个信息爆炸的时代,据 IDC 预测 2020 年全球产生数据量将超过 40ZB,相当于地球上每个人每年将产生 5200GB 的数据。数据科普:存储单位换算表1 B(Byte ...
2019-12-22 21:21:10 5561
转载 一文读懂云计算:发展历程、概念技术与现状分析
掐指一算,云计算已经有了十年的历史,发展到今天几乎可以算是近十年最伟大的技术进步之一。「云计算」这个术语,也早已从一个新鲜词汇,成为了妇孺皆知的流行语。任何事物的诞生和发展一定有其前...
2019-12-21 22:35:59 9734
转载 那些所谓的“年初计划”,慢慢都变成了“年终笑话”!
很多人都制定年初计划,说明很多人都有想变好的期望!很多人的计划都泡汤了,说明懒惰是很多人共同的属性!时间过得好快,2019年接近尾声了。年初鸡血满满,准备新年大展宏图!年尾微微一笑,...
2019-12-21 22:35:59 405
转载 Kylin 迁移到 HBase 实践在小米的实践
背景 小米Kylin生产环境部署的是基于社区2.5.2修改的内部版本,所依赖HBase集群是一个公共集群,小米内部很多离线计算服务共享使用该HBase集群。由于Kylin已经...
2019-12-20 21:50:00 712
转载 面试突然问Java多线程原理,我哭了!
图片来自 Pexels谈到 Java 的多线程编程,一定绕不开线程的安全性,线程安全又包括原子性,可见性和有序性等特性。今天,我们就来看看他们之间的关联和实现原理。线程与竞态开发的应用程...
2019-12-20 21:50:00 414
转载 百度为什么要投资开源中国?
12月6日,开源中国最新获得百度战略投资。百度为什么投资开源中国?意义何在?其实不只是百度,科技巨头都在加紧建设开源生态。去年10月,GitHub收购案尘埃落定,微软以75亿美元价格将G...
2019-12-19 21:58:00 511
原创 60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践
Facebook 经常使用分析来进行数据驱动的决策。在过去的几年里,用户和产品都得到了增长,使得我们分析引擎中单个查询的数据量达到了数十TB。我们的一些批处理分析都是基于 Hive 平台...
2019-12-19 21:58:00 619
转载 全面AI时代颠覆的第一个领域,必将是金融
“15年内,人工智能和自动化将具备取代40%-50%岗位的技术能力”,这是李开复在其新书《AI未来》发布会上的一句预测。你的工作会被人工智能取代吗?当我们第一次接触Siri的时候,这份焦...
2019-12-18 21:54:21 981
转载 360 千亿级数据量的 Kafka 深度实践
讲师介绍严锁鹏,奇虎360大数据架构运维专家,具有10年基础架构与大数据开发经验。2013年加入360商业化团队,负责消息中间件开发与运维,同时涉及大数据架构、微服务架构、实时计算平台、...
2019-12-18 21:54:21 508
转载 2019年字节跳动招聘算法岗,他们最看重哪些新技术能力?
【导读】合格的算法工程师真正应该具备什么技能?在面试时,面试官又会如何验证你具备这些新技能?毕业仅一年,相继拿下头条、阿里、腾讯等offer的本文作者,为你绘制了一幅面试技能雷达图。1◆...
2019-12-17 19:58:00 2034
转载 Apache Doris:基于 MPP 的交互式SQL数据仓库,可用于 OLAP
奇技指南近日,我们邀请到百度高级研发工程师李超勇前来360,分享百度开源数据库Apache Doris 的原理与实践。Apache Doris简介Doris(原百度 Palo)是一款基于...
2019-12-17 19:58:00 1342
转载 Docker 核心技术与实现原理
提到虚拟化技术,我们首先想到的一定是 Docker,经过四年的快速发展 Docker 已经成为了很多公司的生产环境中大规模使用,也不再是一个只能在开发阶段使用的玩具了。作为在生产环境中广...
2019-12-16 21:58:00 492
原创 Delta Lake 0.5.0 正式发布,支持包括 Hive/Presto 等多种查询引擎
Delta Lake 0.5.0 于2019年12月13日正式发布,正式版本可以到 https://github.com/delta-io/delta/releases/tag/v0.5...
2019-12-15 21:55:00 1419
转载 当小内存遇上大量数据,你该怎么解决这个问题?
作者丨Itamar Turner-Trauring译者丨夏夜策划丨万佳当你写了一个处理数据的软件,它可能在小样本文件上运行地很好,但一旦加载大量真实数据后,这个软件就会崩溃。问题在于你没...
2019-12-14 21:43:21 1098
转载 互联网公司的裁员,能玩出多少种花样?
裁员,也是一门学问,可谓博大精深!以下,是互联网公司的裁员的多种方法:-正文开始-135岁+不予续签的理由:千禧一代网感更强。95后不予通过试用期的理由:已婚已育员工更有责任心。2通知...
2019-12-13 21:46:00 530
转载 从 Hive 大规模迁移作业到 Spark 在有赞的实践
作者:胡加华团队:大数据团队一、前言在 2019 年 1 月份的时候,我们发表过一篇博客 SparkSQL在有赞大数据的实践,里面讲述我们在 Spark 里所做的一些优化和任务迁移相关的...
2019-12-12 21:30:00 904
转载 百万级高并发MongoDB集群性能数十倍提升优化实践
1. 背景线上某集群峰值TPS超过100万/秒左右(主要为写流量,读流量很低),峰值tps几乎已经到达集群上限,同时平均时延也超过100ms,随着读写流量的进一步增加,时延抖动严重影响业...
2019-12-11 21:58:00 1205
转载 我花了10个小时,写出了这篇K8S架构解析
图片来自 Pexels每个微服务通过 Docker 进行发布,随着业务的发展,系统中遍布着各种各样的容器。于是,容器的资源调度,部署运行,扩容缩容就是我们要面临的问题。基于 Kubern...
2019-12-09 21:32:10 443
转载 GitHub 长期被中国人“霸榜”?看完榜单我呆了...
你平常逛 GitHub 都会看什么?作为「技术行业观察者」的我,平时经常会逛 GitHub 找选题,最近我又在上面发现了很多宝藏...或者叫大宝箱...以下正文:随着 GItHub 在国...
2019-12-08 21:30:00 458
转载 Kylin 在 58 集团的实践和应用
△ Meetup 现场视频01平台优化目前在 58,用户可以通过两种方式来接入 Kylin 平台。一种是通过我们数据产品部开发的“魔方”接入,“魔方”是一个多维分析的 BI 平台。另一种...
2019-12-08 21:30:00 406
转载 “失败”的北漂十年,我真的尽力了。。。
献给所有飘在异乡的“我们”!在我离开北京的时候,我还依稀记得,十年前我对朋友说过的那句话:我一定要留在北京,因为那里有梦想。有时候我甚至想对着北京喊一句:去 TM 的北京,去 TM 的奋...
2019-12-07 21:58:00 444
转载 Spark SQL在携程的实践经验分享
本文根据张翼老师在2018年5月13日【第九届中国数据库技术大会】现场演讲内容整理而成。讲师简介:张翼,10年互联网老兵;2015年3月加入携程,携程的大数据平台技术总监,带领团队构建稳...
2019-12-06 21:57:00 501
转载 DataSphere Studio,打造一站式数据应用开发管理门户
“DataSphere Studio(简称DSS)是微众银行自研的一站式数据应用开发管理门户。基于插拔式的集成框架设计,及计算中间件Linkis,可轻松接入上层各种Web系统,让数据开...
2019-12-06 21:57:00 3985 2
转载 直男们是如何通过送礼物气死自己女朋友的?
我看过这么一句话,“80%的男生都找不出女朋友生气的原因,剩下的20%连生不生气都看不出来!”,夸张与否,暂且不说。至少表明,男女的思维的确存在着明显的差异。男女搭配,干活不累,那是工...
2019-12-05 21:48:00 1052
原创 Apache Spark 中编写可伸缩代码的4个技巧
在本文中,我将分享一些关于如何编写可伸缩的 Apache Spark 代码的技巧。本文提供的示例代码实际上是基于我在现实世界中遇到的。因此,通过分享这些技巧,我希望能够帮助新手在不增加集...
2019-12-04 21:44:48 293
转载 谷歌创始人退位!印度籍 CEO 这是要“接管”美国科技圈?
Alphabet 和谷歌一直有两位 CEO 和一位总裁。直到今天(北京时间 12 月 4 日),其中的两位 ——46 岁的拉里·佩奇和谢尔盖·布林,正式向 47 岁的皮查伊交接大权。从...
2019-12-04 21:44:48 947
转载 ElasticSearch 亿级数据检索案例实战
一、前言数据平台已迭代三个版本,刚开始遇到很多常见的难题,终于有时间整理一些已完善的文档了,在此分享一下。希望能帮助大家少走些弯路,在此篇幅中偏重于ES的优化。关于HBase,Hadoo...
2019-12-03 21:17:29 1574
转载 Flink Forward Asia 2019 总结和展望 - 附PPT下载
11 月 28 - 30 日,北京迎来了入冬以来的第一场雪,2019 Flink Forward Asia(FFA)也在初雪的召唤下顺利拉开帷幕。尽管天气寒冷,FFA 实际到会人次超过 ...
2019-12-03 21:17:29 833
转载 有赞数据中台建设实践
点击关注“有赞coder”获取更多技术干货哦~作者:贺飞团队:大数据团队概述究竟什么是中台, 业界并没有一个标准答案, 各个厂商都有自己的定义. 笔者比较认可的一个定义是 Thought...
2019-12-02 21:58:00 1377
转载 这可能是介绍 ZooKeeper 最好的文章了
在 2006 年,Google 发表了一篇名为 The Chubby lock service for loosely-coupled distributed systems 的论文,其...
2019-12-01 21:57:38 411
转载 高以翔死因曝光!猝死前最后4分钟,他本还有一次活的机会...
“ 11 月 27 日,因电视剧《遇见王沥川》中“王沥川”一角而为人熟知的台湾演员高以翔,在宁波录制浙江卫视节目《追我吧》时发生意外,不幸“心源性猝死”,时年 35 岁。事发后,不少声音...
2019-12-01 21:57:38 3726
HBase in Practise: 性能、监控和问题排查
2018-08-13
HBase Procedure V2介绍
2018-08-13
Scala Cheat Sheet
2018-07-04
Apache Hive Functions Cheat Sheet
2018-07-04
Apache Spark Cheat Sheet
2018-07-04
spark-summit-north-america-2018-06 全部 PPT -part1
2018-06-19
spark-summit-north-america-2018-06 全部 PPT -part2
2018-06-17
A Deep Dive into Stateful Stream Processing in Structured Streaming
2018-06-17
Implementing AutoML Techniques at Salesforce Scale
2018-06-17
Using AI to Deliver a Device as a Service
2018-06-17
Foundations of streaming SQL
2018-06-15
Deep Dive into Spark SQL with Advanced Performance Tuning
2018-06-11
Qcon北京2018-《区块链服务在华为公有云平台上的重要问题设计实现及解决方法》-张子怡.pdf
2018-05-16
QCon北京2018-强业务驱动的互联网+,技术管理的坑与路--廖雪梅.pdf
2018-05-16
QCon北京2018-《用正确分享来磨练专家实力——分享型专家升级记》-黄闻欣.pdf
2018-05-16
QCon北京2018-《Oracle区块链架构及其应用开发》-蒋春明.pdf
2018-05-16
Apache iceberg:Netflix 数据仓库的基石
2020-02-23
Apache Hadoop 3.x state of the union and upgrade guidance
2020-02-04
Apache Doris (Incubating) 原理与实践.pdf
2019-12-10
Spark SQL 在字节跳动的优化实践-郭俊.pdf
2019-12-03
Spark+AI Summit Europe 2019 Part 3
2019-11-03
Spark+AI Summit Europe 2019_iteblog.zip.002
2019-11-01
Spark+AI Summit Europe 2019_iteblog.zip.001
2019-11-01
The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf
2019-10-28
Apache Spark 3.0, Koalas, Delta Lake 最新进展
2019-10-28
SPARK + AI SUMMIT 2019 全部 PPT
2019-09-21
From Stream Processor to a Unified Data Processing System
2019-04-20
Apache Spark 2.4 and beyond
2019-04-14
Flink社区专刊S2-重新定义计算
2019-04-11
从MPP数仓迁移至Spark:案例与最佳实践分享
2019-03-31
2018 Apache HBase 技术实战专刊
2019-01-07
Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]
2018-12-10
Apache Spark Shuffle I/O 在 Facebook 的优化
2018-12-10
不仅仅是流计算:Apache Flink实践
2018-11-29
Spark AI Summit Europe 2018 全部PPT - part1
2018-10-13
Easy, Scalable, Fault-tolerant stream processing with Structured Streaming-TD
2018-09-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人