- 博客(41)
- 资源 (291)
- 收藏
- 关注
转载 58同城实时计算平台架构实践
背景58同城作为覆盖生活全领域的服务平台,业务覆盖招聘、房产、汽车、金融、二手及本地服务等各个方面。丰富的业务线和庞大的用户数每天产生海量用户数据需要实时化的计算分析,实时计算平台定位于...
2019-11-30 22:00:00 1125
转载 为什么 Redis 选择单线程模型却能提供高并发请求
为什么这么设计(Why's THE Design)是一系列关于计算机领域中程序设计决策的文章,我们在这个系列的每一篇文章中都会提出一个具体的问题并从不同的角度讨论这种设计的优缺点...
2019-11-29 21:58:00 835
转载 谷歌云大数据分析与人工智能技术实践
企业出海是个复杂工程, 越来越多的出海企业除了考虑海外强大可扩展,安全合规的云基础设施和服务之外,也开始积极拥抱容器和 Kubernetes 技术,构建自己下一代的敏捷基础架构以应对激烈...
2019-11-29 21:58:00 596
转载 这个时代,达不到百万级以上的并发量,都不叫高并发!!!
华为阿里缩减社招HC去年的今天,一条新闻引发互联网行业“惊涛骇浪”,华为、阿里、京东、腾讯陆续被爆料“全面停止社招,各业务线不批offer”。随后在各大厂的公开辟谣声明中...
2019-11-27 21:55:00 633
转载 如何利用Kubernetes集群提升资源利用率?
导语 |近日,云+社区技术沙龙“高效智能运维”圆满落幕。本期沙龙围绕运维展开了一场技术盛宴,从AIOps、Serverless DevOps、蓝鲸PaaS平台、K8S等...
2019-11-27 21:55:00 1796
转载 很遗憾,没有一篇文章能讲清楚ZooKeeper
“ 互联网时代是信息爆发的时代,信息的高并发催生了分布式系统的广泛应用。图片来自 Pexels作为分布式系统解决方案的 ZooKeeper,被广泛应用于多个分布式场景。例如:数据发布/订阅,负载均衡,命名服务,集群管理等等。因此,ZooKeeper 在分布式系统中扮演着重要的角色,今天通过一个简单的例子来看看它的实现原理。从一个简单的例子开始在分布式系统中经常会遇到这种情况,多个应用读取同一个配置...
2019-11-26 16:29:00 618 1
转载 牛人用 Rust 重写了 Apache Spark,并把它开源了
策划 | 蔡芳芳 作者 | Raja Sekar 译者 | 阿拉丁 编辑 | Natalie AI 前线导读: 本文作者 Raja...
2019-11-25 21:27:00 2898
转载 斗鱼在线分析平台演进之路
游戏直播行业龙头斗鱼在 2019 年 Q2 的平均 MAU 再创新高,达到 1.628 亿。每天,超大量的用户使用斗鱼各客户端参与线上互动,斗鱼需要对客户端采集到的性能数据进行统计和分析,开发出具有多维度分析图表和数据监控的 APM (Application Performance Monitoring,应用性能监控) 平台。最初,斗鱼采用了市面上非常流行的 Elasticsearch (简称 E...
2019-11-24 21:46:00 881
转载 30岁的程序员:不拼体力的我们应该关注什么?
老张是一名程序员,一位颇有经验的技术人。他曾通过自己的努力,为公司业务带来不小的增长。但随着年龄和薪资的不断增长,老张需要通过各种加班来处理更多的需求,他也曾为自己的职业...
2019-11-22 21:58:00 299
转载 为什么摸了一天的鱼,你还是感觉这么累?
这个常常被人们忽略,美国加利福尼亚大学洛杉矶分校一个研究小组在《科学公共图书馆·综合》上发布报告指出,他们对中老年人进行了一项研究,研究显示,久坐不动脑的人,大脑中一个对记忆至关重要的区域厚度会变薄研究小组招募了 35 名年龄在 45 岁至 75 岁的志愿者,询问他们的身体锻炼情况及平均每天坐着的时长。然后研究人员对这些志愿者的脑部进行了高分辨率磁共振成像。结果发现,坐的时间较长与大脑内侧颞叶变薄...
2019-11-22 21:58:00 811
转载 支撑小米万亿级的消息队列架构与实践
其主要内容是流式平台团队在 SACC 2019 (sacc.it168.com)大会上分享的主题,这里简单整理成文,供大家参考,其中一些重要问题的细节会在后续文章陆续展开;今天的主题主要包括以下几个方面的内容:业务背景:消息队列在小米落地的业务背景架构与关键问题:小米自研分布式消息队列 Talos 的架构和关键问题性能与资源优化:业务爆发式增长,Talos 在性能和资源方面的挑战与实践经验平台化效...
2019-11-21 21:49:00 449 1
转载 【第六期】拿不到offer全额退款 人工智能工程师培养计划招生
前言学院第四期课程在2019年10月结课,第一至第四期具有求职意向的同学中,目前已经有80%的同学拿到了国内外名企的AI算法岗位offer,或者国外名校的AI 硕士、全...
2019-11-20 21:39:39 355
转载 小米 MySQL 数据实时同步到大数据数仓的架构与实践
背景MySQL由于自身简单、高效、可靠的特点,成为小米内部使用最广泛的数据库,但是当数据量达到千万/亿级别的时候,MySQL的相关操作会变的非常迟缓;如果这时还有实时BI展示的需求,对于mysql来说是一种灾难。为了解决sql查询慢,查不了的业务痛点,我们探索出一套完整的实时同步,即席查询的解决方案,本文主要从实时同步的角度介绍相关工作。早期业务借助Sqoop将Mysql中的数据同步到Hive来进...
2019-11-20 21:39:39 824
转载 Spark SQL 在字节跳动的核心优化实践
10月26日,字节跳动技术沙龙| 大数据架构专场在上海字节跳动总部圆满结束。我们邀请到字节跳动数据仓库架构负责人郭俊,Kyligence 大数据研发工程师陶加涛,字节跳动存储工程师徐明敏,阿里云高级技术专家白宸和大家进行分享交流。以下是字节跳动数据仓库架构负责人郭俊的分享主题沉淀,《字节跳动在Spark SQL上的核心优化实践》。团队介绍数据仓库架构团队负责数据仓库领域架构设计,支持字节跳动几...
2019-11-19 22:32:50 1144
转载 一文了解一致性哈希
本文使用软件环境:Java 8一、数据分布接口定义概述在分布式环境下面,我们经常会通过一定的规则来进行数据分布的定义,比如用户1的数据存储到数据库1、用户2的数据存储到数据库2......一般来说,有这么几种常用的方式:有一个分布式环境中唯一的中心分发节点,每次在数据存储的时候,都会询问中心节点这个数据该去哪儿,这个分发节点明确告诉这个数据该去哪儿。通过一定规则产生一个key,对这个key进行一定...
2019-11-19 22:32:50 489 1
转载 雅虎日本如何用 Pulsar 构建日均千亿的消息平台
雅虎日本是一家雅虎和软银合资的日本互联网公司,是日本最受欢迎的门户网站之一。雅虎日本的互联网服务在日本市场占主导地位。下图从三个维度显示了雅虎日本的经营规模。第一个是服务数量,雅虎日本提供上百种互联网服务;第二个是服务器数量,雅虎日本使用超过 150,000 台服务器(大多为裸机服务器)全天候支持这上百种互联网服务的正常运作;第三个是每月总页面浏览量,2017 年的数据显示,雅虎日本每月浏览量超过...
2019-11-17 21:56:00 615
转载 GitHub 启动代码永久保存计划,为人类文明留“火种”?
2019 年 11月 13-14 日,GitHub 举办了年度开发者大会 GitHub Universe 2019。今年的 GitHub 大会,除了在会前发布的年度报告(点击蓝字回顾:),还公布了一个 GitHub 的 App 版本,让广大开发者喜大普奔。但最让我感兴趣的,是他们在峰会现场发布的 —— GitHub Archive Program 代码永久保存计划。在会上,GitHub 官方说明...
2019-11-16 22:00:00 2813
转载 不知道这些知识点,面试的时候别说你懂 Kafka
kafka是一个分布式消息队列。具有高性能、持久化、多副本备份、横向扩展能力。生产者往队列里写消息,消费者从队列里取消息进行业务逻辑。一般在架构设计中起到解耦、削峰、异步处理的作用。kafka对外使用topic的概念,生产者往topic里写消息,消费者从读消息。为了做到水平扩展,一个topic实际是由多个partition组成的,遇到瓶颈时,可以通过增加partition的数量来进行横向扩容。单个...
2019-11-15 20:00:00 311
转载 Apache Hudi: Uber 开源的大数据增量处理框架
随着Apache Parquet和Apache ORC等存储格式以及Presto和Apache Impala等查询引擎的发展,Hadoop生态系统有潜力作为面向分钟级延时场景的通用统一服务层。然而,为了实现这一点,这需要在HDFS中实现高效且低延迟的数据摄取及数据准备。为了解决这个问题,优步开发了Hudi项目,这是一个增量处理框架,高效和低延迟地为所有业务关键数据链路提供有力支持。事实上,Uber...
2019-11-14 21:52:57 1041
转载 一份不可多得的数据科学与机器学习Python库
图片来自 Pexels根据当前技术界的广泛需求,本文将以如下顺序重点介绍,市场上适合于数据科学和机器学习实现的优秀 Python 软件:数据科学与机器学习的介绍为什么要使用 Python 进行数据科学和机器学习?用于数据科学和机器学习的 Python 库数据科学与机器学习的介绍众所周知,我们正处在一个大数据的时代,数据是驱动机器模型发展的“燃料”。实际上,数据科学和机器学习都属于技能范畴,而不仅仅...
2019-11-14 21:52:57 507 1
转载 大数据在未来十年将如何发展
作者丨Oleksii Kharkovyna译者丨夏夜在这篇博客中,我不打算预测数据科学面对的未来是什么,不会去猜测它的未来是光明有前途,还是毫无希望。这里我只结合自己,还有我认识的一些人的经历,提供一些决定性因素帮忙做预测。抛开这些,我先大致勾勒一下今后 10 年影响数据科学未来的关键因素。我希望它会在工作流程上带给你一些有价值的见解。不用多说,这只是我的个人预测。如果你感兴趣,请继续读下去! ...
2019-11-13 21:58:00 866
转载 支撑腾讯直播百亿请求的 Redis 集群是如何工作的
摘要:作为noSql中的kv数据库的王者,redis以其高性能,低时延,丰富的数据结构备受开发者青睐,但是由于redis在水平伸缩性上受限,如何做到能够水平扩容,同时对业务无侵入性是很多使用redis的开发人员都会面临的问题,而redis分布式解决方案的一个开源产品【codis】较好的弥补了这一弱势,本文主要讲解codis是如何做到对业务无感知,平滑迁移,迁移性能高,迁移异常处理,高可用以及常见的...
2019-11-12 21:55:55 744
转载 腾讯的企业级分布式 HTAP 数据库管理系统 TBase 正式开源
本文转自公众号:腾讯开源TBase简介TBase是腾讯数据平台团队在开源的PostgreSQL基础上研发的企业级分布式HTAP数据库管理系统:具备高性能可扩展的分布式事务能力,支持RC和RR两种隔离级别;通过安全、管理、审计三权分立体系,提供全方位的数据安全保证机制;支持高性能分区表,可使得数据检索效率成倍提升;SQL方面兼容2003标准、PostgreSQL语法和常用Oracle函数&数...
2019-11-11 22:10:53 1710
转载 双11,当当图书大放价,专属200-30优惠码免费送
机械工业出版社华章公司联合当当网特意为【过往记忆大数据】用户申请了一批可与满减叠加使用的“满200减30”的图书优惠码。▶ 超 值 购 书 优 惠 码◀当当20周年庆百...
2019-11-10 21:13:37 925
原创 一文了解 Apache Spark 3.0 动态分区裁剪(Dynamic Partition Pruning)的使用
福利:过往记忆大数据知识星球双11限时折扣,原价99元,现价39元,需要的先加 fangzhen0219 微信了解详情,三天内不满意随时全额退。星球没有花哨玩法,主要就是大数据相关问题答疑,能力范围内知无不言、大数据相关资料分享、大数据原创技术文章分享等。另外,本知识星球有效期到2020年4月28日,到期需续费。Spark 3.0动态分区裁剪(Dynamic Partition Pruning)...
2019-11-10 21:13:37 1850
转载 10种常见的MySQL错误,你可中招?
图片来自 PexelsMySQL 8 是当前流行的数据库引擎之一。在得到正确配置的情况下,它能够以相对较低成本的方式,帮助成千上万的数据库连接到对应的服务器上。另外,由于它是一种在业界被使用多年的常用数据库工具,因此您不太可能会遇到某个服务器无法识别它的情况。可以说,您可以将其配置到任何自己希望处理和存储数据的应用场景之中。当然,MySQL 8 也并非是完全“开箱即用”的,如果您未能对其进行恰当的...
2019-11-09 21:44:00 335
原创 Apache Spark 3.0 预览版正式发布,多项重大功能发布
今天早上 06:53(2019年11月08日 06:53) 数砖的 Xingbo Jiang 大佬给社区发了一封邮件,宣布 Apache Spark 3.0预览版正式发布,这个版本主要是为了对即将发布的 ApacheSpark 3.0版本进行大规模社区测试。无论是从 API 还是从功能上来说,这个预览版都不是一个稳定的版本,它的主要目的是为了让社区提前尝试 Apache Spark 3.0...
2019-11-08 20:52:00 5252
转载 有哪些命令行工具堪称神器?
过去几年,在 GitHub 上见到过不少优质的项目,其中不乏特别实用,能大幅提升生产力的命令行工具。今天在这里就简单整理下,跟大家分享几个比较实用的命令行工具吧。mas一个 Mac 应用商店命令行工具,支持搜索、安装、更新应用等操作,用起来十分方便。https://github.com/mas-cli/mas对于一些只能通过 App Store 安装的软件,这个工具可以说非常实用了。gitsome...
2019-11-08 20:52:00 317
转载 用了这么久的消息队列,你知道为什么需要它吗?
本文转自公众号:小米云技术,作者:勇幸目录日志与消息队列消息队列的应用价值数据集成与系统解耦异步处理与事件驱动流量削峰事务消息与分布式事务的最终一致从历史看消息队列的价值演化小米的消息队列产品Talos与EMQTalos/EMQ与开源产品的区别Talos与EMQ的区别后续文章参考文献时常会思考消息队列的价值是什么?新人加入团队后该如何理解消息队列?又该如何理解小米的自研产品 Talos 和 EM...
2019-11-07 21:58:00 1196
转载 你真的知道 NoSuchMethodError 发生原因和解决办法吗
当应用程序试图调用类(静态或实例)的指定方法,而该类已不再具有该方法的定义时,就会抛出 java.lang.NoSuchMethodError 错误。简单地说,就是同一个 Class 有多个版本的实现,并且在运行时调用了缺少方法的那个版本。本文总结了 NoSuchMethodError 常见原因及其解决方法,如有遗漏或错误,欢迎补充指正。运行时抛出 NoSuchMethodError 的根本原因是...
2019-11-06 21:39:31 65297 8
转载 YARN 在快手的应用实践与技术演进之路
本文是房孝敬老师主题为“yarn在快手应用实践与技术演进之路”的分享整理,内容包含yarn系统在快手的应用实践,遇到的问题以及相应的技术演进过程。讲师介绍:房孝敬,快手大数据架构团队调度方向负责人,目前负责快手公司Hadoop生态中调度、AI架构等子系统内核与周边子系统的研发,并推动在公司内的应用。2011年毕业于北京邮电大学,曾就职于阿里、腾讯。主要研究领域包括Docker云平台,分布式调度和计...
2019-11-05 21:51:52 526
转载 没看这篇干货,别说你会使用“缓存”
图片来自Unsplash这种说法带有片面性,甚至是一知半解,但是作为专业人士的我们,需要对缓存有更深、更广的了解。缓存技术存在于应用场景的方方面面。从浏览器请求,到反向代理服务器,从进程内缓存到分布式缓存。其中缓存策略,算法也是层出不穷,今天就带大家走进缓存。处处皆缓存缓存对于每个开发者来说是相当熟悉了,为了提高程序的性能我们会去加缓存,但是在什么地方加缓存,如何加缓存呢?假设一个网站,需要提高...
2019-11-05 21:51:52 237
原创 一文了解 Apache Spark 3.0 动态分区裁剪(Dynamic Partition Pruning)
静态分区裁剪(Static Partition Pruning)用过Spark的同学都知道,SparkSQL 在查询的时候支持分区裁剪,比如我们如果有以下的查询:SELECT * FROM Sales_iteblogWHERE day_of_week = 'Mon'Spark 会自动进行以下的优化:如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:ite...
2019-11-04 21:47:09 1236
转载 Apache Cassandra 技术揭秘及实践应用线下交流会
由中国 Cassandra 技术社区主办,阿里云、DataFun协办的中国Cassandra技术社区第一届Meetup:Apache Cassandra 技术揭秘及实践应...
2019-11-04 21:47:09 228
原创 使用 Spark 和 Delta Lake 构建近实时数据仓库
本文来自于2019年10月15日-17日荷兰首都阿姆斯特丹举行的 SPARK + AI SUMMIT Europe 2019 会议,议题名为《Near Real Time Data Warehousing with Apache Spark and Delta Lake》,分享者 Jasper Groot。本文 PPT请关注过往记忆大数据微信公众号,并回复data_warehouse关键字获...
2019-11-03 21:29:00 3093
转载 曾经想干掉 Java 的微软宣布加入 OpenJDK 项目
近日,微软的 Bruno Borges 在 OpenJDK 邮件列表中发布了一条消息,内容包含接下来发生的事情以及微软如何开始将其团队整合到 OpenJDK 社区。在邮件中,Bruno Borges 提到,微软已正式签署《Oracle 贡献者协议》。同时,他重申了微软对 Java 的承诺,以及微软团队对回馈 Java 社区的期待。Borges 曾经是 Oracle 开发人员,现在担任微软 Java...
2019-11-03 21:29:00 268
转载 看了几百个小时资料,为什么你只能是“伪架构师”?| 聊聊这件事
在如今的互联网行业内,title混乱,80%以上拿着高薪挂着架构师头衔的老码农,实则都是“伪架构师”。我甚至见过本科毕业一两年,就来投递架构师岗位的应聘者。我不否认他在理...
2019-11-02 21:54:00 344
原创 实时平台在趣头条的建设实践
本文由趣头条实时平台负责人席建刚分享趣头条实时平台的建设,整理者叶里君。文章将从平台的架构、Flink现状,Flink应用以及未来计划四部分分享。一.平台架构1、Flin...
2019-11-02 21:54:00 401
原创 Spark+AI Summit Europe 2019 超清视频&PPT下载
为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的,而Spark能够处理海量数据的分析,将Spark和 AI 进行结合,无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议,大约有1700多名数据科学家、工程师和分析师参加此次会议...
2019-11-01 20:45:40 407
转载 如何在 Kylin 中优雅地使用 Spark
前言Kylin 用户在使用 Spark的过程中,经常会遇到任务提交缓慢、构建节点不稳定的问题。为了更方便地向 Spark 提交、管理和监控任务,有些用户会使用 Livy 作为 Spark 的交互接口。在最新的 Apache Kylin 3.0 版本中,Kylin 加入了通过 Apache Livy 递交 Spark 任务的新功能[KYLIN-3795],特此感谢滴滴靳国卫同学对此功能的贡献。Liv...
2019-11-01 20:45:40 1217
HBase in Practise: 性能、监控和问题排查
2018-08-13
HBase Procedure V2介绍
2018-08-13
Scala Cheat Sheet
2018-07-04
Apache Hive Functions Cheat Sheet
2018-07-04
Apache Spark Cheat Sheet
2018-07-04
spark-summit-north-america-2018-06 全部 PPT -part1
2018-06-19
spark-summit-north-america-2018-06 全部 PPT -part2
2018-06-17
A Deep Dive into Stateful Stream Processing in Structured Streaming
2018-06-17
Implementing AutoML Techniques at Salesforce Scale
2018-06-17
Using AI to Deliver a Device as a Service
2018-06-17
Foundations of streaming SQL
2018-06-15
Deep Dive into Spark SQL with Advanced Performance Tuning
2018-06-11
Qcon北京2018-《区块链服务在华为公有云平台上的重要问题设计实现及解决方法》-张子怡.pdf
2018-05-16
QCon北京2018-强业务驱动的互联网+,技术管理的坑与路--廖雪梅.pdf
2018-05-16
QCon北京2018-《用正确分享来磨练专家实力——分享型专家升级记》-黄闻欣.pdf
2018-05-16
QCon北京2018-《Oracle区块链架构及其应用开发》-蒋春明.pdf
2018-05-16
Apache iceberg:Netflix 数据仓库的基石
2020-02-23
Apache Hadoop 3.x state of the union and upgrade guidance
2020-02-04
Apache Doris (Incubating) 原理与实践.pdf
2019-12-10
Spark SQL 在字节跳动的优化实践-郭俊.pdf
2019-12-03
Spark+AI Summit Europe 2019 Part 3
2019-11-03
Spark+AI Summit Europe 2019_iteblog.zip.002
2019-11-01
Spark+AI Summit Europe 2019_iteblog.zip.001
2019-11-01
The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf
2019-10-28
Apache Spark 3.0, Koalas, Delta Lake 最新进展
2019-10-28
SPARK + AI SUMMIT 2019 全部 PPT
2019-09-21
From Stream Processor to a Unified Data Processing System
2019-04-20
Apache Spark 2.4 and beyond
2019-04-14
Flink社区专刊S2-重新定义计算
2019-04-11
从MPP数仓迁移至Spark:案例与最佳实践分享
2019-03-31
2018 Apache HBase 技术实战专刊
2019-01-07
Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]
2018-12-10
Apache Spark Shuffle I/O 在 Facebook 的优化
2018-12-10
不仅仅是流计算:Apache Flink实践
2018-11-29
Spark AI Summit Europe 2018 全部PPT - part1
2018-10-13
Easy, Scalable, Fault-tolerant stream processing with Structured Streaming-TD
2018-09-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人