自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

过往记忆大数据

欢迎关注过往记忆大数据

  • 博客(1198)
  • 资源 (291)
  • 收藏
  • 关注

转载 做 SQL 性能优化真是让人干瞪眼

很多大数据计算都是用 SQL 实现的,跑得慢时就要去优化 SQL,但常常碰到让人干瞪眼的情况。比如,存储过程中有三条大概形如这样的语句执行得很慢:select a,b,sum(x) from T group by a,b where …;select c,d,max(y) from T group by c,d where …;select a,c,avg(y),min(z) from T g...

2023-09-27 08:02:06 159

转载 40+指标银行BI选型指标体系!万字详述银行实现全面自助分析

《2023商业银行智能决策能力建设白皮书》是观远数据与亿欧智库联合正式发布,针对银行智能决策的建设背景、难点、路径与实践等进行全面阐述和分析的行业白皮书。《白皮书》详细阐述了商业银行“统计报表分析”、“局部自助分析”、“全面自助分析”、“智能决策”四大BI发展阶段,为银行智能决策发展情况提供印照路径。受限于数据应用程度影响,大多数银行仍处于局部自助分析阶段,《白皮书》从数据质量、组织文化、数字化工...

2023-09-06 12:30:34 323

转载 四川农信基于OceanBase升级核心系统,对客效率再上台阶

1951 年 12 月 25 日,四川省农村信用社联合社(以下简称“四川农信”)诞生于泸州黄舣乡。经几代四川农信人接续奋斗,七十余年栉风沐雨,四川农信已经成长为全省业务规模最大、服务网络最广、员工数量最多、历史底蕴最厚的银行业金融机构,为支持“三农”以及全省经济社会发展发挥着重要作用。截至 2022 年 12 月底,四川农信已经有 5022 个营业网点,近 4 万名从业人员,资产规模近 2 万亿元...

2023-06-29 17:37:29 395

转载 一个比SQLite还好用的数据库神器!

很多小微型应用程序也需要一些数据处理和计算能力,如果集成一个数据库就显得太沉重了,这种情况下 SQLite 是一个不错的选择,它架构简单,集成方便,可持久化存储数据,并提供 SQL 实现计算能力。但是,对于某些较复杂的场景,SQLite 仍有不足之处。SQLite面对复杂场景的不足数据源支持SQLite 像个数据库,可以对自有的库文件提供较好的支持,但应用程序有时还要处理其它形式的数据,比如文本文...

2023-06-19 08:03:28 630

转载 “Java 四大名著” 你集齐了吗?

导读>>Java 28岁了,当打之年,并且还会打很多年。为即将或正在使用Java的你推荐Java“此生错过必遗憾”系列书单。看看你还缺哪本?请补齐。优惠购书链接就在文中,拿好不谢。01《Java核心技术》>>开发基础+高级特性(套装共2册)原书第12版推荐理由 >>“Java四大名著”之一Core Java最新版,一键打包全套2册!建议入门小白和准备升级到Ja...

2023-06-05 09:56:30 775

转载 传统 BI VS 敏捷分析,这次讲清楚了

敏捷分析在当今商业环境中非常热门,强调了快速响应市场变化、提高数据质量、提高团队效率和改善决策过程。很荣幸,今年受邀参加「让业务用起来」2023观远数据敏捷分析实践巡展 ·北京站、上海站、广州站、杭州站四城巡展。这次巡展会分享很多敏捷分析相关内容,包括:数字化时代的确定性:智能决策“让业务用起来”的敏捷分析实践剖析高层到一线的360度数据洞察与新洞见企业敏捷进化、韧性增长的先进经验大家扫描下方二...

2023-05-16 11:41:14 232

转载 附PPT下载 | 头部股份行总行、分行数据应用实践案例

当下,数字化已成普遍共识,据《中国银行家调查报告》显示,超过9成的银行家积极推进金融科技数字化。数据驱动业务已成为数字化核心,大数据技术、数据治理、数据能力建设是其中关键。银行分行在数据能力建设的过程中,仍存在数据体系不完善、应用不充分等显著痛点:找数、取数、用数难:各业务系统未能有效整合,分行全场景数据地图缺失,跨部门取数流程繁琐,仍然存在不少手工处理环节;数据分散,发布与更新不及时:数据分散在...

2023-04-26 18:30:35 242

转载 3折囤书!世界读书日,京东惊喜放价

草长莺飞四月天,正是读书好时节你有多久没在茶余饭后,安静的读书了?京东图书大促2023.4.20-2023.4.24(以具体时间为准)京东自营图书大促5折封顶不仅如此更有满300减100的优惠券限量派送限自营图书使用(教辅教材及个例品除外)爆款好书到手3.3折这里先给大家上一个领券入口大家可以在会场内领券并选书扫码领券囤书攻略RECOMMEND推荐阅读01《Java核心技术 (原书第12...

2023-04-21 14:11:56 218

转载 SQL开源替代品,诞生了!

发明 SQL 的初衷之一显然是为了降低人们实施数据查询计算的难度。SQL 中用了不少类英语的词汇和语法,这是希望非技术人员也能掌握。确实,简单的 SQL 可以当作英语阅读,即使没有程序设计经验的人也能运用。然而,面对稍稍复杂的查询计算需求,SQL 就会显得力不从心,经常写出几百行有多层嵌套的语句。这种 SQL,不要说非技术人员难以完成,即使对于专业程序员也不是件容易的事,常常成为很多软件企业应聘考...

2023-04-19 09:01:31 210 1

转载 金融科技场景下的敏捷BI实践,如何实现数据分析民主化!

在日前结束的“让业务用起来·观远数据2022智能决策峰会暨产品发布会”云上直播中,数禾科技CDO王冠军分享了“金融科技场景下的敏捷BI实践”。王冠军总结了 BI 建设的诉求与动机,以及 BI 工具框架搭建的分析方法论,并分享了数禾科技携手观远数据,建立 BIOps 打造一流 BI 团队,实现数据分析民主化和数据驱动决策的历程。01BI 建设的诉求与动机数禾科技成立于 2015 年的 8 月,以大数...

2023-03-16 12:56:26 326

转载 为什么老实人很难当领导??

前几天收到一位读者的“求救信”——“我快撑不住了,升技术主管这半年来,我就没睡过一次安稳觉,明明手下一堆兵,为什么一点鸡毛蒜皮的小事都要我去处理……”跟他沟通后才知道,自从他从开发转型技术管理以来,除了睡觉,时间基本都花在工作上。原以为只要兢兢业业,就能顺利实现职业转型。结果却像进入了一个噩梦:每天不是在开会,就是在帮忙解决问题,时间被安排的一团乱麻;给下属下达任务,他们却总是不配合,项目进度把控...

2023-03-15 09:24:51 261

转载 数据仓库的性能问题及解决之道

随着数据量不断增长和业务复杂度逐渐攀升,数据处理效率面临巨大挑战。最典型的表现是面向分析型场景的数据仓库性能问题越来越突出,压力大、性能低,查询时间长甚至查不出来,跑批跑不完造成生产事故等问题时有发生。当数据仓库出现性能问题时便不能很好服务业务了。传统数据仓库的性能解决方案集群,也就是采用分布式技术,依赖扩展硬件来提升性能,是最常见的手段。将一个大的任务拆分到各个集群节点上同时计算自然可以获得比单...

2023-03-09 09:00:56 671

转载 官宣:计算中间件 Apache Linkis 正式毕业成为 Apache 顶级项目

Apache 软件基金会(ASF)孵化器于2022年12月03日,通过了 Apache Linkis 计算中间件项目的孵化毕业投票。2023年01月18日,Apache 软件基金会官方宣布 Apache Linkis 顺利毕业,成为 Apache 顶级项目(TLP)。以上截图来自 Apache 官网原文链接:https://news.apache.org/foundation/entry/the-...

2023-02-02 16:09:12 393

转载 【独家发布】网易将招50人,提供数据分析培训,费用全免!

网易数据分析培训营printf("为什么一定要学数据分析?");* Excel高效处理数据,提高N倍工作效率* 数据思维解读业务,增加N倍决策科学性* 可视化完美汇报数据,获得N倍老板赞赏数据处理、数据思维、数据可视化3大数据利器,来网易,免费学透!网易官方认证原价值¥599课程限时扫码 I 0元免费报名3重福利,限量免费领福利1:100套万能可视化模板福利2:100套职场汇报万能PPT模板...

2023-01-09 09:00:08 330

转载 火山引擎DataTester:5个优化思路,构建高性能A/B实验平台

导读:DataTester是由火山引擎推出的A/B测试平台,覆盖推荐、广告、搜索、UI、产品功能等业务应用场景,提供从A/B实验设计、实验创建、指标计算、统计分析到最终评估上线等贯穿整个A/B实验生命周期的服务。DataTester经过了字节跳动业务的多年打磨,在字节内部已累计完成150万次A/B实验,在外部也应用到了多个行业领域。指标查询的产品高性能是DataTester的一大优势。作为产品最复...

2023-01-06 09:00:55 627

转载 火山引擎DataTester 私有化部署实践经验

作为一款面向ToB市场的产品——火山引擎A/B测试(DataTester)为了满足客户对数据安全、合规问题等需求,探索私有化部署是产品无法绕开的一条路。在面向ToB客户私有化的实际落地中,火山引擎A/B测试(DataTester)也遇到了字节内部服务和企业SaaS服务都不容易遇到的问题。在解决这些问题的落地实践中,火山引擎A/B测试团队沉淀了一些流程管理、性能优化等方面的经验。本文主要分享火山引擎...

2022-12-27 09:00:17 743

转载 Hadoop/Spark 太重,esProc SPL 很轻

随着大数据时代的来临,数据量不断增长,传统小机上跑数据库的模式扩容困难且成本高昂,难以支撑业务发展。很多用户开始转向分布式计算路线,用多台廉价的 PC 服务器组成集群来完成大数据计算任务。Hadoop/Spark 就是其中重要的软件技术,由于开源免费而广受欢迎。经过多年的应用和发展,Hadoop 已经被广泛接受,不仅直接应用于数据计算,还发展出很多基于它的新数据库,比如 Hive、Impala 等...

2022-12-26 10:39:30 469

转载 火山引擎A/B测试平台设计思路与技术实现

作者介绍:王珂,目前就职于字节跳动数据平台,为火山引擎A/B测试产品——DataTester 研发工程师。想要获得一个 A/B 实验系统,需要做些什么事情?火山引擎团队会把这些事情分成四个部分。A/B 实验需要通过人群采样,分出对照组和实验组并且下发不同的配置,让用户体会到不同的策略。因此从实践角度来看,四个部分中首先得有一个可靠的实验系统。通过这个实验系统,我们可以采集数据,从而观测用户在不同的...

2022-12-08 09:00:21 701

转载 年末最重磅,震撼数据圈!SelectDB 首次产品发布会等你来约!

从结绳记事到竹木简牍,从书于纸墨到印刷成册;数据以千百种姿态承载着人类的文明贯穿历史的长河。时代在更迭,不变的是社会文明对于数据的沉淀和探索。在计算机的帮助下,人类处理信息的速度空前加快,经过指数级的增长,数据已经积累到了前所未有的量级,一轮基于“大数据”的产业革命重塑了个人、企业乃至社会发展的底层逻辑。数字化的征程一往无前,所有的组织都不约而同地迈上了业务数据化和数据业务化的探索之路。大家都在面...

2022-12-06 08:30:16 814

转载 关于 ByteHouse 你想知道的一切,看这一篇就够了

ByteHouse 的前世今生字节跳动最早是在 2017 年底开始使用 ClickHouse 的,用于支撑增长分析的业务场景。对于字节跳动而言,增长分析的重要性不言而喻。这是一项十分考验运营团队能力的工作,如何衡量不同运营方法的有效性,应该对哪些数据指标进行考量,如何对指标的波动进行更深层次的原因分析,这些需要重点关注。这其中涉及大量数据分析,对于数据分析平台的实时性也有着非常高的要求。在比对、试...

2022-12-01 09:00:20 1422

转载 判断一个人有没有管理能力,就看这1点!

不少新晋管理者都跟我表达过,怕自己业务不是最强的,底下的人不服自己等担忧。确实,很多人做了管理之后,会下意识地认为依然要靠过硬的业务能力服人,不管遇到什么事情都是自己率先冲到一线去解决。可这种思维会导致相当多刚晋升的管理者,会很不适应角色转变:做业务时如鱼得水,做管理反而一塌糊涂。一:不要让优势变成紧箍咒前几天有个朋友吃饭,就和我吐槽了一把升职后的心酸泪:次次布置任务,下属都理解不了核心点,最后还...

2022-11-28 09:26:24 637

转载 投入上百人、经历多次双11,Flink已经足够强大了吗?

采访嘉宾|王峰(莫问) 作者 | Tina 作为最活跃的大数据项目之一,Flink 进入 Apache 软件基金会顶级项目已经有八年了。Apache Flink 是一款实时大数据分析引擎,同时支持流批执行模式,并与 Hadoop 生态可以无缝对接。2014 年,它被接纳为 Apache 孵化器项目,仅仅几个月后,它就成为了 Apache 的顶级项目。对于 Flink 来说,阿里有非常适合的流...

2022-11-26 11:07:21 394

转载 一个爆款游戏产品,是如何用A/B测试打磨出来的?

随着国内游戏用户数量趋于饱和,中国游戏产业也从高速成长期逐渐转型,市场成熟度提升,竞争趋于精细化。随着游戏出海以及私域流量运营的挑战,游戏企业对数据分析的使用需求和依赖度进一步提高。而在游戏研发立项、验证、开发、测试、上线和运营等阶段A/B测试均能发挥重要作用。本文讲述一个通过A/B测试获得“数据驱动增长”能力的游戏产品故事。并介绍在游戏的研发推广的全流程中,A/B测试都能应用于哪些场景。快速试错...

2022-11-23 09:39:57 940

转载 定了!11月起,网易将为本号粉丝提供数据分析培训,费用全免!

网易网易商业数据分析特训营—— 0基础 0费用 3大免费福利——日常工作中你一定遇到过这样的情况:工作汇报需要展示数据,做了十几页PPT却总是看不到重点,领导看了直摇头!不会数据可视化怎么办?来网易3天学会制作炫酷可视化报表!用超强数据分析能力征服领导就现在!原价值¥599网易数据分析特训营扫码0元报名 | 限额50人领取3大福利 | 先到先得0元报课,还能领免费福利!01福利1:100...

2022-11-21 09:00:47 550

转载 如何在ClickHouse中实现资源隔离?火山引擎实践经验分享

相信大家都对大名鼎鼎的ClickHouse有一定的了解了,它强大的数据分析性能让人印象深刻。但在字节大量生产使用中,发现了ClickHouse依然存在了一定的限制。例如:缺少完整的upsert和delete操作多表关联查询能力弱集群规模较大时可用性下降(对字节尤其如此)没有资源隔离能力因此,我们决定将ClickHouse能力进行全方位加强,打造一款更强大的数据分析平台。后面我们将从五个方面来和大家...

2022-11-08 08:55:47 528

转载 ClickHouse 挺快,esProc SPL 更快

开源分析数据库 ClickHouse 以快著称,真的如此吗?我们通过对比测试来验证一下。ClickHouse vs Oracle先用 ClickHouse(简称 CH)、Oracle 数据库(简称 ORA)一起在相同的软硬件环境下做对比测试。测试基准使用国际广泛认可的 TPC-H,针对 8 张表,完成 22 条 SQL 语句定义的计算需求(Q1 到 Q22)。测试采用单机 12 线程,数据总规模 ...

2022-10-28 09:00:13 297

转载 实时化浪潮下,Apache Flink还将在大数据领域掀起怎样的变革?

Flink Forward Asia 2022 将于 11 月 26-27 日在线上举办,议程内容正式上线! 今年是 Flink Forward Asia(下文简称 FFA)落地中国的第五个年头,也是 Flink 成为 Apache 软件基金会顶级项目的第八年。过去这几年,Flink 一方面持续优化其流计算核心能力,不断提高整个行业的流计算处理标准,另一方面沿着流批一体的思路逐步推进架构改造和应用...

2022-10-25 09:00:42 288

转载 火山引擎:强大的数据分析平台如何构建基于ClickHouse的查询优化器

相信大家都对大名鼎鼎的ClickHouse有一定的了解了,它强大的数据分析性能让人印象深刻。但在字节大量生产使用中,发现了ClickHouse依然存在了一定的限制。例如:缺少完整的upsert和delete操作多表关联查询能力弱集群规模较大时可用性下降(对字节尤其如此)没有资源隔离能力因此,我们决定将ClickHouse能力进行全方位加强,打造一款更强大的数据分析平台。后面我们将从五个方面来和大家...

2022-10-24 09:00:20 504

原创 图文介绍 Presto + Velox 整合

过去十年,存储的速度从 50MB/s(HDD)提升到 16GB/s(NvMe);网络的速度从 1Gbps 提升到 100Gbps;但是 CPU 的主频从 2010 年的 3GHz 到现在基本不变,CPU 主频是目前数据分析的重要瓶颈。为了解决这个问题,越来越多的向量化执行引擎被开发出来。比如数砖的 Photon 、ClickHouse、Apache Doris、Intel 的 Gazelle 以及...

2022-10-13 09:45:25 2633

转载 全球第一!新一代云数仓 SelectDB 登顶 ClickBench

概述:分析型数据库性能排行榜 ClickBench 最近迎来了一匹黑马,那就是成立不满一年,成绩却斐然的新一代云数仓 SelectDB。其在业界最为通用的 c6a.4xlarge, 500gb gp2 机型下位居榜首,超越了此前霸占榜首的 ClickHouse,多项指标排行前列。这无疑在数据库领域掀起了大风浪,人们纷纷搜索 SelectDB 这个新名字。今天,就由小编带领大家来一探究竟吧!关于Cl...

2022-10-12 09:00:50 379

转载 看完这篇, FlinkSQL 统统能整明白了

马云曾在一次演讲中说道:“未来的时代,将不再是 IT 时代,而是 DT 时代。”的确,这些年,越来越多开发,转行做大数据,又或通过大数据打造自己的竞争力(比如很多 Java 开发都会学学大数据),核心原因有三点:云计算技术的发展会降低功能开发的难度,很多开发会向低代码方向发展。大数据的价值空间正在逐渐形成,而围绕大数据进行价值化操作将是一个新的发展趋势,人才需求会更集中。大数据是人工智能的基础,但...

2022-10-11 12:02:13 470

转载 火山引擎:ClickHouse增强计划之“多表关联查询”

相信大家都对大名鼎鼎的ClickHouse有一定的了解了,它强大的数据分析性能让人印象深刻。但在字节大量生产使用中,发现了ClickHouse依然存在了一定的限制。例如:缺少完整的upsert和delete操作多表关联查询能力弱集群规模较大时可用性下降(对字节尤其如此)没有资源隔离能力因此,我们决定将ClickHouse能力进行全方位加强,打造一款更强大的数据分析平台。后面我们将从五个方面来和大家...

2022-10-10 12:00:51 377

转载 关于云音乐数据治理的实践与思考

导读:本文结合过去一段时间云音乐数据开发团队在数仓建设、数据治理方面的具体实践,分享我们在数据治理方面的一些思路。如今的云音乐已经成为一款大众产品,用户每天来云音乐听歌、看评论、逛社区,这个过程中沉淀下来了海量用户数据。平台现在每天收集处理的用户日志已经达到千亿级别,整个集群处理加工使用的数据总量达到了200PB。解决这么大规模下数据存储、处理、使用中的技术问题,作为一名数据开发首先是感到兴奋,但...

2022-10-09 10:37:41 364

转载 报表工具的二次革命

温馨提示:本文大约 9000 字左右,预计阅读时长 10 分钟报表工具是一个历史比较悠久的软件类产品了,已经有 20 年以上的发展历史了,在这 20 多年中,产品在不断的更新迭代,不断的随着需求的改变而进步完善,持续发挥着自己的价值在这无数次的更新迭代中,又有两次比较大的变革,极具重要意义,可以算作是工具发展史上的两大里程碑式的革命,对软件的发展走向起到了决定性的作用先回顾第一次革命第一次革命发生...

2022-09-30 09:00:56 203

原创 Velox 介绍:一个开源的统一执行引擎

•Meta 正在引入 Velox,这是一个开源的统一执行引擎(unified execution engine),旨在加速数据管理系统和简化其开发。•Velox 正在积极开发中,Meta 在 2022 年超大型数据库国际会议(VLDB)上发表了相关论文,里面详细介绍了 Velox 如何提高数据管理系统的效率和一致性。•Velox 有助于整合和统一数据管理系统,我们相信这将有利于整个行业。我们希望更...

2022-09-13 08:20:04 1707

转载 为什么大数据平台要回归SQL

先说观点:因为还没找到更好的。接下来说原因,首先来看看大数据平台都在干什么。原因结构化数据计算仍是重中之重大数据平台主要是为了应对海量数据存储和分析的需求,海量数据存储的确不假,除了生产经营产生的结构化数据,还有大量音视频等非结构化数据,这部分数据很大,占用的空间也很多,有时大数据平台 80% 以上都存储着非结构化数据。不过,数据光存储还不行,只有利用起来才能产生价值,这就要进行分析了。大数据分析...

2022-09-09 09:00:32 382 2

转载 Redis 定长队列的探索和实践

vivo 互联网服务器团队 - Wang Zhi一、业务背景从技术的角度来说,技术方案的选型都是受限于实际的业务场景,都以解决实际业务场景为目标。在我们的实际业务场景中,需要以游戏的维度收集和上报行为数据,考虑数据的量级,执行尽最大努力交付且允许数据的部分丢弃。数据上报支持游戏的维度的批量上报,支持同一款游戏128个行为进行批量上报。数据上报需要时效控制,上报的数据必须是上报时刻的前3分钟的数据。...

2022-09-08 10:58:04 416

转载 2022企业级BI平台白皮书(附下载)

数字化转型对规模型企业来说,应当是一个渗透企业的战略,也应当是一种赋能业务一线人员的方式,于是,此时规模型企业对企业级BI的需求空前旺盛。企业级BI不仅要能够在业务需求角度以数据分析助力智能决策,还能够在组织升级和解决方案的多层次,满足规模型企业的复杂需求。《2022企业级BI平台白皮书》是观远数据发布的业内首部聚焦规模型企业数字化转型,探寻BI平台企业级能力建设方法论的白皮书,也是观远数据基于多...

2022-08-25 12:21:53 370

转载 腾讯大数据总体架构图,首次对外公开!

导读:腾讯作为国内体量最大的互联网公司之一,业务涵盖用户日常生活的方方面面,面对如此巨大业务数据量,如果不能对数据进行专业化处理并高效有序地存、管、用,如果不能使数据产生应有的价值,那么数据资产将会成为数据垃圾,成为社会和企业的负担。大数据平台作为腾讯底层的基础设施之一,每天必须处理千万级规模的离线数据任务及十万亿级别的实时计算,否则无法满足业务每天数以亿计的数据分析计算的需求。本文主要介绍腾讯大...

2022-08-24 09:00:28 537

转载 京东科技埋点数据治理和平台建设实践

导读本文核心内容聚焦为什么要埋点治理、埋点治理的方法论和实践、奇点一站式埋点管理平台的建设和创新功能。读者可以从全局角度深入了解埋点、埋点治理的整体思路和实践方法,落地的埋点工具和创新功能都有较高的实用参考价值。遵循埋点治理的方法论,本文作者团队已在实践中取得优异成效,在同行业内有突出的创新功能,未来也将继续建设数智化经营能力,持续打造更好的服务。01埋点治理背景在今年的敏捷团队建设中,我通过S...

2022-08-23 09:00:29 459

WeCenter 3.2.2

WeCenter 是一款开源知识型的社交化问答社区程序,专注于社区内容的整理、归类和检索,并通过连接微信公众平台,移动APP进行内容分发。

2018-09-13

HBase in Practise: 性能、监控和问题排查

HBase在不同版本(1.x, 2.x, 3.0)中针对不同类型的硬件(以IO为例,HDD/SATA-SSD/PCIe-SSD/Cloud)和场景(single/batch, get/scan)做了(即将做)各种不同的优化,这些优化都有哪些?如何针对自己的生产业务和硬件环境选择和使用合适的版本/功能? 在生产环境可能出现各种问题,而监控系统是发现并解决问题的关键。目前HBase提供了大量的metrics用于监控,其中有哪些是要特别关注的?线上不同类型的问题应该重点查看哪些metrics来定位问题?如何结合metrics和客户端/服务端日志快速定位问题?

2018-08-13

HBase Procedure V2介绍

主要介绍一下Procedure V2的设计和结构,以及为什么用Procedure V2能比较容易实现出正确的AssignmentManager。最后介绍一下最近在2.1分支上对一些Procedure实现修正和改进。

2018-08-13

HBase在贝壳找房的应用实践

介绍贝壳基于hbase在多维分析(kylin),楼盘字典等核心项目的应用,并分享在实践过程中遇到的问题和性能优化经验。

2018-08-13

Scala Cheat Sheet

本速查表可以用于快速地查找Scala语法结构。Licensed by Brendan O’Connor under a CC-BY-SA 3.0 license.

2018-07-04

Apache Hive Functions Cheat Sheet

How to create and use Hive Functions, Listing of Built-In Functions that are supported in Hive

2018-07-04

Apache Spark Cheat Sheet

Apache Spark has become the engine to enhance many of the capabilities of the ever-present Apache Hadoop environment. For Big Data, Apache Spark meets a lot of needs and runs natively on Apache Hadoop’s YARN. By running Apache Spark in your Apache Hadoop environment, you gain all the security, governance, and scalability inherent to that platform. Apache Spark is also extremely well integrated with Apache Hive and gains access to all your Apache Hadoop tables utilizing integrated security.

2018-07-04

spark-summit-north-america-2018-06 全部 PPT -part1

spark-summit-north-america-2018-06 全部 PPT -part1部分。 spark-summit-north-america-2018-06 全部 PPT -part1部分

2018-06-19

spark-summit-north-america-2018-06 全部 PPT -part2

spark-summit-north-america-2018-06全部PPT,下载。spark-summit-north-america-2018-06

2018-06-17

A Deep Dive into Stateful Stream Processing in Structured Streaming

A Deep Dive into Stateful Stream Processing in Structured Streaming A Deep Dive into Stateful Stream Processing in Structured Streaming

2018-06-17

Implementing AutoML Techniques at Salesforce Scale

Implementing AutoML Techniques at Salesforce Scale,Implementing AutoML Techniques at Salesforce Scale

2018-06-17

Using AI to Deliver a Device as a Service

Using AI to Deliver a Device as a Service,Using AI to Deliver a Device as a Service

2018-06-17

Foundations of streaming SQL

Covering ideas from across the Apache Beam, Apache Calcite, Apache Kafka, and Apache Flink communities, with thoughts and contributions from Julian Hyde, Fabian Hueske, Shaoxuan Wang, Kenn Knowles, Ben Chambers, Reuven Lax, Mingmin Xu, James Xu, Martin Kleppmann, Jay Kreps and many more, not to mention that whole database community thing...

2018-06-15

Deep Dive into Spark SQL with Advanced Performance Tuning

Spark SQL is a highly scalable and efficient relational processing engine with ease-to-use APIs and mid-query fault tolerance. It is a core module of Apache Spark. Spark SQL can process, integrate and analyze the data from diverse data sources (e.g., Hive, Cassandra, Kafka and Oracle) and file formats (e.g., Parquet, ORC, CSV, and JSON). This talk will dive into the technical details of SparkSQL spanning the entire lifecycle of a query execution. The audience will get a deeper understanding of Spark SQL and understand how to tune Spark SQL performance.

2018-06-11

QCon北京2018-《RandonDb新一代分布式关系型数据库》-张雁飞.pdf

RadonDB ►可扩展 ►高可用 ►强一致 ►易部署 ►MyNewSQL

2018-05-16

QCon北京2018-《TiDB架构与开源之路》-申砾.pdf

TiDB架构与开源之路,TiDB架构与开源之路,TiDB架构与开源之路

2018-05-16

Qcon北京2018-《区块链服务在华为公有云平台上的重要问题设计实现及解决方法》-张子怡.pdf

区块链是在点对点网络中对交易具有防篡改功能的共享数据账本,Hyperledger fabric是一个比较知名的开源区块链框架,其中作为分布式系统的核心问题就是共识算法以及共识算法的效率问题。如何既保证这个共识算法能让参与区块链的联盟各方都认可它的安全可信,又能提高联盟成员间的共识效率就是一个所有人都关注的重要问题,这里我们将会介绍一种优化的bft共识算法的设计和使用方式。 对于区块链服务的使用者,数据安全性是一个非常重要的问题,例如同态加密,零知识证明和国密算法等,我们会介绍这些高级功能特性,讲解这些特性的原理,以及介绍华为提供的这些特性支持中接口是怎么使用,还有通过代码示例演示怎么使用这些高级特性,让大家对区块链服务的基础和基于它的一些高级功能能有初步认识到基本实践的能力。

2018-05-16

QCon北京2018-强业务驱动的互联网+,技术管理的坑与路--廖雪梅.pdf

作为一名10年的互联网从业者,见证过流量分发、移动互联网等技术为王的时代,也正在经历以技术驱动传统行业改造的互联网+时代。在流量分发的年代,一个算法的优化,可以轻松提高收入,一个首屏加载时间的优化,可以快速提高转化率,那是一个技术为王的时代,我们会对高QPS、更短访问耗时津津乐道。而在互联网+时代,我们用自己引以为豪的技术继续去改造一个个自己并不熟悉的传统行业,突然发现我们做了很多管理系统,类erp系统,只是这些系统比之前复杂很多,我们经常在中间晕头转向,而我们引以为豪的高性能高并发各类技术似乎没有了用武之地。 互联网+时代,技术管理者身边充斥这样的声音:后端研发跟你抱怨技术挑战小,没有成长空间;前端小伙伴跟你吐槽做了太多管理系统,想玩各类新技术RN、酷炫的动画都找不到试验田;业务还不会不断告诉你,xx系统的设计方案完全不符合线下场景……在焦躁不安中,甚至开始怀疑,这还是就技术改变世界的时代吗?

2018-05-16

QCon北京2018-《用正确分享来磨练专家实力——分享型专家升级记》-黄闻欣.pdf

有一期《奇葩说》,老罗说跨界很重要,实在想不到跨什么,就跨界去学演讲吧。他给的道理是影响力。我给的道理是演讲能从根本上提升你的软实力和硬实力。这次分享,我会用我的从工程师到专家工程师的亲身经历作为案例,从沟通力,学习力,思考力,强迫力,告诉大家,用怎样的钥匙才能打开这扇门。希望听众能收获并践行,让自己的职业生涯更进一步。

2018-05-16

QCon北京2018-《Oracle区块链架构及其应用开发》-蒋春明.pdf

Oracle区块链云服务基于开源的Hyperledger Fabric软件打造,是一个与其他高性能Oracle云服务相集成,且预先集成了Oracle SaaS和Oracle内部部署应用的开放的API式解决方案,能够与任何系统进行定制化整合。

2018-05-16

Apache iceberg:Netflix 数据仓库的基石

Apache Iceberg 是一种用于跟踪超大规模表的新格式,是专门为对象存储(如S3)而设计的。 本文将介绍为什么 Netflix 需要构建 Iceberg,Apache Iceberg 的高层次设计,并会介绍那些能够更好地解决查询性能问题的细节。

2020-02-23

Apache Hadoop 3.x state of the union and upgrade guidance

Apache Hadoop YARN is the modern distributed operating system for big data applications. It morphed the Hadoop compute layer to be a common resource-management platform that can host a wide variety of applications. Many organizations leverage YARN in building their applications on top of Hadoop without repeatedly worrying about resource management, isolation, multitenancy issues, etc. The Hadoop Distributed File System (HDFS) is the primary data storage system used by Hadoop applications. It employs a NameNode and DataNode architecture to implement a distributed file system that provides high-performance access to data across highly scalable Hadoop clusters. Wangda Tan and Wei-Chiu Chuang the current status of Apache Hadoop 3.x—how it’s used today in deployments large and small, and they dive into the exciting present and future of Hadoop 3.x—features that further strengthen Hadoop as the primary resource-management platform and the storage system for enterprise data centers. They explore the current status and the future promise of features and initiatives for both YARN and HDFS of Hadoop 3.×. For YARN 3.x, there is powerful container placement, global scheduling, support for machine learning (Spark) and deep learning (TensorFlow) workloads through GPU and field-programmable gate array (FPGA) scheduling and isolation support, extreme scale with YARN federation, containerized apps on YARN, support for long-running services (alongside applications) natively without any changes, seamless application/services upgrades, powerful scheduling features like application priorities, intra-queue preemption across applications, and operational enhancements including insights through Timeline Service v2, a new web UI, better queue management, etc. Also, HDFS 3.0 announced GA for erasure coding, which doubles the storage efficiency of data and thus reduces the cost of storage for enterprise use cases. HDFS added support for multiple standby NameNodes for better availability. For better reliability of metadata and easier operations, Journal nodes have been enhanced to sync the edit log segments to protect against rolling failures. Disk balancing within a DataNode was another important feature added to ensure disks are evenly utilized in a DataNode, which also ensures better aggregate throughput and prevents from lopsided utilization if new disks are added or replaced in a DataNode. The HDFS team is currently driving the Ozone initiative, which lays the foundation of the next generation of storage architecture for HDFS where data blocks are organized in storage containers for higher scale and handling of small objects in HDFS. The Ozone project also includes an object store implementation to support new use cases. And you’ll leave with all the knowledge of how to upgrade painlessly from 2.x to 3.x to get all the benefits.

2020-02-04

Apache Doris (Incubating) 原理与实践.pdf

Doris(原百度 Palo)是一款基于大规模并行处理技术的分布式 SQL 数据库,由百度在 2017 年开源,2018 年 8 月进入 Apache 孵化器。

2019-12-10

Spark SQL 在字节跳动的优化实践-郭俊.pdf

Spark 在字节跳动内部扮演着重要角色。在数据仓库领域,Spark SQL 正在逐渐取代 Hive 成为主要的 ETL 计算引擎,另外它还是字节跳动内部重要的 ad-hoc 查询引擎。目前 Spark 每天处理百万亿级数据,单任务 Shuffle 数据量可超过 200TB。同时 Spark 与其它系统混合部署,因此性能与稳定性都是需要重点解决的问题。本次分享将会基于基础架构团队过往的工作成果,介绍字节跳动在提升基于 Spark SQL 的 ETL 稳定性以及优化 ad-hoc 查询的性能方面的实践。

2019-12-03

Spark+AI Summit Europe 2019 Part 3

Spark+AI Summit Europe 2019 补充PPT,解压密码请到 https://www.iteblog.com/archives/8424.html 获取。为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的,而 Spark 能够处理海量数据的分析,将 Spark 和 AI 进行结合,无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议,大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了Apache Spark™、TensorFlow、MLflow 、 PyTorch、Delta Lake、 MLflow 以及 Koalas 等开源技术的最新进展,以及在现实世界中部署人工智能的最佳实践。

2019-11-03

Spark+AI Summit Europe 2019_iteblog.zip.002

由于文件过大,分成2个文件下载。解压密码请到 https://www.iteblog.com/archives/8424.html 获取。为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的,而 Spark 能够处理海量数据的分析,将 Spark 和 AI 进行结合,无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议,大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了Apache Spark™、TensorFlow、MLflow 、 PyTorch、Delta Lake、 MLflow 以及 Koalas 等开源技术的最新进展,以及在现实世界中部署人工智能的最佳实践。

2019-11-01

Spark+AI Summit Europe 2019_iteblog.zip.001

由于文件过大,分成2个文件下载。解压密码请到 https://www.iteblog.com/archives/8424.html 获取。为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的,而 Spark 能够处理海量数据的分析,将 Spark 和 AI 进行结合,无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议,大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了Apache Spark™、TensorFlow、MLflow 、 PyTorch、Delta Lake、 MLflow 以及 Koalas 等开源技术的最新进展,以及在现实世界中部署人工智能的最佳实践。

2019-11-01

The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf

数据工程师的纠结与运维的凌乱 • Delta Lake基本原理 • Delta 架构 • Delta 架构的特性 • Delta 架构的经典案例 & Demo • Delta Lake 社区

2019-10-28

Apache Spark 3.0, Koalas, Delta Lake 最新进展

In this talk, we will highlight major efforts happening in the Spark ecosystem. In particular, we will dive into the details of adaptive and static query optimizations in Spark 3.0 to make Spark easier to use and faster to run. We will also demonstrate how new features in Koalas, an open source library that provides Pandas-like API on top of Spark, helps data scientists gain insights from their data quicker.

2019-10-28

SPARK + AI SUMMIT 2019 全部 PPT

为期三天的 SPARK + AI SUMMIT 2019 于 2019年04月23日-25日在旧金山(San Francisco)进行。数据和 AI 是需要结合的,而 Spark 能够处理海量数据的分析,将 Spark 和 AI 进行结合,无疑会带来更好的产品。作为大数据领域的顶级会议,Spark+AI Summit 2019 吸引了全球大量技术大咖参会,而且 Spark+AI Summit 越做越大,本次会议议题快接近200多个。详情:https://www.iteblog.com/archives/2431.html

2019-09-21

From Stream Processor to a Unified Data Processing System

The Apache Flink community has pushed (and continues to push) the boundary for Stream Processing over the last years, following the understanding that Stream Processing is unifying paradigm to build data processing applications, beyond real-time analytics. The latest major effort in the Flink community is nothing less then re-architecting the API and runtime stack, with the goal to naturally support the spectrum of analytics and data-driven applications, to unify the APIs for batch and streaming (Table API and DataStream API), and to build a streaming runtime that is not only state-of-the-art in stream processing, but also in batch processing performance. In this keynote, we give an overview of the goals and technology behind the above effort, and look at the adoption of Apache Flink for Stream Processing and "beyond streaming" use cases, as well as various efforts in the community to support the growth in users, applications, and ecosystem.

2019-04-20

Apache Spark 2.4 and beyond

Apache Spark 2.4 comes packed with a lot of new functionalities and improvements, including the new barrier execution mode, flexible streaming sink, the native AVRO data source, PySpark’s eager evaluation mode, Kubernetes support, higher-order functions, Scala 2.12 support, and more. Xiao Li and Wenchen Fan offer an overview of the major features and enhancements in Apache Spark 2.4. Along the way, you’ll learn about the design and implementation of V2 of theData Source API and catalog federation in the upcoming Spark release. Then you’ll get the chance to ask all your burning Spark questions.

2019-04-14

Flink社区专刊S2-重新定义计算

阿里巴巴最新一期Flink电子月刊《重新定义计算:Apache Flink 实践》正式发布,该月刊融合了 Apache Flink 在国内各大互联网公司的大规模实践和Flink Forward China峰会上的精彩演讲内容,希望对大家有所帮助。详情参考:https://mp.weixin.qq.com/s/HS9qoGTKzyd46VgjEpNiwg

2019-04-11

从MPP数仓迁移至Spark:案例与最佳实践分享

本次主要分享关于迁移实际案例与最佳实践更加深入的探讨。在迁移过程中,我们遇到了很多的预料之外的问题,如字符集问题,数字进位问题,各种OOM等等,更加深入地了解了Spark和RDMBS之间的差异。在弥补鸿沟和解决问题的过程中,我们做了很多的实践,贡献给了社区很多的反馈,也解决了很多的bug。即便对于Spark当前不能处理的场景,比如recurisve query,也有了一些可行的探索。此外,我们现在还开发了一套自动化框架来帮助加速迁移工作。在这次分享中,我们会深入迁移的关键步骤,并分享踩过的一些坑,最后会介绍我们的自动化工具,如SQL Converter等。相信对正工作在类似的任务或者即将开展类似工作的工程师们会有所帮助。 下面是PPT原文:关注 Hadoop技术博文 并回复 ebay_spark 获取本文PPT。

2019-03-31

2018 Apache HBase 技术实战专刊

本专刊由中国HBase技术社区整理,一共156页,包含HBase案例、组件、技术、平台等方面的介绍,详情参见https://www.iteblog.com/archives/2496.html

2019-01-07

Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]

我们都知道,Shuffle 操作在 Spark 中是一种昂贵的操作。在 Facebook,单个 Job 的 Shuffle 就可能往磁盘中写入 300TB 的数据;而且 shuffle reads 也是一种低效的操作,这会大大延长作业的整体执行时间,并且消耗大量的系统资源。 为了提高 shuffle 的性能并提高资源利用率,Facebook 开发了 Spark-optimized Shuffle (SOS) 。 这种 shuffle 技术有效地将大量小的 shuffle 读请求转换成少并且大的顺序 I/O 请求。目前这个技术于2018年4月已经在 Facebook 大规模使用了,作业整体的 I/O 提升了两倍,计算效率提高10%。值得高兴的是,这项技术 Facebook 打算共享给社区。 本地址是这项技术的视频介绍。关注Hadoop技术博文(iteblog_hadoop) 公众号并回复 sos 获取本文相关ppt及相关技术论文。

2018-12-10

Apache Spark Shuffle I/O 在 Facebook 的优化

我们都知道,Shuffle 操作在 Spark 中是一种昂贵的操作。在 Facebook,单个 Job 的 Shuffle 就可能往磁盘中写入 300TB 的数据;而且 shuffle reads 也是一种低效的操作,这会大大延长作业的整体执行时间,并且消耗大量的系统资源。 为了提高 shuffle 的性能并提高资源利用率,Facebook 开发了 Spark-optimized Shuffle (SOS) 。 这种 shuffle 技术有效地将大量小的 shuffle 读请求转换成少并且大的顺序 I/O 请求。目前这个技术于2018年4月已经在 Facebook 大规模使用了,作业整体的 I/O 提升了两倍,计算效率提高10%。值得高兴的是,这项技术 Facebook 打算共享给社区。 本地址是这项技术的视频介绍。关注Hadoop技术博文(iteblog_hadoop) 公众号并回复 sos 获取本文相关ppt及相关技术论文。

2018-12-10

不仅仅是流计算:Apache Flink实践

为了让大家更为全面的了解Flink,我和 infoQ 的徐川联合制作了一本介绍 Apache Flink 的中文专刊《不仅仅是流计算:Apache Flink实践》。它融合了Apache Flink在国内各大顶级互联网公司的大规模实践。更多大数据博文参见https://www.iteblog.com

2018-11-29

Spark AI Summit Europe 2018 全部PPT - part1

Spark AI Summit Europe 2018 全部PPT,如有更新请关注https://www.iteblog.com/archives/2432.html

2018-10-13

Easy, Scalable, Fault-tolerant stream processing with Structured Streaming-TD

Easy, Scalable, Fault-tolerant stream processing with Structured Streaming-TD

2018-09-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除