这几个Python数据可视化探索实例,拿走不谢! 本文选自清华大学出版社的新书《深入浅出Python数据分析》章节,推荐一下。利用可视化探索图表一、数据可视化与探索图 数据可视化是指用图形或表格的方式来呈现数据。图表能够清楚地呈现数据性质, 以及数据间或属性间的关系,可以轻易地让人看图释义。用户通过探索图(Exploratory Graph)可以了解数据的特性、寻找数据的趋势、降低数据的理解门槛。二、常见的图表...
数据标准在网易的实践 在生活中,标准与我们息息相关,吃的食品需要满足国家标准才能食用,汽车排放达标才能够上路行驶,电脑接口得满足统一的标准才能够与外设对接等等。而在数据的世界,数据标准也同等重要。我们期望将数据标准真正应用到实践中去,帮助客户解决资产化不足、数据质量难以提升、数据开发效率低等问题,于是网易开始了数据标准的建设。本文将基于我们对数据标准的理解,阐述标准的建立并依据标准的建立内容和...
B站取数服务演进之路 在这篇基于 Iceberg 的湖仓一体架构在 B 站的实践我们介绍了B站基于Iceberg的湖仓一体架构实践,本篇我们将继续介绍B站在取数服务方向的演进之路,这也是湖仓一体架构的实践的重要表现方式。01引言数据平台部作为B站的基础部门,为B站各业务方提供多种数据服务,如BI分析平台,ABTest平台,画像服务,流量分析平台等等,这些服务、平台背后都有海量数据的取数查询需求...
通信大数据架构下的数据治理.pdf 本文完整高清PPT会发到资料群供大家学习,扫文末微信群进入本文完整高清PPT会发到资料群供大家学习,扫下方微信群进入因为微信群后面进来的看不到前面的聊天记录。所以恳请小伙伴们进入后不要刷屏要资料,我时不时会发送在群里,保证一天内!如果实在着急的,可以加我微信要。 ...
大数据平台数据治理与建设方案 本文完整高清PPT会发到资料群供大家学习,扫文末微信群进入本文完整高清PPT会发到资料群供大家学习,扫下方微信群进入因为微信群后面进来的看不到前面的聊天记录。所以恳请小伙伴们进入后不要刷屏要资料,我时不时会发送在群里,保证一天内!如果实在着急的,可以加我微信要。 ...
Presto 原生多 Coordinator 功能简介,可以在生产环境使用 背景Presto 的架构最初只支持一个 coordinator 和多个 workers。多年来,这种方法一直很有效,但也带来了一些新挑战。•使用单个 coordinator,集群可以可靠地扩展到一定数量的 worker。但是运行复杂、多阶段查询的大集群可能会使供应不足的 coordinator 不堪重负,因此需要升级硬件来支持工作负载的增加。•单个 coordinator...
几种常见的 Kafka 集群监控工具 本文选自电子工业出版社的新书《kafka进阶》,推荐一下。一个功能健全的kafka集群可以处理相当大的数据量,由于消息系统是很多大型应用的基石,因此broker集群在性能上的缺陷,都会引起整个应用栈的各种问题。Kafka的度量指标主要有以下三类:1.Kafka服务器(Kafka)指标2.生产者指标3.消费者指标另外,由于Kafka的状态靠Zookeeper来维护,对于Zo...
如何解决MySQL中的死锁问题? 导读:虽然锁在一定程度上能够解决并发问题,但稍有不慎,就可能造成死锁。本文介绍死锁的产生及处理。作者:肖宇 冰河来源:大数据DT(ID:hzdashuju)01 死锁的产生和预防发生死锁的必要条件有4个,分别为互斥条件、不可剥夺条件、请求与保持条件和循环等待条件,如图1-6所示。▲图1-6 死锁的必要条件1. 互斥条件在一段时间内,计算机中的某个资源只能被一个进程占用。此...
基于 Iceberg 的湖仓一体架构在 B 站的实践 背景在B站,每天都有PB级的数据注入到大数据平台,经过离线或实时的ETL建模后,提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据,如何高效低成本地满足下游数据的分析需求,一直是我们重点的工作方向。我们之前的数据处理流程基本上是这样的:采集端将客户端埋点、服务端埋点、日志、业务数据库等数据收集到HDFS、Kafka等存储系统中,然后通过Hive、Spark、Fl...
在 Presto 中使用一致性哈希来改善动态集群的缓存命中率 目前,越来越多的用户开始在 Presto 里面使用 Alluxio,它通过利用 SSD 或内存在 Presto workers 上缓存热数据集,避免从远程存储读取数据。Presto 支持基于哈希的软亲和调度(hash-based soft affinity scheduling),强制在整个集群中只缓存一到两份相同的数据,通过允许本地缓存更多的热数据来提高缓存效率。但是,...
Apache YARN 在 B 站的优化实践 1. 背景B站的YARN以社区的2.8.4分支构建,采用CapacityScheduler作为调度器, 期间进行过多次核心功能改造,目前支撑了B站的离线业务、实时业务以及部分AI训练任务。2020年以来,随着B站业务规模的迅速增长,集群总规模达到8k左右,其中单集群规模已经达到4k+ ,日均Application(下文简称App)数量在20w到30w左右。当前最大单集群整...
基于Flink构建企业级实时数仓(附项目源码) 离线数仓是大数据技术发展至今最耀眼的明星,然而随着业务需求的不断升级,对于一些延时较高的场景,要把链路延时降低到秒级,就需要基于 Flink 的实时数仓出马了。企业级实时数仓的应用场景很多,比如:实时 OLAP 分析;实时数据看板;实时业务监控;实时数据接口服务。很多公司实时数仓的定义都不同,因为“数仓”在诞生之初,就是围绕离线理念设计的。而实时数仓其实就是离线数仓的时效...
Kubernetes、集群联邦和资源分发 Kubernetes 从比较早的版本就声称单机群可以支持 5,000 节点,而且也没有计划在短期内提高单个 Kubernetes 集群支撑的节点数,如果需要在 Kubernetes 中支持 5,000 以上的节点,更推荐使用集群联邦(Federation)的方式。People frequently ask how far we are going to go in imp...
HDFS在B站的探索和实践 一、HDFS 架构介绍HDFS离线存储平台是Hadoop大数据计算的底层架构,在B站应用已经超过5年的时间。经过多年的发展,HDFS存储平台目前已经发展成为总存储数据量近EB级,元数据总量近百亿级,NameSpace 数量近20组,节点数量近万台,日均吞吐几十PB数据量的大型分布式文件存储系统。首先我们来介绍一下B站的HDFS离线存储平台的总体架构。图 1-1 HDFS ...
58集团处罚数据中心的设计与实践 01导读58集团作为国内领先的生活服务及分类信息平台,业务覆盖招聘、房产、汽车、二手、本地生活服务及金融等领域,各业务每天生成海量信息,对内容安全、业务违规的高效治理和处罚的需求亟需解决,本文站在中心化建设视角,阐述58集团处罚数据中心的设计与实践。02背景与目标目前有各业务自建的治理系统和集团主风控系统两条路径来治理内容安全和业务违规问题。上游治理层系统针对用户和信息进...
“StarRocks 极客营” 重磅来袭,和技术大牛一起推开数据库梦想之门! 操作系统、编译器、数据库是软件工程师的梦之所向,对于大多数人而言,却是近在眼前、远在天边:你是否曾渴望加入 Linux 这样伟大的社区,然觉门槛太高无从下手?你是否也曾想象参与开发 MySQL 这样顶级的项目,可融入无门?你是否梦想让自己的代码为更多人所用,苦于孤军奋战、条件不足?在StarRocks 社区,实现梦想并没有想象中那么难!StarRocks 极客营,专为数...
Presto 在 Lyft 的实践 2017 年初,我们开始探索 Presto 来解决 OLAP 用例,我们意识到了这个惊人的查询引擎的潜力。与 Apache Hive 相比,它最初是一种临时查询工具,供数据工程师和分析师以更快的方式运行 SQL 来构建查询原型。当时很多内部仪表板都由 AWS-Redshift 提供支持,并将数据存储和计算耦合在一起。我们的数据呈指数级增长(每隔几天翻一番),这也需要频繁的...
技能证里的天花板-阿里云云计算架构师ACE认证将全面升级! 近年来,随着国内数字化实践的不断深化,中国企业上云意识和积极性明显提高,上云比例和应用场景深度有所提升。根据亿欧智库2022年2月发布的《2021中国公有云服务商能力指数研究报告》指出:随着数字经济和新技术的发展,预计2023年中国政府和大型企业上云率将超过60%,上云深度将有较大提升。这意味着拥有云计算的技术将在职业发展中带来很大的竞争优势。ACE是什么?ACE是阿里云...
爱奇艺内容中台数据中心的设计与实现 互联网技术发展至今,当业务复杂度比较高的时候,采用微服务化是一个有效的手段,但是随着服务的拆分,数据管理工作变得极具挑战。数据中心(OLTP)通过对数据的统一收集和管理,一方面可以建立数据...