![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据技术在大厂的应用
文章平均质量分 92
大数据技术在大厂的实际应用案例分享
此木Y
大数据搬砖工程师一枚
展开
-
网易云音乐数据治理探索与实践
网易云音乐数据治理探索与实践导读:大数据时代的到来,让很多企业看到了数据资产的价值,开始探索应用场景和商业模式,并建设相关技术平台。因此,数据治理成为了挖掘数据价值的重要手段和工具。但数据治理不仅需要完善的保障机制,还需要理解具体的治理内容,比如数据该怎么规范,元数据该怎么管理等。这些问题是数据治理过程中最实际也是最复杂的问题,今天我将从数据治理的各个核心领域来和大家分享一下云音乐在数据治理中的探索与实践。本文会围绕以下四个方面展开:音乐数仓概况数据规范埋点治理资产治理音乐数仓概况首先介转载 2021-11-09 11:34:02 · 891 阅读 · 0 评论 -
同程旅行Hadoop集群跨机房迁移实践
背景随着同程旅行业务和数据规模越来越大,原有的机房不足以支撑未来几年的扩容需求,同时老机房的保障优先级也低于新机房。为了不受限于机房的压力,公司决定进行机房迁移。为了尽快完成迁移,需要1个月内完成上百PB数据量的集群迁移,迁移过程不允许停止服务。目前HADOOP集群主要有多个2.X版本,2019年升级到联邦模式,目前有近20个namespace,80%的业务都与hdfs 相关,资源调度层主要依赖YARN集群,上游支撑数仓建设、算法分析、机器学习等多个业务板块。迁移方案目前同程旅行有多套HDFS集群转载 2021-11-03 10:10:36 · 438 阅读 · 0 评论 -
借助 Flink 与 Pulsar,BIGO 打造实时消息处理系统
摘要:本文整理自 BIGO Staff Engineer 陈航在 Flink Forward Asia 2020 分享的议题《借助 Flink 与 Pulsar,BIGO 打造实时消息处理系统》。主要内容包括:关于 BIGOBIGO 为什么会选择 Apache PulsarApache Pulsar 在 BIGO 中的角色BIGO 借助 Apache Pulsar 和 Flink 构造实时消息流处理系统未来计划一、关于 BIGO借助于大数据和人工智能技术,BIGO 基于视频的服务和产品获得转载 2021-10-22 09:25:40 · 122 阅读 · 0 评论 -
网易云音乐实时数仓2.0进阶之路
云音乐从2018年开始搭建实时计算平台,经过两年的发展实时计算已经渗透到云音乐的各个业务当中:运营需要实时的统计报表做精细化的运营算法同学需要实时的特征数据来提升推荐效果、需要实时的AB数据来降低试错成本搜索需要实时索引数据来提升线上搜索的效果业务开发需要实时的监控数据来第一时间响应线上的问题…发展到今天我们已经拥有开发者160+,线上任务运行任务数500+,单Kafka的峰值流量超过了400W+QPS,实时集群机器数量130+,而这还仅仅是开始,单单2020年Q1这段时间我们整体的机器以及转载 2021-10-15 10:03:33 · 213 阅读 · 0 评论 -
ClickHouse的Projection特性在快手的应用
ClickHouse的Projection原理解析本文是ClickHouse的Projection特性在快手的实际应用1.ClickHouse在快手OLAP的服务ClickHouse在快手内部是作为OLAP引擎,提供多集群架构,对于不同业务有不同的集群保障,上层是查询代理层,进行统一的查询管控和接入路由以及统一的监控服务,这样可以把ClickHouse“手动挡”应用模式逐步变成一个可用的服务,提供给用户。同时最底层的数据写入,由于ClickHouse的数据写入需要一些相关的知识,所以把ETL服务抽取转载 2021-09-07 17:45:02 · 1254 阅读 · 6 评论 -
有赞数据治理之路
导读:有赞是通过 SaaS 起家的,经过多年的数据沉淀,有大量数据,可以说是一家大数据公司,但是有赞的最终目标是成为 AI 公司。在这个阶段,数据积累到一定体量,数据治理是非常有必要的。数据治理的最终目的也是服务 AI、做智能应用,发挥数据的价值,而质量和成本是数据价值的核心所在。在有赞,是如何衡量质量好坏、成本高低的?又是如何依靠产品,结合运营的手段,提升质量,降低成本的?本文,为你揭晓。1. 数据治理是什么数据:复杂业务场景下,由系统或人沉淀下来的大数据治:为整治,关注数据质量,保障数据稳定性、原创 2021-08-16 16:31:54 · 362 阅读 · 0 评论 -
贝壳基于 Druid 的 OLAP 引擎应用实践
贝壳基于 Druid 的 OLAP 引擎应用实践导读:贝壳作为全国领先的房产交易和租赁在线服务平台,有很多业务场景会产出大量实时和离线数据,针对这些数据进行查询分析,对于企业发展和业务拓展至关重要。不同业务线不同查询场景下,单一技术手段很难满足业务方的需求,Druid 就是我们在探索之路上发现的比较切合业务方需求的 OLAP 引擎之一,基于 Druid 我们做了深入地实践,接下来就由我和业界朋友们一起分享。内容包括: 贝壳 OLAP 平台介绍 OLAP 技术选型策略 Druid 在贝原创 2021-07-21 10:29:33 · 292 阅读 · 1 评论