自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

不才伟才的博客

个人技术知识库 | 大数据 | 数据仓库 | 数据治理 | OLAP | 流批一体 | 数据湖

  • 博客(9)
  • 资源 (4)
  • 收藏
  • 关注

原创 简单剖析OLAP异域猛兽——ClickHouse设计思路

ClickHouse 是一个用于联机分析 (OLAP) 的列式数据库管理系统 (DBMS)。异域是因为它来自俄罗斯,Yandex 公司,这家公司是俄罗斯本土搜索引擎企业,原本是为了分析自家的 Web 流量而开发的一款产品 ,后来经过演变,逐渐形成为现在的 ClickHouse,全称是:Click Stream,Data WareHouseClickHouse 官网它具有 ROLAP、在线实时查询、完整的 DBMS 功能支持、列式存储、不需要任何数据预处理、支持批量更新、拥有非常完善的 SQ...

2021-10-19 16:19:32 372

转载 Hive SQL迁移Spark SQL在网易传媒的实践

引言:把基于mapreduce的离线hiveSQL任务迁移到sparkSQL,不但能大幅缩短任务运行时间,还能节省不少计算资源。最近我们也把组内2000左右的hivesql任务迁移到了sparkSQL,这里做个简单的记录和分享,本文偏重于具体条件下的方案选择。

2021-10-19 10:01:21 411

转载 京东 ClickHouse 高可用实践

转载于京东 ClickHouse 高可用实践 – 过往记忆 分享嘉宾:李海波,京东OLAP机构师导读:京东OLAP采取ClickHouse为主Doris为辅的策略,有3000台服务器,每天亿次查询万亿条数据写入,广泛服务于各个应用场景,经过历次大促考验,提供了稳定的服务。本文介绍了ClickHouse在京东的高可用实践,包括选型过程、集群部署、高可用架构、问题和规划。一、应用场景和选型京东数据分析的场景非常多,在交易、流量、大屏、用户分析和算法等多场景中采用到了OLAP技术。那么在应...

2021-10-19 09:42:39 540

原创 分布式消息队列Kafka,收藏这篇文章就够了

分布式消息队列Kafka,收藏这篇文章就够了一、kafka是什么?MQ是一个消息中间件,可以在服务器之间进行通信。常见的消息队列模式点对点Queue:一个消息只能被一个消费者接收发布与订阅Topic:一个消息可以被订阅了该主题的多个消费者接收常见的消息队列产品activeMQ,activeMQ可以做到事务的支持,为了数据的严谨性,业务系统一般选择activeMQrabbitMQzeroMQrocketMQkafka 只有订阅与发布kafka是一个分布式消息队列中间件,跟传统的

2021-10-18 16:50:19 463

原创 常考SQL场景之小鹏汽车充电每辆车连续快充次数

今天手撕小鹏汽车每辆车连续快充次数题场景小鹏汽车充电有两种类型,快充、慢充,有如下数据:车辆ID 充电时间 充电类型 a 20200601 19:21:09 1a 20200611 11:30:09 1a 20200621 21:10:09 0a 20200701 19:01:09 1a 20200701 20:30:09 1a 20200701 21:00:09 0a

2021-10-12 17:02:12 851 2

原创 一文搞掂十大经典排序算法

一文搞掂十大经典排序算法今天整理一下十大经典排序算法。1、冒泡排序——越小的元素会经由交换慢慢“浮”到数列的顶端算法演示算法步骤比较相邻的元素。如果第一个比第二个大,就交换它们两个;对每一对相邻元素作同样的工作,从开始第一对到结尾的最后一对,这样在最后的元素应该会是最大的数;针对所有的元素重复以上的步骤,除了最后一个;重复步骤1~3,直到排序完成。算法实现def bubbleSort(arr): for i in range(1, len(arr)): f

2021-10-12 00:50:27 19158 16

原创 经典SQL之留存率

什么是留存率n日留存率 = 第n天还在登录的用户数/新增的用户数如:假如某日新增了100个用户,第2天登录了50个,则第2天留存率为50/100=50%,第3天登录了30个,则第3天留存率为30/100=30%,以此类推,第7天登录了10个用户,则7日留存率就是10/100=10%。表drop table if exists tmp_db.user_login_details;create table tmp_db.user_login_details (Userid int -- 用户ID

2021-10-09 18:42:40 3526

转载 领域建模在有赞客户领域的实践

以下文章来源于有赞coder,作者有赞技术作者:Joker一、What’s DDD?从定义入手DDD全称Domain-Driven Design,即领域驱动设计,由Eric Evans于2003年提出。那既然是一种设计方法,ddd的作用对象是什么呢?这个问题光从定义是看不出来的,我们再往下看看。换一个更高的视角我们在谈论到架构设计的时候,可以简化为三个层面:系统架构、技术架构和业务架构,这三者从三个不同的视角来描述我们的系统。系统架构关注系统的架构分层,技术架构决定使用的技术栈和框架。而作为一个偏

2021-10-08 16:29:25 703

原创 经典SQL之连续3天登陆

经典SQL1——连续3天登陆无论大厂还是小厂,在SQL题面试中,面试官都很喜欢问连续3天登陆,那么今天就来手撕一下建表在Hive中简单建表drop table if exists user_login_details_last_3_day;create table user_login_details_last_3_day (Userid int ,login_date date)插入临时数据简单插入几条测试数据insert overwrite table user_login_de

2021-10-08 11:19:19 7838

DDD领域驱动设计day03.pdf

DDD 领域建模

2021-10-09

DDD领域驱动设计day02.pdf

DDD 领域建模

2021-10-09

DDD领域驱动设计day01.pdf

DDD领域建模

2021-10-09

构建企业级数仓-Hadoop可行性分析报告.docx

本文档是基于传统数仓转型到大数据平台(Hadoop)的分析报告,主要分为引言,可行性研究前提,对现有数据仓库的分析,Hadoop可行性分析,数据同步,数据处理与计算,可选方案,社会因素方面可行性等内容

2020-04-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除