自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 数据仓库实践之业务数据矩阵的设计

怀疑有如草木之芽,从真理之根萌生... 0x00 概述 数据仓库的设计不能完全依赖于业务的需求,但又必须服务于业务的价值。那么,该如何地从业务的角度出发,设计一套切实可行的数据仓库呢? 本文将分享数据仓库实践中的业务数据矩阵的设计经验,帮助大家在工作中快速理解业务并规划数据仓库体系。 ...

2019-01-01 11:40:52 1671 0

原创 漫谈数据仓库和范式

0x00 概述 长期从事数据仓库的你,是否还记得数据库设计中的三大范式?在设计数据仓库的表时,是否考虑过规范化和反规范化之间的区别?是否想过数据仓库和数据库在设计中对范式考虑的侧重点是什么? 本文,将包含如下几个方面: 一起回顾数据库设计中经典的三大范式 聊一聊数据仓库和范式之...

2018-12-27 17:33:29 845 0

原创 一种通用的数据仓库分层方法

0x00 概述 数据分层是数据仓库设计中十分重要的一个环节,优秀的分层设计能够让整个数据体系更易理解和使用。而目前网络中大部分可以被检索到相关文章只是简单地提及数据分层的设计,或缺少明确而详细的说明,或缺少可落地实施的方案,或缺少具体的示例说明。 因此,本文将指出一种通用的数据仓库分层方法,具...

2018-12-27 17:31:21 2400 7

转载 数据运营系列(一):生存分析与用户行为如何联系起来

1.生存分析生存分析主要用于医学研究,比如医疗方案对病人寿命的影响。后面用来探究所感兴趣的事件的发生的时间的统计方法。比如产品的寿命分析、工程中的失败时间分析等等。这里病人死亡、产品淘...

2020-05-25 22:40:00 5 0

转载 学 Python 必看书单汇总

学 Python 看什么书?这是刚接触 Python 的朋友最疑惑的问题。今天就结合自己入门时的学习历程和大家来聊一聊如何入门 Python,为了更有说服性一些,这里我把入门时看过的一些...

2020-05-23 10:02:00 17 0

转载 【实践案例分享】菜鸟实时数仓技术架构演进

分享嘉宾:贾元乔 菜鸟高级数据技术专家编辑整理:夏飞飞内容来源:Flink Forward ASIA出品平台:DataFunTalk导读:在开源盛世的今天,实时数仓的建设已经有了较为成...

2020-05-21 08:00:00 24 0

转载 数据产品到底是干什么的?

在上篇文章“你的团队可能缺了一个数据产品经理!”后,有读者问:"数据产品是什么?数据经理是干嘛的?和业务产品经理的差别是什么?"所以这篇文章将就这个话题展开,内容分3部分...

2020-05-20 08:00:00 92 0

转载 【收藏】它绝对是最适合自学的Python教材!

《Python Data Science Handbook》是一本非常值得推荐和学习的Python教材,深受很多初学者和大佬的喜爱,并且获得豆瓣9.3分的好成绩。该书原作者是美国华盛顿大...

2020-05-19 07:47:28 58 0

转载 【实践案例分享】OPPO 实时数仓揭秘:从顶层设计实现离线与实时的平滑迁移...

摘要:单日总数据处理量超 10 万亿,峰值大概超过每秒 3 亿,OPPO 大数据平台研发负责人张俊揭秘 OPPO 基于 Apache Flink 构建实时数仓的实践,内容分为以下四个方面...

2020-05-19 07:47:28 74 0

转载 实战中,需求优先级怎么定

走过路过不要错过点击蓝字关注我们时光荏苒,转眼间来滴滴已经10个月了。十个月里也是受益匪浅。除了完成了19年入职之初迫切渴望的实打实做出来一些“数据驱动业务增长”的事情,还承蒙老板和对接...

2020-05-18 08:27:00 74 0

转载 新美大和阿里本地生活的竞争趋势是如何的?

上半年的时候,跟两位BA大厂VP级的老大哥聊起本地生活的业务,赶上最近阿里本地生活开了「商业操作系统」的发布会,正好规整下当时的一些判断,记录下来,当然我们说的也不一定对。本地生活这场仗...

2020-05-16 08:00:00 115 0

转载 浅谈实时数据开发

浅谈实时数据开发(一)技术路线图(二)典型应用场景电商平台大促期间成交金额;广告主实时报表(分钟级更新);实时反作弊;业务场景异常监控。(三)流式技术架构目前流式计算框架相对成熟,以St...

2020-05-15 08:02:00 32 0

转载 学习统计学必须掌握的几个核心概念

作者介绍@大师兄混迹数据江湖十余载。主要负责大数据商业变现和产品运营工作。“在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学。”...

2020-05-14 08:00:00 130 0

转载 知乎超高的12K赞回答!Java学到什么程度才能叫精通?

乔戈里是我的朋友,目前某BAT大厂工作,他在知乎上收获12K赞的Java面试手册(这赞数,质量多高就不用我多说了吧)非常全面,包涵Java基础、Java集合、JavaWeb、操作系统、计...

2020-05-14 08:00:00 42 0

原创 数据百问系列:数仓团队如何在繁重的需求中体现自己的价值?

数据百问系列:数仓团队如何在繁重的需求中体现自己的价值?0x00 前言本话题来自于群友罗丽叶在数据中台群中的提问:如何让数仓团队在繁重业务数据需求的情况下,依旧能熟悉业务和数据,进而为业...

2020-05-13 00:01:51 55 0

转载 认知环境,环境对产品的影响无孔不入

本文由菩提创作,本文仅菩提个人观点。一. 开 篇朋友问:“在互联网公司这么久,怎么撑下来的?”Hmm,糟心事真不少。成年人的世界,没有人轻轻松松。菩提那老夫聊发少年狂的豪情壮志,时常被...

2020-05-12 12:03:00 118 0

转载 数据分析的坑,都在统计学里埋过

此文为《赤裸裸的统计学》读后感,结合着一些互联网分析的知识来看,发现很多理念隐隐有互通之处,十分有趣。推荐大家阅读。为什么要了解统计学对于普罗大众来说,统计学应该会成为每人必备的常识,才...

2020-05-10 10:32:10 167 0

转载 PDF课件下载!《用Python玩转数据》

向大家推荐一个南京大学的公开课——用Python玩转数据授课老师张莉博士是南京大学计算机科学与技术系副教授,主要研究领域为数据挖掘和自然语言处理。张老师上课走亲切风冷幽默路线,跟同学们相...

2020-05-09 09:00:00 66 0

转载 【数据体系】- 深入浅出数据仓库

p2虾,一个不断自我抗争的人。0x00 前言说起数据仓库,未有了解的人应该会下意识的拆解为数据与仓库这两个词,形成通俗的印象,也就是装载数据的仓库。但是这样的解释难免有失偏颇,若数据仓库...

2020-05-09 09:00:00 88 0

转载 你的团队可能缺了一个数据产品经理!

数据产品经理今年特别火,市场上大有人鼓吹数据产品经理年收入几十万打底,疫情之下其他岗位收缩,唯数据产品经理独树一帜,不但高薪,还大量扩招。也有资深数据从业者吐槽,产品经理的分类里都没有一...

2020-05-08 18:46:53 54 0

原创 “浪”的量子力学解释

“浪”的量子力学解释0x00 前言这个五四青年节,小破站的一个《后浪》的视频引爆了两代人的网络论战,“前浪”们感慨,“这届年轻人不好带了!”“后浪”们觉得,“视频就不是真实的世界!”好吧...

2020-05-07 19:07:31 94 1

转载 实时数据架构&实时数据仓库,你到底了解多少?

随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要, 商场如战场,在每天产生的海量数据中,如何能实时有效的挖掘出有价值的信息, 对企业的决策运营策略调整有很大帮助。此外...

2020-05-06 08:55:37 355 0

转载 MLSQL系列 1:MLSQL介绍

MLSQL是一门标准的大数据/机器学习语言。MLSQL Engine是执行MLSQL语言的分布式引擎,通过Antlr4(后续文章会讲解)定义和解析MLSQL语法,并翻译为Spark代码,...

2020-05-04 17:26:05 82 0

原创 数据团队规划布局感悟(二)

0x00 前言 这篇内容承接了第一篇文章《数据团队规划布局感悟(一)》。在前公司的时候,因为同事经验都很丰富,大体都5年+,十年的也不乏其人,所以基本没有所谓管理,而在那个阶段,我更关注...

2020-05-04 17:26:05 74 0

转载 分享50篇实用数据分析文章

今天给大家推荐一个数据分析&挖掘领域的大牛:徐麟,毕业于哥伦比亚大学,之前在携程、唯品会等互联网公司从事担任高级数据分析师,同时创建了个人公众号数据森麟。数据森麟他在自己的公众号...

2020-05-03 09:46:28 103 0

转载 数据团队规划布局感悟(一)

前言记得今年一月份在杭州和W君漫步钱塘江赏霾,畅谈了两个小时,除了聊了[研发的两观,全局观和产品观](http://www.jianshu.com/p/339278c26f71), 也聊...

2020-05-02 12:02:11 107 0

转载 【实践案例分享】Jupyter在美团民宿的应用实践

美团民宿是美团旗下的民宿预定平台,专注为旅行者提供个性化民宿住宿体验,让年轻人“住得不一样”。本文将分享美团民宿团队的「Kaggle Kernels」——一个平台化的Jupyter,接入...

2020-05-01 08:16:46 143 0

转载 SQL思维 VS 编程思维

昨天看了一篇文章,里面有段话讲的比较务实:开发效率,从平台发展的各阶段实践中,我们发现,对于一个统计任务/算法任务/风控任务,如果采用传统的编程思维方式去实现,那么只能通过堆开发人员,去...

2020-04-30 00:10:39 107 0

原创 ​引入一项新技术前,我们该想清楚什么?

0x00 很多小伙伴在工作遇到一定瓶颈的时候,都希望引入一些新技术来解决问题,比如最近经常在群里看到大家聊:我们要准备搞数据湖了我们今年上半年的目标是构建公司级的数据中台我们准备招3个人...

2020-04-30 00:10:39 100 0

转载 下一个风口-基于数据湖架构下的数据治理

前言随着大数据、人工智能、云计算、物联网等数字化技术的普及和广泛应用,传统的数据仓库模式,在快速发展的企业面前已然显的力不从心。数据湖,是可以容纳大量的原始数据的存储库和处理系统,已经成...

2020-04-30 00:10:39 673 0

转载 商业分析师如何在项目中找到节奏

商业分析师的日常:对业务方的需求应接不暇?看了太多的数,评估了太多的价值,有业务反馈么?是不是经常在找存在感、成就感?本文主要带你梳理商业分析在项目中的定位,帮你找到更好的节奏!01商业...

2020-04-28 08:31:00 63 0

转载 【实践案例分享】Apache Flink在滴滴的应用与实践

导读:Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进行快速计算。滴滴基于 Apache Fl...

2020-04-28 08:31:00 55 0

转载 漫谈数据治理之计算与存储压力

漫谈数据治理之一:计算与存储压力背景概要做数据的同学都能够有体会,当我们做业务时间长了以后,数据表的数量就会变得庞大无比,很多过去的逻辑,如果负责的同学离职了,那么能再看懂它的人就很少了...

2020-04-26 20:00:57 89 0

转载 几种常用用户行为分析模型简述

一、常见用户行为分析模型 在数据分析的大框架下,通过对用户行为监测获得的数据进行分析研究的行为归结于用户行为分析。用户行为分析可以让产品更加详细、清楚地了解用户的行为习惯,从而找...

2020-04-26 20:00:57 79 0

转载 我是不是应该转行机器学习?

开始先说结论: 要不要转行,不妨先业余时间玩一把,看这个是不是真的适合自己,然后再去做决定。这篇文章谈及了我对机器学习的一些看法,希望能有所帮助。说个笑话上次在微博上看,说是马云说数据是...

2020-04-25 22:19:15 92 0

转载 我是业务,我投诉了数据团队

都说数据人很苦,可业务人也苦。不得已,我投诉了数据团队。案例1:做一张报表,换了5个BI背景:A负责的业务,以前业务指标单独计算、考核,不纳入公司整体业务大盘。后来业务体量大到足以影响公...

2020-04-25 22:19:15 95 0

转载 MLSQL解决了什么问题

目录0x00 前言0x01 数据中台的概念(让我们炒个概念)0x02 大数据研发同学看这里的痛点0x03 算法的同学看这里的痛点0x04 分析师同学的痛点看这里0x05 所有同学的痛点0...

2020-04-25 22:19:15 76 0

转载 新一代AI平台-MLSQL ,加入开源社区吧!

开源精神!技术情怀!这里有一份机会,让你参与到AI平台MLSQL的社区中,共同见证开源项目的成长!MLSQL, 专为大数据和AI设计的编程语言.General:MLSQL专为大数据和机器...

2020-04-25 22:19:15 53 0

转载 【收藏】数据中台的起源与疑惑

数据中台的起源与疑惑“中台”某种意义上是一个正宗的中国概念,早在2015年,马老师访问过北欧的Supercell游戏公司之后,便提出了这个概念。随之而来的,是阿里带动的“大中台、小前台...

2020-04-24 09:14:00 106 0

转载 【实践案例分享】阿里文娱智能营销增益模型 ( Uplift Model ) 技术实践

导读:随着移动互联网和人工智能技术的发展,智能化营销正渗透到各行各业。如何衡量和预测营销干预带来的"增量提升",而不把营销预算浪费在"本来就会转化"的那部...

2020-04-24 09:14:00 215 0

提示
确定要删除当前文章?
取消 删除