大数据实战项目
文章平均质量分 93
关于大数据的实战项目,都在这里!
大数据梦想家
专注与研究大数据基础,理论,架构与原型实现。
个人原创公众号「 大数据梦想家 」,每日更新大数据干货,欢迎上车!
一天的生活就是一生的缩影。在最美的年华,做最好的自己!!!
展开
-
多标签用户画像分析跑得快的关键在哪里?
多用户画像分析跑得慢,彻底解决!原创 2022-07-26 12:46:50 · 2028 阅读 · 7 评论 -
实时分析数据库 Druid,Mark 一下
这跟阿里Druid,可不是一个项目!原创 2021-04-07 11:40:43 · 5104 阅读 · 11 评论 -
从 0 到 1 学习 Presto,这一篇就够了
前言 Presto 作为现在在企业中流行使用的即席查询框架,已经在不同的领域得到了越来越多的应用。本期内容,我就从一个初学者的角度,带着大家从 0 到 1 学习 Presto,希望大家能够有所收获!Presto简介1. Presto概念 Presto是 Facebook 推出的一个开源的分布式SQL查询引擎,原创 2021-03-14 14:09:09 · 15903 阅读 · 61 评论 -
用户画像 | 标签数据存储之Elasticsearch真实应用
本文已收录github:https://github.com/BigDataScholar/TheKingOfBigData,里面有大数据高频考点,Java一线大厂面试题资源,上百本免费电子书籍,作者亲绘大数据生态圈思维导图…持续更新,欢迎star!前言 上一篇文章已经为大家介绍了 HBase 在用户画像的标签数据存储中的具体应用场景,本篇我们来谈谈 Elasticsearch 的使用!Elastics.原创 2021-02-24 23:44:53 · 6254 阅读 · 31 评论 -
用户画像 | 标签数据存储之HBase真实应用
本文已收录github:https://github.com/BigDataScholar/TheKingOfBigData,里面有大数据高频考点,Java一线大厂面试题资源,上百本免费电子书籍,作者亲绘大数据生态圈思维导图…持续更新,欢迎star!前言 上一篇文章已经为大家介绍了 MySQL 在用户画像的标签数据存储中的具体应用场景,本篇我们来谈谈 HBase 的使用!原著作者:赵宏田来源:《用户.原创 2021-02-22 23:45:42 · 3461 阅读 · 2 评论 -
用户画像 | 标签数据存储之MySQL真实应用
前言 上一篇文章已经为大家介绍了Hive在用户画像的标签数据存储中的具体应用场景,本篇我们来谈谈MySQL! MySQL作为关系型数据库,在用户画像中可用于元数据管理、监控预警数据、结果集存储等应用中。下面详细介绍这3个应用场景。元数据管理 &原创 2021-02-22 00:20:12 · 3231 阅读 · 0 评论 -
用户画像 | 标签数据存储之Hive真实应用
前言 小伙伴们大家好呀,趁着年假的几天时间,我写了一篇 Elacticsearch 从0到1的“长篇大作”,现在还在排版,相信很快就会与大家见面了!关于系统学习用户画像,之前已经分享过2篇文章了,分别是《超硬核 | 一文带你入门用户画像》和《用户画像 | 开发性能调优》,收到的读者反馈还不错!本期文章,我借《用户画像方法论》一书,为大家分享在用户画像系统搭建的过程中,数据存储技术基于不同场景的使用。考虑到 篇幅的原创 2021-02-21 11:04:14 · 3989 阅读 · 4 评论 -
用户画像 | 开发性能调优
前言 马上就快过年了,祝福小伙伴们牛年大吉,牛气冲天。本期文章分享的是赵老师在《方法论与工程化解决解决方案》一书中提到的关于如何在用户画像项目开发中进行性能调优的例子,希望大家耐心看完后有所收获!一、数据倾斜调优 数据倾斜是开发画像过程中常遇到的问题,当任务执行一直卡在map 100%、reduce 99%,最后原创 2021-02-08 22:13:27 · 3503 阅读 · 26 评论 -
超硬核 | 一文带你入门用户画像
前言 之前开发过一个画像项目,并为大家介绍了项目过程中标签开发的细节,但是后来考虑到对于没有画像开发经验,尤其是零基础的大数据小白而言不是很友好,理解起来也不是很容易。正好最近在看赵宏田老师的《用户画像方法论与解决方案》,所以,我又专门开了一个专题,打算重新为大家讲解关于用户画像的知识。感兴趣的小伙伴记得关注加星标,每天第一时间收获技术干货!1. 用户画像是什么? &nb原创 2021-01-20 14:02:42 · 3951 阅读 · 55 评论 -
基于 flink 的电商用户行为数据分析【9】| 电商常见指标汇总 + 项目总结
本篇是flink 的「电商用户行为数据分析」的第 9 篇文章,也是该系列的最后一篇,为大家带来电商常见的指标汇总和对前8篇文章做一个的阶段性的总结,并融入一些我自己的思考,希望大家能够从中受益,感谢阅读!电商指标整理有关"人"的指标客服指标名词名词解释询单量下单前来询问客服的客户总数询单转换率(转化率= 成单数/来访量转化率)影响的因素有:宝贝描述(宝贝图片优化和描原创 2020-12-17 01:00:53 · 6499 阅读 · 40 评论 -
基于 flink 的电商用户行为数据分析【8】| 订单支付实时监控
本篇是flink 的「电商用户行为数据分析」的第 8 篇文章,为大家带来的是市场营销商业指标统计分析之订单支付实时监控的内容!通过本期内容,我们可以实现通过使用CEP和Process Function来实现订单支付实时监控的功能,还能学会通过connect和join来实现flink双流join的功能,可谓干货满满!...原创 2020-12-14 22:39:30 · 5064 阅读 · 30 评论 -
基于 flink 的电商用户行为数据分析【7】| 页面广告分析
本篇是flink 的「电商用户行为数据分析」的第 7 篇文章,为大家带来的是市场营销商业指标统计分析之页面广告分析的内容。通过本期内容,我们可以实现页面广告点击量统计和黑名单过滤的功能。页面广告分析 电商网站的市场营销商业指标中,除了自身的APP推广,还会考虑到页面上的广告投放(包括自己经营的产品和其它网站的广告原创 2020-12-12 15:21:32 · 1945 阅读 · 0 评论 -
基于 flink 的电商用户行为数据分析【6】| APP市场推广统计
前言 本篇是flink 的「电商用户行为数据分析」的第6篇文章,为大家带来的是市场营销商业指标统计分析之APP市场推广统计的内容,通过本期内容的学习,你同样能够学会处理一些特定场景领域下的问题。话不多说,我们直入正题!...原创 2020-12-12 01:01:22 · 1809 阅读 · 0 评论 -
基于 flink 的电商用户行为数据分析【5】| 基于埋点日志数据的网络流量统计
前言 在《基于flink的电商用户行为数据分析【3】| 实时流量统计》这篇文章中,博主为大家介绍了基于服务器 log 的热门页面浏览量统计。 最后通过运行结果的验证,我们发现,从 web 服务器 log 中得到的 url,往往更多的是请求某个资源地址(/*.js、/*.css),如果要针对页面进行统计往往还需要进行过滤。而在实际电商应用中,相比每个单独页面的访问量,我们可能更加关心整个电商网站的网络流量。这个指标原创 2020-12-08 00:19:56 · 2970 阅读 · 31 评论 -
基于flink的电商用户行为数据分析【4】| 恶意登录监控
基于flink的电商用户行为数据分析之【恶意登录监控】,另附超强 CEP 讲解,真的不点进来学习一下吗!!!原创 2020-11-28 19:38:39 · 5909 阅读 · 30 评论 -
基于flink的电商用户行为数据分析【3】| 实时流量统计
前言 在上一期内容中,菌哥已经为大家介绍了实时热门商品统计模块的功能开发的过程(????基于flink的电商用户行为数据分析【2】| 实时热门商品统计)。本期文章,我们要学习的是实时流量统计模块的开发过程。 模块创建和数据准备原创 2020-11-27 23:42:42 · 3030 阅读 · 0 评论 -
基于flink的电商用户行为数据分析【2】| 实时热门商品统计
前言 在上一期内容中,菌哥已经为大家介绍了电商用户行为数据分析的主要功能和模块介绍。本期内容,我们需要介绍的是实时热门商品统计模块的功能开发。...原创 2020-11-24 23:50:15 · 3765 阅读 · 3 评论 -
基于flink的电商用户行为数据分析【1】| 项目整体介绍
前言 愉悦的一周又要开始了,本周菌哥打算用几期文章为大家分享一个之前在B站自学的一个项目——基于flink的电商用户行为数据分析。本期我们先对项目整体功能和模块做一个介绍。 正式介绍项目整体之前,我们来探讨一下批处理和流处理技术。批处理 VS 流处理 &原创 2020-11-22 21:51:01 · 5814 阅读 · 68 评论 -
大数据【企业级360°全方位用户画像】基于USG模型的挖掘型标签开发
在上一篇博客,博主已经为大家简单地介绍了USG模型和决策树????《大数据【企业级360°全方位用户画像】之USG模型和决策树分类算法》。本篇博客,我们需要利用决策树算法,对用户画像中,处于USG模型下的用户的购物性别标签进行开发。添加标签 在开发标签之前,我们需要先在用户画像的系统中添加我们所需要使用到的标签和原创 2020-07-04 15:29:27 · 3755 阅读 · 31 评论 -
大数据【企业级360°全方位用户画像】之USG模型和决策树分类算法
在之前的一篇博客《大数据【企业级360°全方位用户画像】之RFM模型和KMeans聚类算法》中,博主为大家带来了KMeans聚类算法的介绍。并在之后,基于不同的模型开发标签,例如RFM,RFE,PSM,都使用到了KMeans算法。 本篇博客,我们来认识一种叫做USG的模型,并为大家简单介绍下关于决策树算法原理和实现。原创 2020-07-04 11:55:13 · 4441 阅读 · 29 评论 -
一文带你揭秘并实现“大数据杀熟”背后的逻辑!
写在前面: 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。.原创 2020-06-27 15:41:43 · 15023 阅读 · 47 评论 -
大数据【企业级360°全方位用户画像】基于RFE模型的挖掘型标签开发
上一篇博客,已经为大家介绍了基于RFM(用户价值模型)的挖掘型标签开发过程(????大数据【企业级360°全方位用户画像】基于RFM模型的挖掘型标签开发),本篇博客,我们来学习基于RFE(用户活跃度模型)的挖掘型标签开发。文章目录RFE模型引入RFE详解基于RFE模型的实践应用具体代码实现知识拓展小结RFE模型引入 &nb原创 2020-06-25 21:17:01 · 6298 阅读 · 22 评论 -
关于机器学习的面试题,你又了解多少呢?
前面已经陆续分享了几篇关于机器学习的博客,相信刚接触这个领域的朋友们肯定是比较感兴趣的,那么本篇博客让博主为大家介绍一些关于机器学习常见的面试题吧~文章目录1、为什么需要对数值类型的特征做归一化?2、类别型特征如何处理的?3、距离/相似度如何计算?4、K-Means算法的缺陷和优点是什么?5、K-Means算法的应用场景6、K-Means算法如何确定K值?7、K-Means算法实现-伪代码8、还有哪些其他的聚原创 2020-06-25 09:25:35 · 9824 阅读 · 18 评论 -
大数据【企业级360°全方位用户画像】基于RFM模型的挖掘型标签开发
在前面的几篇博客中,博主不仅为大家介绍了匹配型标签和统计型标签的开发流程,还为大家科普了关于机器学习的一些"干货",包括但不限于KMeans算法等…本篇博客,我们将正式开发一个基于RFM模型的挖掘型标签,对RFM不了解的朋友可以????大数据【企业级360°全方位用户画像】之RFM模型和KMeans聚类算法~ 我们原创 2020-06-23 22:59:50 · 6300 阅读 · 24 评论 -
大数据【企业级360°全方位用户画像】之RFM模型和KMeans聚类算法
在上一篇博客《一文带你硬核踏入机器学习的大门》中,已经为大家介绍了很多关于机器学习的基础内容。本篇博客,我们将结合当前阶段正在做的用户画像项目,为大家介绍RFM模型和KMeans聚类算法。 先赞后看,养成习惯!文章目录一、RFM模型引入1、RFM详解1.1 R值:最近一次消费(Recency)1.2 F值:消费频率原创 2020-06-20 16:48:25 · 7202 阅读 · 28 评论 -
一文带你硬核踏入机器学习的大门!
有几天没更博客了,主要这几天一直忙着知识回顾和投简历,所以写博客的任务就一直被耽搁了。 言归正传,前面已经为大家介绍了用户画像项目中匹配型和统计型标签的一个开发流程。按照正常的进度,接下来将为大家带来的是挖掘型标签的开发。但由于挖掘型标签开发过程中会涉及到机器学习等新内容,所以,本篇我们先来简单学习一下,对机器学习有一原创 2020-06-20 11:53:42 · 6800 阅读 · 54 评论 -
大数据【企业级360°全方位用户画像】标签开发代码抽取
写在前面: 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。.原创 2020-06-14 21:01:58 · 5330 阅读 · 16 评论 -
大数据【企业级360°全方位用户画像】统计型标签开发
在初次介绍用户画像项目的时候我们谈到过,按照实现方式,标签可以分为匹配型,统计型和挖掘型。之前已经为大家介绍了关于用户画像项目中匹配型标签的开发流程。 具体请见???? 大数据【企业级360°全方位用户画像】匹配型标签累计开原创 2020-06-14 18:54:23 · 5537 阅读 · 18 评论 -
大数据【企业级360°全方位用户画像】匹配型标签累计开发
写在前面: 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。.原创 2020-06-08 21:19:43 · 6020 阅读 · 36 评论 -
大数据【企业级360°全方位用户画像】匹配型标签开发
写在前面: 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。.原创 2020-06-06 20:23:33 · 5886 阅读 · 3 评论 -
大数据【企业级360°全方位用户画像】业务数据调研及ETL
写在前面: 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。.原创 2020-06-06 14:48:01 · 6267 阅读 · 13 评论 -
大数据【企业级360°全方位用户画像】标签系统介绍
在前面几篇博客中,博主已经为大家带来了什么是用户画像,以及项目的一个基础介绍。用户画像的核心就是打标签,本篇博客,我们来聊聊关于这个项目的标签系统。文章目录1. 标签系统1.1 基础标签1.1.1、概览:基础标签1.1.2、新建:主分类标签1.1.3、新建:业务标签1.1.4、存储:标签数据1.1.5、新建:5级标签1.1.6、总述:新建标签1.2、组合标签1.3、微观画像1.4、标签查询小结1. 标签系原创 2020-06-06 09:42:27 · 10879 阅读 · 31 评论 -
大数据【企业级360°全方位用户画像】项目介绍
在正式开始对【企业级用户画像】项目展开介绍之前,博主可是煞费苦心,为大家整理了一期,如何彻底理解什么是用户画像(????一文让你彻底明白,到底什么是用户画像?)。如果确实帮到您了,不妨给博主一个大大的赞|ू・ω・` ) 接下来,正式开始对该项目的介绍…文章目录项目介绍功能模块技术架构标签梳理标签定义依据标签体系需求原创 2020-06-01 18:19:28 · 10574 阅读 · 42 评论 -
一文让你彻底明白,到底什么是用户画像?
写在前面: 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。.原创 2020-05-29 20:35:00 · 10955 阅读 · 63 评论 -
仅需7步带你深入理解【大数据】数仓设计
之前做过一个大数据离线数仓项目,然后写下了一篇总结????大数据实战【千亿级数仓】项目总结。那一篇博客主要针对方向是项目本身,那如果我们把眼光放远,讨论的方向放到数仓设计上面,那该如何总结呢? 不用担心,本篇博客将告诉你答案!文章目录① 构建数据仓库的基础 (前提)② 基于大数据平台构建数仓③ 仓库架构设计原则④原创 2020-05-28 16:01:53 · 10900 阅读 · 46 评论 -
大数据实战【千亿级数仓】项目总结
前段时间做过一个大数据离线数仓的项目,前后花了有好几周的时间。一共是6个阶段,想关注阶段细节的朋友可以查看????大数据实战项目这个专栏。 现在项目结束了,理应对此进行一个总结,好好回顾一下这个项目中遗漏的细节…文章目录项目架构技术选型数据来源数据存储数据同步计算模型结果存储加速查询结语项目架构① 原始数据原创 2020-05-21 23:01:47 · 17735 阅读 · 59 评论 -
大数据实战【千亿级数仓】阶段六
本篇博客,博主为大家带来的是大数据实战【千亿级数仓】的阶段六,也就是最后一个阶段。文章目录用户行为日志1 .日志数据格式2 .数据仓库-ETL处理点击流概念点击流模型pageviews3. 数据入库1. 创建ODS层数据表1.1 原始日志数据表1.2 点击流模型1.3 点击流visit模型表 通过在阶段一就已经原创 2020-05-20 23:58:36 · 10949 阅读 · 20 评论 -
大数据实战【千亿级数仓】阶段五
本篇博客,为大家带来的是关于大数据实战【千亿级数仓】阶段五的内容。 该阶段中我们需要达成的目标有:学习、掌握kylin的使用,使用kylin,为数据仓库内的数据进行预计算 关于Kylin的入门及使用安装,具体的内容可原创 2020-05-20 23:57:44 · 10111 阅读 · 22 评论 -
大数据实战【千亿级数仓】阶段四
本篇博客,博主为大家带来的是关于大数据实战【千亿级数仓】阶段四的内容。文章目录用户订单指标业务开发1. 需求分析2. 创建dw层表2.1创建itcast_dw.dim_user表2.2 创建订单临时表tmp_order_wide2.3 创建订单时间标志宽表tmp_order_datetag_wide2.4 创建订单时间标志、地址标志宽表 fact_order_wide3. 订单宽表ETL处理3.1 加载用户维原创 2020-05-20 21:58:54 · 11114 阅读 · 29 评论 -
大数据实战【千亿级数仓】阶段三
写在前面: 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。.原创 2020-05-12 20:48:00 · 11450 阅读 · 18 评论