![](https://img-blog.csdnimg.cn/20201021153932842.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据分析与数据可视化篇
本篇全部内容全部只用于学习,仅供参考,如用于商业发生商业纠纷,后果自负,一切与本人无关
有猫腻妖
网络爬虫中级工程师,主要研究方向网络爬虫,数据分析,数据挖掘,数据可视化,物联网应用,后端开发,人工智能
擅长python语言,精通java,Android,C#,C,JavaScript
欢迎各位大佬友好交流,大家相互进步
展开
-
数据分析指标
RFM模型RFM模型是一种通过客户的R消费间隔(Recency)、F消费频率(Frequency)、M消费金额(Monetary)三项指标来衡量客户价值的手段。BDI和CDI指数BDI是指品牌发展指数计算公式 = 地区品牌发展 / 全国品牌发展 * 100CDI是指品类发展指数计算公式 = 地区品类发展 / 全国品类发展 * 100ROI模型ROI指的是投资而应返回的价值,也就是投资回报率计算公式 = (税前年利润 / 投资总额 ) * 100LTV模型LTV指的是生命周期价值 ,也原创 2022-03-09 16:53:00 · 781 阅读 · 0 评论 -
matplotlib画图与seaborn
Matplotlib常用的可视化作图1、散点图import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns#数据准备N = 1000x = np.random.randn(N)y = np.random.randn(N)#用matplotlib画散点图plt.scatter(x,y,marker='x')plt.show()#用seaborn画散点图df = p原创 2021-06-27 19:15:46 · 18632 阅读 · 3 评论 -
怎么搭建可视化BI数据平台(下)
怎么搭建可视化BI数据平台(下)1、开源BI平台superset搭建由于笔者用Win10安装superset一直失败,就转战用anaconda来创建虚拟环境来安装按照这篇博客来,过程还是挺顺利的附录:flaskwtforms_jsonflask_appbuilderflask_compressflask_migrateflask_talismanflask_cachingemail_validatorcelerysqlparsebleachmarkdownnumpyp原创 2020-10-23 09:51:59 · 18242 阅读 · 2 评论 -
BI平台:怎么进行报表的开发和搭建
BI平台:怎么进行报表的开发和搭建1、指标体系搭建搭建指标体系主要关注点:明确解决的问题:1、异常波动归因,2、数据策略监控,基础指标定义:1、低活跃用户、高活用户应当如何定义?2、流失用户又应当如何定义?数据维度划分:1、用户画像的标签,2、产品分类,既不同产品线的分类2、BI是什么BI是一个平台BI平台=数据仓库+报表/OLAP服务数据仓库最重要的环节是数据分层3、报表生产的主要问题数据工程问题 数据准确性问题、数据分层问题、数据及时生产问题、错误数据的修复问原创 2020-10-22 17:21:49 · 20890 阅读 · 0 评论 -
初识spark
初始spark含义:基于内存计算的大数据并行计算框架优势:快应用范围:广告业务,准实时报表spark专用编程语言Scalascala使用函数式编程思维来开发程序,门槛比java高Scala核心:RDD,RDD全称为弹性分布式数据集spark数据处理的基本流程:先创建RDD,然后对RDD进行数据处理map(func):通过 func 函数,对 RDD 数据转换生成新 RDD,可以简单理解为 Python 中 lambda 函数。filter(func):对于原有 RDD 中,满原创 2020-10-22 17:18:18 · 17580 阅读 · 0 评论 -
主流的OLAP技术
主流的OLAP技术信息数据:从原始数据中转化出来的,能够真正为用户所理解并真实反映企业多维度特性的数据OLAP的官方定义:使分析人员、管理人员或执行人员能够从多种角度对信息数据进行快速、一致、交互存取,以获得对数据更深入了解的一类软件技术OLAP的优点:充分降低数据分析的使用门槛,大大降低数据挖掘的成本Druid:PB级别大数据的实时数据分析(快速查询、水平扩展、实时分析)应用场景:点击流分析,风险/欺诈分析,网络性能监控,服务器指标存储,供应链分析,应用程序性能指标,商业智能/OLAP在原创 2020-10-20 08:28:34 · 17791 阅读 · 1 评论 -
数据分析之Hive篇
数据分析之Hive篇Hive基于Hadoop的数据仓库工具支持SQL查询功能1、创建表我们先创建内部表2、Hive的复合类型数据用法:map、array、json如何提高hive的执行效率,先将多个小文件合并如何避免数据倾斜,使得我们提高执行效率怎么控制reduce数量,防止它数量过大或过小直接控制reduce数量,500就是500个reduce...原创 2020-10-20 08:25:17 · 17930 阅读 · 0 评论 -
数据分析的入门技巧
数据分析的入门技巧1、Excel表,其中Excel表最常用的是vlookup函数及透视表功能1.在vlookup的基本使用(快速匹配,连续数值分段)2.Excel透视表(完成数据的分组统计、排序、求平均、行列计算占比等常用数据分析功能)小结:动手实践>遇到问题>网上搜索>官网help>再实践>记录核心技巧案例2、 Hive SQL篇两个重要常用技巧:行列互转和row_number函数行列互转:指的是把一行拆成多行或者把多行按照某种条件聚合为一行1.行转列用法原创 2020-10-18 15:14:58 · 17918 阅读 · 0 评论