数据分析与数据可视化篇_有猫腻妖的博客-CSDN博客

数据分析与数据可视化篇

关注

本篇全部内容全部只用于学习，仅供参考，如用于商业发生商业纠纷，后果自负，一切与本人无关

关注数：文章数：8 文章阅读量：129758 文章收藏量：29

作者: 有猫腻妖

网络爬虫中级工程师，主要研究方向网络爬虫，数据分析，数据挖掘，数据可视化，物联网应用，后端开发，人工智能擅长python语言，精通java，Android，C#,C，JavaScript 欢迎各位大佬友好交流，大家相互进步

展开

数据分析指标

RFM模型RFM模型是一种通过客户的R消费间隔（Recency）、F消费频率（Frequency）、M消费金额（Monetary）三项指标来衡量客户价值的手段。BDI和CDI指数BDI是指品牌发展指数计算公式 = 地区品牌发展 / 全国品牌发展 * 100CDI是指品类发展指数计算公式 = 地区品类发展 / 全国品类发展 * 100ROI模型ROI指的是投资而应返回的价值，也就是投资回报率计算公式 = (税前年利润 / 投资总额 ) * 100LTV模型LTV指的是生命周期价值，也

原创 2022-03-09 16:53:00 · 781 阅读 · 0 评论
matplotlib画图与seaborn

Matplotlib常用的可视化作图1、散点图import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns#数据准备N = 1000x = np.random.randn(N)y = np.random.randn(N)#用matplotlib画散点图plt.scatter(x,y,marker='x')plt.show()#用seaborn画散点图df = p

原创 2021-06-27 19:15:46 · 18632 阅读 · 3 评论
怎么搭建可视化BI数据平台（下）

怎么搭建可视化BI数据平台（下）1、开源BI平台superset搭建由于笔者用Win10安装superset一直失败，就转战用anaconda来创建虚拟环境来安装按照这篇博客来，过程还是挺顺利的附录:flaskwtforms_jsonflask_appbuilderflask_compressflask_migrateflask_talismanflask_cachingemail_validatorcelerysqlparsebleachmarkdownnumpyp

原创 2020-10-23 09:51:59 · 18242 阅读 · 2 评论
BI平台：怎么进行报表的开发和搭建

BI平台：怎么进行报表的开发和搭建1、指标体系搭建搭建指标体系主要关注点：明确解决的问题：1、异常波动归因，2、数据策略监控，基础指标定义：1、低活跃用户、高活用户应当如何定义？2、流失用户又应当如何定义？数据维度划分：1、用户画像的标签，2、产品分类，既不同产品线的分类2、BI是什么BI是一个平台BI平台=数据仓库+报表/OLAP服务数据仓库最重要的环节是数据分层3、报表生产的主要问题数据工程问题数据准确性问题、数据分层问题、数据及时生产问题、错误数据的修复问

原创 2020-10-22 17:21:49 · 20890 阅读 · 0 评论
初识spark

初始spark含义：基于内存计算的大数据并行计算框架优势：快应用范围：广告业务，准实时报表spark专用编程语言Scalascala使用函数式编程思维来开发程序，门槛比java高Scala核心：RDD,RDD全称为弹性分布式数据集spark数据处理的基本流程：先创建RDD，然后对RDD进行数据处理map(func)：通过 func 函数，对 RDD 数据转换生成新 RDD，可以简单理解为 Python 中 lambda 函数。filter(func)：对于原有 RDD 中，满

原创 2020-10-22 17:18:18 · 17580 阅读 · 0 评论
主流的OLAP技术

主流的OLAP技术信息数据：从原始数据中转化出来的，能够真正为用户所理解并真实反映企业多维度特性的数据OLAP的官方定义：使分析人员、管理人员或执行人员能够从多种角度对信息数据进行快速、一致、交互存取，以获得对数据更深入了解的一类软件技术OLAP的优点：充分降低数据分析的使用门槛，大大降低数据挖掘的成本Druid:PB级别大数据的实时数据分析（快速查询、水平扩展、实时分析）应用场景：点击流分析，风险/欺诈分析，网络性能监控，服务器指标存储，供应链分析，应用程序性能指标，商业智能/OLAP在

原创 2020-10-20 08:28:34 · 17791 阅读 · 1 评论
数据分析之Hive篇

数据分析之Hive篇Hive基于Hadoop的数据仓库工具支持SQL查询功能1、创建表我们先创建内部表2、Hive的复合类型数据用法：map、array、json如何提高hive的执行效率，先将多个小文件合并如何避免数据倾斜，使得我们提高执行效率怎么控制reduce数量，防止它数量过大或过小直接控制reduce数量，500就是500个reduce...

原创 2020-10-20 08:25:17 · 17930 阅读 · 0 评论
数据分析的入门技巧

数据分析的入门技巧1、Excel表，其中Excel表最常用的是vlookup函数及透视表功能1.在vlookup的基本使用（快速匹配，连续数值分段）2.Excel透视表（完成数据的分组统计、排序、求平均、行列计算占比等常用数据分析功能）小结：动手实践>遇到问题>网上搜索>官网help>再实践>记录核心技巧案例2、 Hive SQL篇两个重要常用技巧:行列互转和row_number函数行列互转：指的是把一行拆成多行或者把多行按照某种条件聚合为一行1.行转列用法

原创 2020-10-18 15:14:58 · 17918 阅读 · 0 评论

数据分析与数据可视化篇

作者: 有猫腻妖

数据分析指标

matplotlib画图与seaborn

怎么搭建可视化BI数据平台（下）

BI平台：怎么进行报表的开发和搭建

初识spark

主流的OLAP技术

数据分析之Hive篇

数据分析的入门技巧