奋斗小椰子-CSDN博客

原创 17_RFM用户分群

会员价值度用来评估用户的价值情况，是区分会员价值的重要模型和参考依据，也是衡量不同营销效果的关键指标之一。价值度模型一般基于交易行为产生，衡量的是有实体转化价值的行为。常用的价值度模型是RFMRFM模型是根据会员最近一次购买时间R（Recency）购买频率F（Frequency）购买金额M（Monetary）计算得出RFM得分通过这3个维度来评估客户的订单活跃价值，常用来做客户分群或价值区分RFM模型基于一个固定时间点来做模型分析，不同时间计算的的RFM结果可能不一样RFM。

2024-10-07 14:32:18 1041 1

原创 16-用户评论文本挖掘

文本挖掘就是从文本信息中挖掘我们感兴趣的内容数据分析师为什么要关注文本数据在我们日常的产品和运营工作中，经常接触的数据分析方法、形式绝大部分是基于对数字（值）的描述性分析。这些又被称为结构化数据除此之外，图片，文字，视频，这些统称为非结构化数据非结构化数据蕴含信息量大，特别是文本信息（用户评论）是用户对产品、服务是否满意的重要了解手段在产品和运营的实际工作中，发掘出用户的喜好、购买/使用及流失的内在原因，对我们的工作至关重要对于非自营电商类业务，文本数据显得异常重要。

2024-10-07 14:31:45 897

原创 15_Python报表自动化

本小节将详细介绍如何用Python批量处理多张Excel表，从而帮助我们大幅提升做报表的效率，并基于相关数据进行案例分析。

2024-10-07 14:30:53 815

原创 14_业务分析介绍

掌握数据指标的概念知道常见的业务指标含义知道业务分析常用方法论知道通过数据分析能够解决哪些业务问题在之前的课程中,我们学习了FineReport, FineBI, SQL, Python, 它们都属于数据分析要用到的工具，接下来我们就要结合业务场景，综合运用这些工具，来完成一些具体任务。数据分析/大数据分析的目的是为了用数据驱动运营，用数据驱动业务增长（数据驱动设计，数据驱动决策，数据驱动XXX……），

2024-10-07 14:30:19 929

原创 13_Pandas和Seaborn数据可视化

请对下面的内容有印象、能找到、能理解、能看懂Matplotlib：各种图形的API折线图 df.plot.line()柱状图 df.plot.bar()水平条形图 df.plot.barh()饼图 df.plot.pie()散点图 df.plot.scatter()气泡图 df.plot.scatter()在散点图的基础上，除了xy参数以外再增加一个s参数，可以展示三维数据面积图 df.plot.area()箱线图 df.boxplot()

2024-10-07 09:53:06 1121

原创 12_Matplotlib绘图

数据可视化是指直观展现数据，它是数据处理过程的一部分。把数值绘制出来更方便比较。借助数据可视化，能更直观地理解数据，这是直接查看数据表做不到的数据可视化有助于揭示数据中隐藏的模式，数据分析时可以利用这些模式选择模型。

2024-10-07 09:52:25 1158

原创 11_合并与变形

请对下面的内容有印象、能找到、能理解、能看懂合并数据集纵向追加合并参数ignore_index默认为False, 如果为True, 则重置为自增索引pd.concat函数纵向横向连接多个数据集# 纵向连接，全部数据都保留# 纵向连接，只保留共有数据# 横向连接，全部数据都保留# 横向连接，保留索引值匹配的数据df.merge合并指定关联列的多个数据集df1.merge(df2, on='列名', how='固定值')# 参数on='列名'，表示基于那一列进行合并操作。

2024-10-07 09:51:09 1266

原创 10_分组与分箱

gs = df.groupby(by=['区域', '户型'])# 获取每组第一条数据# 获取每组最后一条数据# 输出结果如下地址面积价格朝向更新时间看房人数区域户型CBD租房 1室1厅和乔丽致公寓 61 12000 北 2017.07.27 22室1厅金地国际花园 124 19000 南 2017.07.18 162室2厅盛世嘉园 161 16000 南 2017.07.27 13室1厅 SOHO现代城 143 15000 西 2017.07.14 31。

2024-09-27 14:45:12 324

原创 09_Pandas数据类型

请对下面的内容有印象、能找到、能理解、能看懂。

2024-09-27 14:44:11 1151

原创 08_Pandas缺失值处理

好多数据集都含缺失数据。缺失数据有多种表现形式数据库中，缺失数据表示为NULL在某些编程语言中用NA或None表示缺失值也可能是空字符串''或数值0在Pandas中使用NaN表示缺失值Pandas中的NaN值来自NumPy库，NumPy中缺失值有几种表示形式：NaN，NAN，nan，他们都一样缺失值和其它类型的数据不同，它毫无意义，NaN不等于0，也不等于空字符串# 输出结果如下FalseFalseFalseFalseFalse两个NaN也不相等# 输出结果如下False。

2024-09-27 09:47:24 843

原创 07_Pandas常用计算函数

请对下列API有印象、能找到、能理解、能看懂排序nlargest函数由大到小排序获取指定数量的数据nsmallest函数由小到大排序获取指定数量的数据sort_values函数按值排序聚合函数corr函数相关性计算min函数计算最小值max函数计算最大值mean函数计算平均值std函数计算标准偏差quantile函数计算分位数sum函数计算所有数值的和count函数计算非空数据的个数。

2024-09-27 09:46:54 594

原创 06_DataFrame索引与列名操作

请对下列API有印象、能找到、能理解、能看懂查看或修改索引查看或修改列名读取数据时指定某列为索引pd.read_csv('csv_path', index_col=[列名])设置某列为df的索引df.set_index(列名)重置df的索引为默认自增索引指定修改部分索引值或列名df.rename(index={'原索引名1': '新索引名1','原索引名2': '新索引名2',...},columns={'原列名a': '新列名a','原列名b': '新列名b',...

2024-09-27 09:44:30 347

原创 05_DataFrame增删改数据

有时需要我们对df或s对象中的数据做更加精细化的修改动作，并将修改操作封装成为一个自定义的函数；这时我们就可以利用<s/df>.apply(函数名)来调用我们自定义的函数s或df对象可以借助apply函数执行自定义函数, 内置函数无法处理需求时就需要使用自定义函数来处理Series对象使用apply调用自定义的函数，返回新的Series对象# 加载数据集# 获取前5条数据并复制一份# 自定义函数, 最少接收一个参数# x此时是s对象中一个数据print('x的值是->', x)

2024-09-27 09:43:48 566

原创 04_DataFrame查询数据操作

请对下列API有印象、能找到、能理解、能看懂API清单子集操作方法方法说明df.head(n)获取前n行数据，默认5行df.tail(n)获取最后n行数据，默认5行df[列名] 或 df.列名获取一列数据df[[列名1,列名2,...]]获取多列数据df[[布尔值向量]]df[[True, False, …]]取出对应为True的数据行df[起始行下标:结束行下标:步长]行下标（索引下标）切片获取数据行df.loc[行索引值]索引值（行名）获取1行数据。

2024-09-27 09:43:21 937

原创 pandas读写数据

请对下面的内容有印象、能找到、能理解、能看懂写文件方法读取文件，常用参数如下index_col指定索引列列下标指定为索引列名指定为索引对指定列解析为时间日期类型将指定的列解析为时间日期类型通过列下标解析该列为时间日期类型通过列名解析该列为时间日期类型将df的索引解析为时间日期类型指定字符分隔符为\t读取tsv文件Pandas和MySQL进行交互（读写）

2024-09-22 10:20:07 795

原创 pandas数据结构

Pandas中的API太多，千万不要尝试去记忆，你记不住的，要求有印象、能找到、能看懂理解类知识点dataframe和series对象是什么：可以认为df是有行有列有索引的二维数据表df和s是Pandas中最核心的数据结构df中每一列或者每一行都是s对象s对象也有索引每一个s对象都有各自的数据类型，表示构成这个s对象中的值的type；常用的数据类型有Object -- 字符串int -- 整数float -- 小数series和dataframe的API。

2024-09-22 10:17:49 1509

原创 python数据分析简介

NumPy(Numerical Python) 是Python数据分析必不可少的第三方库，NumPy的出现一定程度上解决了Python运算性能不佳的问题，同时提供了更加精确的数据类型，使其具备了构造复杂数据类型的能力。是一个运行速度非常快的数学库，主要用于数组计算，包含：高性能科学计算和数据分析的基础包ndarray，多维数组，具有矢量（向量）运算能力，快速、节省空间矩阵运算，无需循环，可完成类似Matlab（商业数学软件）中的矢量运算用于读写磁盘数据的工具以及用于操作内存映射文件的工具。

2024-09-20 16:45:08 1743