- 博客(12)
- 收藏
- 关注
原创 corr()函数的用法
corr()函数的用法 corr可选的方式有三种: 1)pearson:相关系数来衡量两个数据集合是否在一条线上面,即针对线性数据的相关系数计算,针对非线性数据便会有误差。 2)spearman:非线性的,非正太分析的数据的相关系数 3)kendall:用于反映分类变量相关性的指标,即针对无序序列的相关系数,非正太分布的数据 其中corr()函数的参数为空时,默认使用的参数为pearson 上面的结果验证了,pearson对线性的预测较好,对于幂函数,预测差强人意。 ...
2020-09-20 18:09:59
42113
1
原创 淘宝天猫乐高的销售情况
(一)淘宝天猫乐高的销售情况 从乐高销量、乐高产地、个省份销量分布、乐高价格高低及不同价格区间的数量、乐高种类销量等数据集进行分析 一、加载工具包和数据 二、数据处理 三、数据可视化 1、乐高销量排名top10店铺 - 条形图 2、乐高产地数量排名top10 - 条形图 3、乐高产地国内销量分布 - 地图 4、价格分布 - 饼图 5、不同价格区间的销量表现 - 饼图 6、商品标题词云图 - 词云图 (二)乐高天猫旗舰店数据分析 一、数据读入 二、数据处
2020-09-03 15:42:53
2304
4
原创 项目--泰坦尼克号
泰坦尼克号 本文将从六个部分对泰坦尼克号的数据进行分析,分别为提出问题、理解数据、数据清洗、构建模型、模型评估和实施方案。 一、提出问题 在泰坦尼克号沉船事件中,有人幸存了、有人牺牲,那有什么因素会影响到成员的幸存几率了?这就是问题所在。所以,实验中会提供两份数据列表,一份是带有分类结果的有多项特征(因素)的数据,然后用前一份数据(之后称为训练数据)来训练学习模型,后一份数据(之后称为测试数据),用在学习模型上得到测试结果(就是分类测试数据) 二、理解数据 2.1 导入工具包和数据 2.2 查看数据
2020-09-02 20:27:07
1547
转载 Python 中pandas 中cut方法
Python 中pandas 中cut方法 在对数据进行分段分组时,可采用cut方法,用bins的方式实现。这种情况一般使用于,对于年龄、分数等数据。 import random import pandas as pd import numpy as np from pandas import Series,DataFrame #用随机数产生一个二维数组。分别是年龄的性别。 df=pd.DataFrame({'Age':np.random.randint(0,70,100),
2020-08-29 11:10:03
1930
转载 python tolist()方法
python tolist()方法 将数组或者矩阵转换成列表 >>> from numpy import * >>> a1 = [[1,2,3],[4,5,6]] #列表 >>> a2 = array(a1) #数组 >>> a2 array([[1, 2, 3], [4, 5, 6]]) >>> a3 = mat(a1) #矩阵 >>> a3 matrix([[1, 2, 3],
2020-08-29 10:20:48
1015
原创 Pandas 文本数据方法 extract( )
Pandas 文本数据方法 extract( ) extractall( ) 正则表达式 extract()方法
2020-08-29 10:04:47
2223
原创 with open(csv_path,“a+“,encoding=“utf-8“) as f:
with open(csv_path,“a+”,encoding=“utf-8”) as f: 仅供自己学习
2020-08-28 21:20:53
2143
原创 用户消费行为报告
用户消费行为报告 学习秦路老师课程之后写的报告 本文将从五个步骤对该数据进行分析 一、数据清洗 缺失值的处理,数据类型的转化 二、进行用户消费趋势的分析(按月) 每月的消费总金额、每月的消费次数、每月的产品购买量、 每月的消费人数、每月用户平均消费金额的趋势、每月用户平均消费次数的趋势 三、用户个体消费分析 用户消费金额,消费次数的描述性统计、用户消费金额和消费次数的散点图、用户消费金额的分布图、用户消费次数的分布图、用户累计消费金额占比(百分之多少的用户占了百分之多少的消费额) 四、用户消费行为 用户
2020-08-28 18:49:53
601
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅