特征工程
python数据清洗
thisissally
这个作者很懒,什么都没留下…
展开
-
python数据格式化
f.write('%s %.2f\n' % (im_path, res))输出:10_CAM2-1.jpg 2802.78原创 2021-09-27 18:00:24 · 68 阅读 · 0 评论 -
自定义函数中return和yield的区别
在定义的函数中,如果存在循环,并希望返回循环下的所有情况,用return只能用list来存储,很占内存;用yield不占内存,每次生成迭代结果。当然也可以用print,但是print的结果无法调用。原创 2021-09-26 19:08:10 · 47 阅读 · 0 评论 -
Python特征工程
一、目的将数据转换为能更好地表示潜在问题的特征,从而提高机器学习的性能二、内容缺失:加入先验知识 异常:清除噪声集中:数据集中(归一化、标准化)、变量集中(特征筛选、降维)有价值:数据有价值(数据分桶)、变量有价值(特征构造)...原创 2021-08-12 18:00:39 · 1665 阅读 · 0 评论 -
片段的唯一性标识——Python
根据device_id+ds+order_id为唯一标识给片段打标签df1['temp']=0 #temp记录与上一条的不同数for i in range(len(df1)): if (df1.device_id.shift()[i]!= df1.device_id[i]) or (df1.ds.diff()[i]!=0) or (df1.rw.diff()[i]!=0): df1.temp[i]+=1df1['label']=df1.temp[0] #label是累积数,也原创 2021-08-22 19:52:56 · 110 阅读 · 0 评论 -
Python数据可视化
用python画图一共有三个逻辑:可以合用matplotlib.pyplotseaborndf.x1.plot(kind=’’)一、必备语句# 导入第三方模块import pandas as pdimport matplotlib.pyplot as plt # 参数定制化from matplotlib.ticker import FuncFormatter # 将用户定义的函数应用于值%matplotlib inlineimport seaborn as sns # 参数能调用的原创 2021-08-13 14:18:53 · 276 阅读 · 0 评论 -
变量间的相关关系
一、自变量之间(一)列联表1.所有变量,任意两个变量相关分析store.corr()2.选定个数的变量之间q1=['x1' ,'x2','x3']df1[q1].corr( )3.一对多,其他变量与revenue的相关分析red.corr()[['revenue']].sort_values('revenue',ascending=False ) # 注意双括号(二)热力图sns.heatmap(df1[q1].corr(),cmap='Blues')(三)pairplotsn原创 2021-08-12 16:54:25 · 471 阅读 · 0 评论 -
异常值处理
一、异常值判断(一)看箱线图在两根线外的是离群点[ Q1-1.5IQR,Q3+1.5IQR ],在此范围外的是异常值(二)正态分布:3σ准则当样本服从正态分布,[ mean-3σ,mean-3σ ] 在此范围外的是离群点二、异常值处理删除,一般情况下根据箱线图删除异常值如果需要构建线性模型,则因变量y需要符合线性、正态、方差齐性的假设,如果不符合,需要用box-cox变换。...原创 2021-08-11 17:42:30 · 399 阅读 · 0 评论