![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
pandas
蒽,开心(∩_∩)
这个作者很懒,什么都没留下…
展开
-
dataframe踩坑笔记(2):表格合并、拼接
1. 表格简单合并1.1按行合并(上下合并):import numpy as npdf1= pd.DataFrame(np.random.randn(4),columns=["a"]) df2= pd.DataFrame(np.random.randn(4),columns=["b"])df3=pd.concat([df1,df2],axis=0)df4=pd.concat([df1,df2],axis=1)如果两个dataframe长度不一致,缺少的部分用nan补齐:df2原创 2022-03-08 21:10:25 · 1487 阅读 · 0 评论 -
python自动化办公:文件花式遍历
最近跑数据跑到头秃,不得已只好将python自动化办公玩出花样,可以将两三个小时的工作量缩短到十几分钟,最重要的是:心情好!不需要闹心的搞重复性的工作,几行代码剩下的交给程序自己跑。教程部分:用到的库:os...原创 2021-07-13 22:16:31 · 61 阅读 · 0 评论 -
机器学习常用数据清洗方法
最近做机器学习的项目,汇总一下用得比较多的数据清洗方法,主要有:重新命名列名、去除空值、去除0值(或负值)1.重新命名列名平时读数据的时候,原始数据总是有各种乱七八糟的命名,可以通过命名便于理解第一种方法:直接按顺序修改,替换掉原始的columnsdf=pd.read_csv(r'E:\00learning\01Python\机器学习\04SVR\train_data.csv')df.columns=['I','F']#重新命名列名第二种方法:使用.rename()函数df.rename(原创 2021-07-10 21:42:46 · 1366 阅读 · 0 评论 -
sklearn中train_test_split库的使用
背景:在做数据处理的时候,我们往往拿到的只是一长串的数据,没有将训练集和验证集分开,这时候如果用训练集来训练,再拿训练集来测试,显然是对模型的泛化能力没有帮助的(拿一个好看的结果来欺骗自己),这时候就需要将原始数据进行随机分割,sklearn中提供了train_test_split库用于测试集和训练集的划分。划分以后的训练集和测试集最终可以用来进行交叉验证。格式如下:X_train,X_test, y_train, y_test =cross_validation.train_test_s.原创 2021-05-27 10:53:04 · 659 阅读 · 0 评论 -
线性回归的方法做异常检测:最小二乘法与梯度下降法
1.最小二乘法最小二乘法其实就是利用误差最小化求解线性回归参数的方法。一元多维线性回归:Y=∑i=1dai⋅Xi+ad+1Y=\sum_{i=1}^{d} a_{i} \cdot X_{i}+a_{d+1}Y=i=1∑dai⋅Xi+ad+1分析其中一维:yj=∑i=1dai⋅xji+ad+1+ϵjy_{j}=\sum_{i=1}^{d} a_{i} \cdot x_{j i}+a_{d+1}+\epsilon_{j}yj=i=1∑dai⋅xji+ad+1+ϵj以UUU代表N×原创 2021-05-16 16:31:02 · 838 阅读 · 0 评论 -
使用bins对数据进行分段并计算每个分段的数据量
可以自己建一个excel文件练习bins=[0,10,20,30,50,60,1000000]作为区间划分的变量,里面的数表示每个间隔。代码实现:结果:查看某个区间对应的数量:原创 2021-05-14 11:16:06 · 882 阅读 · 0 评论