数据处理
csdn_youth0605
这个作者很懒,什么都没留下…
展开
-
pandas.corr()相关检验方法的选择
连续变量之间的检验,用pearson系数(服从正态分布);离散变量或非正态分布连续变量之间的检验,用spearman或者kendall系数;连续与离散变量之间,可以考虑Kendall、卡方检验。spearman相关系数范围:0.2-0.4弱正相关,0.4-0.6算是中等相关,0.6-0.8达到强正相关。pearson相关系数范围:0.8-1.0 极强相关0.6-0.8 强相...原创 2019-12-16 10:50:17 · 922 阅读 · 1 评论 -
pd.read_csv读取文件时注意路径名问题
pd.read_csv读取文件时,要注意转义字符\的问题。有几种路径编写格式:1、路径名字符串之前加r,data=pd.read_csv(r’C:\AI\代码文档\工作\feature\fea_hfx4.csv’)。2、文件路径中的\改成/或者\。不然可能会提示编码错误。...原创 2019-11-14 17:36:58 · 7776 阅读 · 1 评论 -
dataframe通过列运算生成新列注意事项
要注意在进行列之间的运算时要避免使用输入参数仅为数值的函数,如float、math.log等,类型转换的话使用astype对整个序列进行操作。原创 2019-11-12 22:24:04 · 1643 阅读 · 0 评论 -
math.log函数和numpy.log函数区别
math.log函数只能对某个数值进行处理,无法对列表、序列等进行处理,需要通过循环的方式解决。numpy.log函数可以对数值或者列表、序列等进行对数运算,比较适用于在对dataframe、series整列做数据处理的场景。...原创 2019-11-12 22:18:21 · 3051 阅读 · 0 评论 -
Python中reload重新设置编码
转载:https://www.cnblogs.com/fengff/p/8857360.htmlpython为什么需要reload(sys)后设置编码python在安装时,默认的编码是ascii,当程序中出现非ascii编码时,python的处理常常会报这样的错UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0x?? in positio...转载 2019-11-02 17:07:42 · 661 阅读 · 0 评论 -
用train_test_split进行训练集和测试集的随机切分
X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(sample_data,sample_target,test_size=0.25, train_size=None,random_state=0,stratify=y_train)train_data:所要划分的样本特征集train_target:...原创 2019-07-28 10:52:58 · 2145 阅读 · 0 评论 -
pandas中get_dummies用法
pandas.get_dummies(data,prefix = None,prefix_sep =’’,dummy_na = False,columns = None,sparse = False,drop_first = False,dtype = None )参数含义:data : array-like,Series或DataFrameprefix :string,字符串列表或字符串d...原创 2019-07-27 18:30:55 · 1398 阅读 · 0 评论 -
dataframe字段的数据类型转换
pd.DataFrame.astype(self, dtype, copy=True, errors=‘raise’, **kwargs)参数说明:dtype:如果是某数据类型的字符串,则将df所有的字段转换成这一类型;如果是字典形式,{‘列名’:‘数据类型’},则将指定字段转换成特定的类型。copy:默认为True,当为真时,返回一个副本。error:默认为raise,即当有错误时将触发...原创 2019-07-27 18:28:56 · 12831 阅读 · 0 评论 -
preprocessing进行数据标准化处理
sklearn.preprocessing.scale(X, axis=0, with_mean=True, with_std=True, copy=True)with_mean:去均值的中心化(均值变为0)with_std:方差的规模化(方差变成1)原创 2019-07-27 22:07:39 · 914 阅读 · 0 评论 -
数据的拼接pd.concat
pd.concat(objs, axis=0, join=‘outer’, join_axes=None, ignore_index=False,keys=None, levels=None, names=None, verify_integrity=False)主要参数说明:objs:需要拼接的对象。axis:默认为0,按行拼接;如果设成1,则是按照列进行拼接。join:拼接的方式,默...原创 2019-07-27 21:36:02 · 1418 阅读 · 0 评论