python
AML杰
后端 特征工程 特征衍生 风控 机器学习 深度学习
展开
-
dataframe中有关inf的处理技巧
numpy中inf的相关文档什么是inf?IEEE 754浮点表示(正)无穷大。为什么会产生?>>> np.NINF-inf>>> np.infinf>>> np.log(0)-inf>>> np.array([1,2])/0 #碰到的最多的情况array([ inf, inf])产生inf有什么好...原创 2019-07-08 20:47:36 · 16916 阅读 · 8 评论 -
pandas中std和numpy的np.std区别
pandas中std和numpy的std区别pandas中Series.std的官方文档numpy中numpy.std的官方文档原理 计算标准差时,需要注意numpy中的std和pandas的std在计算标准差时,默认的计算结果会存在不一致的问题。 原因在于默认情况下, numpy计算的为总体标准偏差,ddof=0;一般在拥有所有数据的情况下,计算所有数据的标准...原创 2019-07-03 23:43:39 · 13305 阅读 · 0 评论 -
numpy的np.nanmax和np.max区别(坑)
numpy的np.nanmax和np.array([1,2,3,np.nan]).max()的区别(坑)numpy中numpy.nanmax的官方文档原理 在计算dataframe最大值时,最先用到的一定是Series对象的max()方法(),最终结果是4。s1 = pd.Series([1,2,3,4,np.nan])s1_max = s1.max() 但是笔者由...原创 2019-07-05 00:04:53 · 9237 阅读 · 0 评论 -
dataframe缺失值(NaN)处理
dataframe缺失值(NaN)处理 在进行机器学习的特征工程时,常常需要根据选择的机器学习算法,采用合适的数据预处理方式,特别是对于对于空值(NaN)的处理,常常使人感到困惑。 一般对于NaN,常常有两种处理方式。第一种——填补。第二种——不处理。 当你使用sklearn库进行机器学习训练时,一般对于缺失值要求较为严格,因此,需要进行填补,至于填补为何值,则需要根据业务...原创 2019-07-06 00:15:07 · 31686 阅读 · 0 评论 -
python函数的默认参数请勿定义可变类型
python函数的默认参数请勿定义可变类型经常会看到这样一句代码警告:Default argument value is mutable意思是告诉我们函数的定义中,使用可变类型做默认参数。那为什么会有这个警告呢?可变类型和不可变类型可变类型(mutable):列表,字典不可变类型(unmutable):数字,字符串,元组定义可变类型会有什么问题?def fun(a=[]): ...原创 2019-08-24 22:56:44 · 1262 阅读 · 0 评论 -
pandas利用数据类型转换节省内存空间
pandas利用数据类型转换节省内存空间数据类型转换函数astypedf1 = pd.DataFrame({'a':[1,2,3,np.inf],'b':[12,321,23,np.nan]})>>> a b0 1.0 12.01 2.0 321.02 3.0 23.03 0.0 NaN#获取数据类型df1.dtyp...原创 2019-08-26 23:12:32 · 801 阅读 · 0 评论