Data Mining
pyxiea
双鸭山大学研究生,对深度学习、自然语言处理、推荐系统感兴趣
展开
-
树模型总结
树模型笔记Adaboost原理学习资料1、https://www.youtube.com/watch?v=LsK-xG1cLYA2、https://blog.csdn.net/v_JULY_v/article/details/40718799算法流程简记1、初始化/更新样本权重(学习资料1在11:32秒开始解释)2、根据所选择的不纯度指标计算每个特征的最优划分点,比较得到最优特征,得到一个树桩(stump)3、计算误差率(分错的样本的权重和)和这一轮得到的学习器在最终多个学习器中的加权系数(原创 2020-07-30 11:43:58 · 341 阅读 · 0 评论 -
groupby之后size跟count的区别
size计数时包含NaN值,而count不包含NaN值见 https://www.cnblogs.com/lemonbit/p/6810972.html转载 2019-05-18 12:21:56 · 7267 阅读 · 0 评论 -
xgboost中Objective和feval之间的差异
原文地址:https://stackoverflow.com/questions/34178287/difference-between-objective-and-feval-in-xgboostObjectivexgboost中的Objective是算法将尝试和优化的函数。根据定义,它必须能够针对给定训练轮次的预测创建一阶(gradient)和二阶(hessian)导数。自定义Objec...翻译 2019-05-22 11:48:07 · 1571 阅读 · 0 评论 -
DataFrame去重
转自 https://blog.csdn.net/qq_28811329/article/details/79962511df.drop_duplicates(subset=['A','B'],keep='first',inplace=True)代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。keep='fi...转载 2019-05-11 14:57:42 · 2869 阅读 · 0 评论 -
K折交叉验证与模型评估
K折交叉验证的原理见 https://www.jianshu.com/p/284581d9b189模型评估当使用十折交叉验证时,每次训练集为90%的数据,测试集为10%的数据。用这10%数据,我们可以计算出衡量误差的指标(例如RMSE),并且,我们还能得到10组对应测试集的预测值。接下来我们需要用这些数据做两件事情:计算10个RMSE值的均值和标准差。K折交叉验证使用的是数据的随机部...原创 2019-05-06 10:01:59 · 4191 阅读 · 7 评论 -
KFold函数 __init__() got an unexpected keyword argument 'n_folds'
背景:想要导入用于k折交叉验证的包现象:报错 __init__() got an unexpected keyword argument 'n_folds'原因:导入错误的KFold包错误写法:from sklearn.model_selection import KFold正确写法: from sklearn.cross_validation import KFold...原创 2019-05-04 16:44:00 · 12588 阅读 · 2 评论 -
SettingWithCopyWarning原因以及解决方案
报错语句: df['Age'][df.Age.isnull()]=age_null_random_list df.loc[df.Age.isnull(),'Age']=age_null_random_list这句代码原意为,将改dataframe的Age列中那些为null的位置用一个list来一一对应地赋值。但是由于使用了...原创 2019-05-03 11:34:21 · 1197 阅读 · 0 评论 -
添加子图以及子图操作
数据集以及导入数据的工作见 https://blog.csdn.net/xpy870663266/article/details/89298927#之前已调用 %matplotlibIn [74]: fig=plt.figure() #效果是生成一个空白的图像In [75]: ax1=fig.add_subplot(141) #给fig添加一个子图,将其放置在1行4列的第1个位置(从1数起...原创 2019-05-02 12:06:40 · 1511 阅读 · 0 评论 -
对数据进行可视化探索
文章目录泰坦尼克号柱状图散点图本文以kaggle的入门赛为例,介绍常用于探索数据特征的可视化技巧泰坦尼克号数据集下载地址:https://www.kaggle.com/c/titanic/data首先导入数据(个别输入输出是个人探索的过程,被省略了,例如In[5]直接到In[7]了)In [1]: %matplotlibUsing matplotlib backend: Qt5Agg...原创 2019-04-14 17:29:04 · 1231 阅读 · 0 评论 -
Anaconda Navigator启动报错
报错如下:Main Error'root_prefix'TracebackTraceback (most recent call last):File "C:\ProgramData\Anaconda3\lib\site-packages\anaconda_navigator\exceptions.py", line 75, in exception_handlerreturn_...原创 2019-04-02 19:44:22 · 4512 阅读 · 1 评论 -
NumPy学习笔记
快速入门ndarray的创建ndarray的属性与方法打印ndarrayndarray的基本操作索引、切片、迭代更改数组形状深拷贝数组进一步学习数组的数据类型更多索引方式布尔索引花式索引广播(Broadcasting)重要的函数通用函数ufuncnp.where()函数统计相关函数线代相关函数random模块数组堆叠与切分原创 2019-04-05 23:54:42 · 213 阅读 · 0 评论