机器学习
文章平均质量分 56
Miles-
这个作者很懒,什么都没留下…
展开
-
机器学习实战笔记(第二章:k近邻算法)
k近邻算法(kNN) 本博客来源于CSDN:http://blog.csdn.net/niuwei22007/article/details/49703719 本博客源代码下载地址:CSDN免费下载、GitHub下载地址 均带有详细注释和测试数据 今天学习了《机器学习实战》这本书介绍的第一个机器学习算法—k近邻算法。书中转载 2017-10-13 14:32:15 · 275 阅读 · 0 评论 -
sklearn文本特征提取
sklearn中一般使用CountVectorizer和TfidfVectorizer这两个类来提取文本特征,sklearn文档中对这两个类的参数并没有都解释清楚,本文的主要目的就是解释这两个类的参数的作用(1)CountVectorizerclass sklearn.feature_extraction.text.CountVectorizer(input='co转载 2017-12-11 21:45:58 · 811 阅读 · 0 评论 -
xgboost 自定义评价函数(metric)与目标函数
比赛得分公式如下:其中,P为Precision , R为 Recall。 GBDT训练基于验证集评价,此时会调用评价函数,XGBoost的best_iteration和best_score均是基于评价函数得出。评价函数:input: preds和dvalid,即为验证集和验证集上的预测值,return string 类型的名称 和一个flaot类型的fevale转载 2017-12-01 14:01:22 · 8576 阅读 · 0 评论 -
kaggle系列(一、Titanic入门比赛)
Table of Contents1 背景介绍2 数据导入与分析2.1 导入有用的包2.2 导入数据2.3 去除离群点2.4 连接训练数据和测试数据2.5 查看缺失值3 特征分析与数据前处理3.1 数值变量3.1.1 Explore SibSp feature vs Survived3.1.2 Explore Parch featu原创 2017-11-15 16:54:45 · 3413 阅读 · 0 评论 -
kaggle比赛模型融合指南
介绍集成模型是一种能在各种的机器学习任务上提高准确率的强有力技术。在这篇文章中,我会分享我在Kaggle比赛中的集成方法。在第一部分中,我们会讨论从提交文件中建立集成。主要包括:投票集成平均排名平均第二部分我们会讨论 通过 generalization/blending等方法来创建集成。我会在后续回答为什么集成能够减少泛化误差。最后我会展示不同的集成方法,包转载 2017-11-13 18:27:46 · 1823 阅读 · 0 评论 -
安装xgboost过程中的一些坑
一般的数据挖掘比赛都需要用到xgboost,于是按照网上的教程在自己的Windows上安装xgboost包,多次安装不成功,里面有一些坑记录一下。安装教程网上很多,也可以直接参考官方文档,我主要参考的教程是下面的博客,在此不再赘述http://blog.csdn.net/sb19931201/article/details/52236020http://blog.csdn.net/zacz原创 2017-11-03 16:47:13 · 3961 阅读 · 0 评论 -
pandas中利用get_dummies()进行独热编码(One-Hot encoding)
在机器学习分类任务中,经常存在一个特征有多个分类变量值,例如在kaggle中的Titanic比赛数据中,Embarked的值有S,C,Q。我们这个时候要对离散型数据进行onehot编码处理,至于onehot编码的优点以及为什么要用onehot编码?可以参考这篇博文:数据预处理:独热编码(One-Hot Encoding)一、onehot的优点 onehot编码的优点可以总结原创 2017-11-11 20:57:46 · 23702 阅读 · 2 评论 -
所涉及到的几种 sklearn 的二值化编码函数:OneHotEncoder(), LabelEncoder(), LabelBinarizer(), MultiLabelBinarizer()
转自http://blog.csdn.net/haramshen/article/details/53169963所涉及到的几种 sklearn 的二值化编码函数:OneHotEncoder(), LabelEncoder(), LabelBinarizer(), MultiLabelBinarizer()1.代码块import pandas as pdfrom sklear转载 2017-11-11 20:15:23 · 8665 阅读 · 2 评论 -
JDDiscovery比赛小结
最近几天参加了一个京东办的大数据比赛IDDiscovery,比赛地址:JDD比赛官网。作为一个数据挖掘比赛的小白,选择了登录行为识别这个赛题,首先查了查相关比赛的资料,类似的比赛有:拍拍贷风险预测,微额借贷比赛等。花了一些时间阅读了这些比赛的相关源码分享,主要资料来源:https://github.com/wepe,收获不少。对这种比赛有了初步的了解之后,花了一些时间写了一个basel原创 2017-12-04 15:36:29 · 722 阅读 · 0 评论