自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

转载 数据的分组和聚合 groupby agg apply

本课内容:       数据的分组和聚合               pandas groupby 方法               pandas agg 方法               pandas apply 方法       案例讲解              鸢尾花案例              婴儿姓名案数据的分组&聚合 -- 什么是groupby 技术?在数据分析中

2017-11-19 19:28:37 983

原创 kaggle系列(一、Titanic入门比赛)

Table of Contents1  背景介绍2  数据导入与分析2.1  导入有用的包2.2  导入数据2.3  去除离群点2.4  连接训练数据和测试数据2.5  查看缺失值3  特征分析与数据前处理3.1  数值变量3.1.1  Explore SibSp feature vs Survived3.1.2  Explore Parch featu

2017-11-15 16:54:45 3390

转载 浅述python中argsort()函数的用法

浅述python中argsort()函数的用法    由于想使用python用训练好的caffemodel来对很多图片进行批处理分类,学习过程中,碰到了argsort函数,因此去查了相关文献,也自己在python环境下进行了测试,大概了解了其相关的用处,为了怕自己后面又忘了,就写下来权当加深理解了。(ps:我也是python小白,理解可能比较浅显)1.先定义一个array数据

2017-11-14 21:37:39 2851

转载 kaggle比赛模型融合指南

介绍集成模型是一种能在各种的机器学习任务上提高准确率的强有力技术。在这篇文章中,我会分享我在Kaggle比赛中的集成方法。在第一部分中,我们会讨论从提交文件中建立集成。主要包括:投票集成平均排名平均第二部分我们会讨论 通过 generalization/blending等方法来创建集成。我会在后续回答为什么集成能够减少泛化误差。最后我会展示不同的集成方法,包

2017-11-13 18:27:46 1810

原创 pandas中利用get_dummies()进行独热编码(One-Hot encoding)

在机器学习分类任务中,经常存在一个特征有多个分类变量值,例如在kaggle中的Titanic比赛数据中,Embarked的值有S,C,Q。我们这个时候要对离散型数据进行onehot编码处理,至于onehot编码的优点以及为什么要用onehot编码?可以参考这篇博文:数据预处理:独热编码(One-Hot Encoding)一、onehot的优点       onehot编码的优点可以总结

2017-11-11 20:57:46 23670 2

转载 所涉及到的几种 sklearn 的二值化编码函数:OneHotEncoder(), LabelEncoder(), LabelBinarizer(), MultiLabelBinarizer()

转自http://blog.csdn.net/haramshen/article/details/53169963所涉及到的几种 sklearn 的二值化编码函数:OneHotEncoder(), LabelEncoder(), LabelBinarizer(), MultiLabelBinarizer()1.代码块import pandas as pdfrom sklear

2017-11-11 20:15:23 8641 2

转载 matplotlib的一些基本设置的记录

matplotlib的一些基本设置的记录Matplotlib可能是Python 扩展包中仅有的最流行的 2D 绘图库。她不仅提供了快速的方式可视化Python中的数据,而且提供流行的图形格式的选择。pyplot 是非常接近 Matlab 的一个函数库,承担了大部分的绘图任务。我们可以通过以下命令引入pyplot.from matplotlib import

2017-11-05 14:41:28 4270

原创 安装xgboost过程中的一些坑

一般的数据挖掘比赛都需要用到xgboost,于是按照网上的教程在自己的Windows上安装xgboost包,多次安装不成功,里面有一些坑记录一下。安装教程网上很多,也可以直接参考官方文档,我主要参考的教程是下面的博客,在此不再赘述http://blog.csdn.net/sb19931201/article/details/52236020http://blog.csdn.net/zacz

2017-11-03 16:47:13 3952

原创 关于jupyter notebook安装成功后网页无法访问的问题

笔者在安装了jupyter之后,在终端输入jupyter notebook之后,浏览器被启动但网页无法正常访问,仔细看了一下出错内容,提示主要是TemplateAssertionError: no filter named 'format_number。         网上找了各种资料,终于在https://stackoverflow.com/questions/8339899/jinj

2017-11-02 22:00:59 17386 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除