Python机器学习及实践
文章平均质量分 86
Python机器学习及实践:从零开始通往Kaggle竞赛之路
学习笔记及代码实现
wyatt007
这个作者很懒,什么都没留下…
展开
-
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第4章 实战篇 学习笔记(三)4.3IMDB影评得分估计总结
目录4.3IMDB影评得分估计1、背景2、下载数据3、搭建模型4、编程实践5、提交结果4.3IMDB影评得分估计1、背景“4.2Titanic罹难乘客预测总结”一节所使用的数据,不论是其形式还是规模都无法与大量现实分析任务涉及的数据相当。因此在本节,如图4-8所示,另选Kaggle上的一项竞赛任务:IMDB影评得分估计。与上节结构化良好的小规模档案数据不同的是,...原创 2021-03-31 20:52:25 · 852 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第4章 实战篇 学习笔记(二)4.2Titanic罹难乘客预测总结
4.2Titanic罹难乘客预测原创 2020-12-13 19:35:01 · 431 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第4章 实战篇 学习笔记(一)4.1Kaggle平台简介总结
目录4.1Kaggle平台简介1、Kaggle平台介绍2、Kaggle平台使用(1)第一次登录(2)注册并验证(3)下载数据(Download)(4)搭建模型(Build)(5)提交结果(Submit)4.1Kaggle平台简介1、Kaggle平台介绍Kaggle是当前世界上最为流行的,采用众包(Crowdsouring)策略,为科技公司、研究院所乃至...原创 2020-10-24 21:50:05 · 591 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第3章 进阶篇 学习笔记(十一)3.2.4Tensorflow框架总结
3.2.4Tensorflow框架1、背景2015年10月5日,谷歌为TensorFlow提交了注册商标申请(登记编号:86778464),并这样描述它:(1)用以编写程序的计算机软件;(2)计算机软件开发工具;(3)可应用于人工智能、深度学习、高性能计算、分布式计算、虚拟化和机器学习这些领域;(4)软件库可应用于通用目的的计算、数据收集的操作、数据变换、输入输出、通信、图...原创 2020-06-29 21:06:32 · 382 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第3章 进阶篇 学习笔记(十)3.2.3XGBoost模型总结
3.2.3XGBoost模型提升(Boosting)分类器隶属于集成学习模型,它的基本思想是把成百上千个分类准确率较低的树模型组合起来,称为一个准确率很高的模型。这个模型的特点在于不断迭代,每次迭代就生成一颗新的树。对于如何在每一步生成合理的树,大家提出了很多的方法,比如我们在集成(分类)模型中提到的梯度提升树(Gradient Tree Boosting)。它在生成每一棵树的时候采用梯度下降...原创 2020-06-26 21:18:55 · 318 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第3章 进阶篇 学习笔记(九)3.2.2词向量(Word2Vec)技术总结
目录3.2.2词向量(Word2Vec)技术1、词向量(Word2Vec)技术(1)词袋法(2)背景(3)神经网络学习过程2、编程实践3.2.2词向量(Word2Vec)技术1、词向量(Word2Vec)技术(1)词袋法在“3.1.1.1特征抽取总结”节详细介绍了如何通过词袋法,即以每个词汇为特征,向量化表示一个文本;并且提供了几种特征量化的技术,如Coun...原创 2020-06-23 22:06:19 · 353 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第3章 进阶篇 学习笔记(八)3.2.1自然语言处理包(NLTK)总结
3.2.1自然语言处理包(NLTK)0、引言(1)背景重点介绍的Scikit-learn几乎囊括了所有机器学习领域的经典模型。掌握这些模型对于初学者来讲是十分必要的。然而,许多从业者却更加热衷于那些尽管描述复杂但是功能强大、性能强劲的新模型,教科书中的经典显然无法满足他们的胃口。机器学习方法之所以能够在短短十几年间成为计算机科学领域炙手可热的研究话题,并且广泛应用于现实生活中的方方面面...原创 2020-06-20 15:03:55 · 285 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第3章 进阶篇 学习笔记(七)3.1.4.2并行搜索总结
目录3.1.4.2并行搜索1、并行搜索2、编程实践3.1.4.2并行搜索1、并行搜索尽管采用网格搜索结合交叉验证的方法,来寻找更好超参数组合的过程非常耗时;然而,一旦获取比较好的超参数组合,则可以保持一段时间使用。因此这是值得推荐并且相对一劳永逸的性能提升方法。更可喜的是,由于各个新模型在执行交叉验证的过程中间是互相独立的,所以可以充分利用多核处理器(Multicore processor)甚至是分布式的计算资源来从事并行搜索(Parallel Grid Search),这样能够成倍原创 2020-06-17 16:01:56 · 500 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第3章 进阶篇 学习笔记(六)3.1.4.1网格搜索总结
目录3.1.4.1网格搜索0、引言1、网格搜索2、编程实践3.1.4.1网格搜索0、引言前面所提到的模型配置,一般统称为模型的超参数(Hyperparameters),如K近邻算法中的K值、支持向量机中不同的核函数(Kernel)等。多数情况下,超参数的选择是无限的。因此在有限的时间内,除了可以验证人工预设几种超参数组合以外,也可以通过启发式的搜索方法对超参数组合进行调优。这种启发式的超参数搜索方法为网格搜索。同时由于超参数的的验证过程之间彼此独立,因此为并行计算提供了可能,并行原创 2020-06-14 15:30:38 · 309 阅读 · 2 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第3章 进阶篇 学习笔记(五)3.1.3模型检验总结
目录3.1.3模型检验1、背景2、留一验证3、交叉验证3.1.3模型检验1、背景在前面的章节中,时不时地提到模型检验或者交叉验证等词汇,特别是在对不同模型的配置、不同的特征组合,在相同的数据和任务下进行评价的时候。究其原因,是因为仅仅使用默认配置的模型与不经处理的数据特征,在大多数任务下是无法得到最佳性能表现的。因此,在最终交由测试集进行性能评估之前,自然希望可以尽可能...原创 2020-06-11 22:00:30 · 207 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第3章 进阶篇 学习笔记(四)3.1.2.2L1范数正则化、3.1.2.3L2范数正则化总结
目录3.1.2.2L1范数正则化1、L1范数正则化2、编程实践3、总结3.1.2.3L2范数正则化1、L2范数正则化2、编程实践3、总结3.1.2.2L1范数正则化1、L1范数正则化正则化的目的在于提高模型在未知测试数据上的泛化力,避免参数过拟合。由上一节的“比萨饼价格预测”的例子可以看出,2次多项式回归是相对较好的模型假设。之所以出现如4次多项式那样的...原创 2020-06-08 15:39:57 · 263 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第3章 进阶篇 学习笔记(三)3.1.2.1欠拟合与过拟合总结
3.1.2.1欠拟合与过拟合0、引言任何机器学习模型在训练集上的性能表现,都不能作为其对未知测试数据预测能力的评估。首先阐述模型复杂度与泛化力的关系;紧接着,分别介绍如何使用范数正则化与范数正则化这两种正则化(Regularization)来加强模型的泛化力,避免模型参数过拟合(Overfitting)。1、拟合所谓拟合,是指机器学习模型在训练的过程中,通过更新参数,使得模型不...原创 2020-06-05 15:25:56 · 328 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第3章 进阶篇 学习笔记(二)3.1.1.2特征筛选总结
3.1.1.2特征筛选1、特征筛选总体来讲,良好的数据特征组合不需太多,便可以使得模型的性能表现突出。比如,在第1章的“良/恶性乳腺癌肿瘤预测”问题中,仅仅使用两个描述肿瘤形态的特征便可以取得很高的识别率。冗余的特征虽然不会影响到模型性能,不过却使得CPU的计算做了无用功。比如,主成分分析主要用于去除多余的那些线性相关的特征组合,原因在于这些冗余的特征组合并不会对模型训练有更多贡献。而不良...原创 2020-06-02 15:55:22 · 334 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第3章 进阶篇 学习笔记(一)3.1.1.1特征抽取总结
3.1.1.1特征抽取0、引言(1)背景随着近些年机器学习研究与应用的快速发展,经典模型渐渐无法满足日益增长的数据量和复杂的数据分析需求。因此,越来越多更加高效而且强力的学习模型以及对应的程序库正逐渐被设计和编写,并慢慢被科研圈和工业界所广泛接受与采用。这些模型和程序库包括:用于自然语言处理的NLTK程序包;词向量技术Word2Vec;能够提供强大预测能力的XGBoost模型,以及...原创 2020-05-30 13:32:09 · 413 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第2章 基础篇 学习笔记(十三)2.2.2.1主成分分析总结
目录2.2.2.1主成分分析0、引言1、模型介绍2、数据描述3、编程实践4、性能测评5、特点分析2.2.2.1主成分分析0、引言特征降维是无监督学习的另一个应用,目的有二:其一,在实际项目中遭遇特征维度非常高的训练样本,而往往又无法借助自己的领域知识人工构建有效特征;其二,在数据表现方面,无法用肉眼观测超过三个维度的特征。因此,特征降维不仅重构了...原创 2020-05-27 12:26:19 · 344 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第2章 基础篇 学习笔记(十二)2.2.1.1K均值算法总结
2.2.1.1K均值算法0、引言(1)无监督学习介绍无监督学习着重于发现数据本身的分布特点。与监督学习不同,无监督学习不需要对数据进行标记。这样,在节省大量人工的同时,也让可以利用的数据规模变得不可限量。从功能角度讲,无监督学习模型可以发现数据的“群落”,同时也可以寻找“离群”的样本;另外对于特征维度非常高的数据样本,同样可以通过无监督的学习对数据进行降维,保留最具有区分性的低纬度...原创 2020-05-25 10:37:56 · 659 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第2章 基础篇 学习笔记(十一)2.1.2.5集成模型(回归)总结
目录2.1.2.5集成模型(回归)1、模型介绍2、数据描述(1)美国波士顿地区房价数据描述(2)美国波士顿地区房价数据分割(3)美国波士顿地区房价数据标准化处理3、编程实践4、性能测评5、特点分析2.1.2.5集成模型(回归)1、模型介绍这一节除了继续使用普通随机森林和提升树模型的回归器版本之外,还要补充介绍随机森林模型的另一个变种:极端随机森林。与...原创 2020-05-21 12:10:30 · 369 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第2章 基础篇 学习笔记(十)2.1.2.4回归树总结
目录2.1.2.4回归树1、模型介绍2、数据描述(1)美国波士顿地区房价数据描述(2)美国波士顿地区房价数据分割(3)美国波士顿地区房价数据标准化处理3、编程实践4、性能测评5、特点分析2.1.2.4回归树1、模型介绍回归树在选择不同特征作为分裂节点的策略上,与决策树的思路类似。不同之处在于,回归树叶节点的数据类型不是离散型,而是连续型。决策树每个叶...原创 2020-05-18 12:25:08 · 262 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第2章 基础篇 学习笔记(九)2.1.2.3K近邻(回归)总结
目录2.1.2.3K近邻(回归)1、模型介绍2、数据描述(1)美国波士顿地区房价数据描述(2)美国波士顿地区房价数据分割(3)美国波士顿地区房价数据标准化处理3、编程实践4、性能测评5、特点分析2.1.2.3K近邻(回归)1、模型介绍在回归任务中,K近邻(回归)模型同样只是借助周围K个最近训练样本的目标数值,对待测样本的回归值进行决策。自然,也衍生出衡量待测样本回归值的不同方式,即到底是对K个近邻目标数值使用普通的算术平均算法,还是同时考虑距离的差异进行加权平原创 2020-05-15 15:15:56 · 323 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第2章 基础篇 学习笔记(八)2.1.2.2支持向量机(回归)总结
目录2.1.2.2支持向量机(回归)1、模型介绍2、数据描述(1)美国波士顿地区房价数据描述(2)美国波士顿地区房价数据分割(3)美国波士顿地区房价数据标准化处理3、编程实践4、性能测评5、特点分析2.1.2.2支持向量机(回归)1、模型介绍支持向量机(回归)是从训练数据中选取一部分更加有效的支持向量,只是这少部分的训练样本所提供的并不是类别目标,...原创 2020-05-12 11:53:28 · 371 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第2章 基础篇 学习笔记(七)2.1.2.1线性回归器总结
目录2.1.2.1线性回归器总结0、引言1、模型介绍2、数据描述(1)美国波士顿地区房价数据描述(2)美国波士顿地区房价数据分割(3)美国波士顿地区房价数据标准化处理3、编程实践4、性能测评5、特点分析2.1.2.1线性回归器总结0、引言回归问题和分类问题的区别在于:其待预测的目标是连续变量,比如:价格、降水量等等。这里不会对回归问题的应用场景进行横向扩展;而是只针对一个“美国波士顿地区房价预测”的经典回归问题进行分析,好让读者朋友对各种回归模型的性能与优原创 2020-05-09 15:15:26 · 772 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第2章 基础篇 学习笔记(六)2.1.1.6集成模型(分类)总结
目录2.1.1.6集成模型(分类)1、模型介绍2、数据描述3、编程实践4、性能测评5、特点分析2.1.1.6集成模型(分类)1、模型介绍常言道:“一个篱笆三个桩,一个好汉三个帮”。集成分类模型便是综合考量多个分类器的预测结果,从而做出决策。只是这种“综合考量”的方式大体上分为两种:一种是利用相同的训练数据同时搭建多个独立的分类模型,然后通过投票的方式,以少数...原创 2020-05-06 11:25:51 · 448 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第2章 基础篇 学习笔记(五)2.1.1.5决策树总结
2.1.1.5决策树1、模型介绍逻辑斯蒂回归和支持向量机模型,都在某种程度上要求被学习的数据特征和目标之间遵照线性假设。然而,在许多现实场景下,这种假设是不存在的。比如,要借由一个人的年龄来预测患流感的死亡率。如果采用线性模型假设,那只有两种情况:年龄越大死亡率越高;或者年龄越低死亡率越高。然而根据常识判断,青壮年因为更加健全的免疫系统,相较于儿童和老年人不容易因患流感而死亡。...原创 2020-05-03 11:18:56 · 598 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第2章 基础篇 学习笔记(四)2.1.1.4K近邻(分类)总结
目录2.1.1.4K近邻(分类)1、模型介绍2、数据描述(1)Iris数据集背景(2)Iris数据集细节资料(3)Iris数据集分割3、编程实践4、性能测评5、特点分析2.1.1.4K近邻(分类)1、模型介绍K近邻模型本身非常直观并且容易理解。算法描述起来也很简单,如图2-6所示。假设有一些携带分类标记的训练样本,分布于特征空间中;蓝色、绿色的样本各...原创 2020-04-30 11:51:05 · 451 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第2章 基础篇 学习笔记(三)2.1.1.3朴素贝叶斯总结
2.1.1.3朴素贝叶斯1、模型介绍(1)朴素贝叶斯的定义朴素贝叶斯是一个非常简单,但是实用性很强的分类模型。不过,和两个基于线性假设的模型(线性分类器和支持向量机分类器)不同,朴素贝叶斯分类器的构造基础是贝叶斯理论。朴素贝叶斯分类器会单独考量每一维度特征被分类的条件概率,进而综合这些概率并对其所在的特征向量做出分类预测。因此,这个模型的基本数学假设是:各个维度上的特征被分类的条件...原创 2020-04-27 12:07:09 · 463 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第2章 基础篇 学习笔记(二)2.1.1.2支持向量机(分类)总结
目录2.1.1.2支持向量机(分类)1、模型介绍2、数据描述(1)手写体数据背景(2)手写体数据读取代码(3)手写体数据分割代码3、编程实践4、性能测评5、特点分析2.1.1.2支持向量机(分类)1、模型介绍在“良/恶性乳腺癌肿瘤预测”的例子中,曾经使用多个不同颜色的直线作为线性分类的边界。同样,对于数据分类问题,更有无数种线性分类边界可供选择。...原创 2020-04-24 12:20:06 · 512 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第2章 基础篇 学习笔记(一)2.1.1.1线性分类器总结
“监督学习”中的“分类学习”0、引言对于每一类经典模型,都将从模型简介、数据描述、编程实践、性能测评以及特点分析5个角度分别进行阐述。...原创 2020-04-21 11:22:07 · 1316 阅读 · 2 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第1章 简介篇 学习笔记(三)“良/恶性乳腺癌肿瘤预测”总结
目录“良/恶性乳腺癌肿瘤预测”总结1、机器学习的三个关键术语(1)任务(2)经验(3)性能2、机器学习的学习过程(1)观察测试集数据分布(2)初始化二类分类器(3)训练定量样本(4)训练全部样本“良/恶性乳腺癌肿瘤预测”总结1、机器学习的三个关键术语(1)任务“良/恶性乳腺癌肿瘤预测”的问题属于二分类任务,待预测的类别分别是良性乳腺癌肿瘤和恶...原创 2020-04-18 11:29:05 · 839 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第1章 简介篇 学习笔记(二)1.4Python编程基础总结
1.4Python编程基础1、Python基本语法(1)一段正确运行的Python代码isMLGeek = True# 如果您是一位机器学习爱好者,系统常规输出:推荐您购买《Python机器学习及实践》。if isMLGeek: print('I recommend you to read "DIY Machine Learning Systems for Kaggle ...原创 2020-04-15 11:25:06 · 386 阅读 · 0 评论 -
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第1章 简介篇 学习笔记(一)1.1机器学习综述、1.2Python编程库、1.3Python环境配置总结
1.1机器学习综述1、卡内基梅隆大学教授Tom Mitchell对于机器学习的定义A program can be said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as meas...原创 2020-03-30 12:15:07 · 489 阅读 · 0 评论