机器学习
文章平均质量分 93
Ma Sizhou
读书不多,想得太多。
展开
-
kaggle比赛:Classify Leaves(使用resnet50预训练模型进行:图片树叶分类)
目录1、比赛介绍:2、数据划分:3、图像增广:4、读取数据:5、模型构造:6、计算损失:7、模型训练:8、模型推理:9、上传预测结果到kaggle:本文内容来源于《动手深度学习》一书。跟着沐神做kaggle比赛。注:以下代码都在jupyter中完成。1、比赛介绍:该任务是:给出树叶的图片,将给出的树叶分成176类。数据如下图所示,通过下面的网址,下载训练数据和测试数据:比赛地址及数据下载地址:https://www.kaggle.com/c/classify-leaves/da.原创 2021-08-07 16:26:03 · 3788 阅读 · 6 评论 -
PyTorch学习笔记——(8)模型构造(层和块),以多层感知机为例介绍
目录1、层和块的概念:2、模型构造:2.1 继承Module来构造模型:2.2 Module的子类:(1)Sequential类:2、自定义块:3、顺序块:4、来源:《动手深度学习2》1、层和块的概念:当我们刚开始学习神经⽹络时,我们关注的是具有单⼀输出的线性模型。在这⾥,整个模型只由⼀个神经元组成。注意,单个神经元(1)接受⼀些输⼊;(2)⽣成相应的标量输出;(3)具有⼀组相关参数(parameters),这些参数可以更新以优化某些感兴趣的⽬标函数。然后,当我们开始考虑具有多个输出的⽹络,.原创 2021-07-16 09:44:01 · 640 阅读 · 2 评论 -
kaggle比赛:Predict California sales prices(房价预测)
目录1、比赛介绍:2、导入数据:3、项目构建:特征选择:预处理:训练:模型推理及保存预测结果:4、上传预测结果到kaggle:5、总结:本文内容来源于《动手深度学习》一书。跟着沐神做kaggle比赛。1、比赛介绍:该任务是预测房屋销售价格的基础上的信息,如卧室的数量,生活区,位置,附近的学校,和卖方总结。数据包括2020年在加州售出的房屋,测试数据集中售出的房屋排在训练数据集中之后。此外,私人排行榜房屋也在公开排行榜房屋之后出售。数据如下图所示,通过下面的网址,下载训练数据和测试数据:比.原创 2021-07-13 20:00:57 · 3822 阅读 · 15 评论 -
机器学习算法——线性回归的详细介绍 及 利用sklearn包实现线性回归模型
目录1、线性回归简介1.1 线性回归应用场景1.2 什么是线性回归1.2.1 定义与公式1.2.2 线性回归的特征与目标的关系分析2、线性回归api初步使用2.1 线性回归API2.2 举例2.2.1 步骤分析2.2.2 代码过程3、线性回归的损失和优化3.1 损失函数3.2 优化算法3.2.1 正规方程(1)什么是正规方程(2)正规方程求解举例3.2.2 正规方程的推导**推导方式一**:**推导方式二**:3.2.2 梯度下降(Gradient Descent)(1)什么是梯度下降(2)梯度的概念(3.原创 2021-02-27 14:21:52 · 3570 阅读 · 0 评论 -
机器学习算法——以癌症分类为例子介绍 逻辑回归(sklearn实现)
目录1、逻辑回归介绍1.1、逻辑回归的应用场景1.2、逻辑回归的原理1.2.1 输入:1.2.2 激活函数1.3、损失以及优化1.3.1 损失1.3.2 优化总结:2、逻辑回归api介绍3、案例:癌症分类预测-良/恶性乳腺癌肿瘤预测3.1 背景介绍3.2 案例分析3.3 代码实现4、分类评估方法4.1 分类评估方法4.1.1 精确率与召回率(1)混淆矩阵:(2) 精确率(Precision)与召回率(Recall)4.1.2 F1-score4.1.3 分类评估报告api4.2 ROC曲线与AUC指标4..原创 2021-03-02 16:48:06 · 3218 阅读 · 1 评论 -
机器学习算法——决策树算法详细介绍,并使用sklearn实现案例预测,可视化决策树
目录一、决策树算法简介二、决策树分类原理1、熵1.1 概念1.2 案例2、决策树的划分依据一:信息增益2.1 概念2.2 案例:3、决策树的划分依据二:信息增益率3.1 概念3.2 案例3.2.1 案例一:3.2.2 案例二:3.3 为什么使用C4.5要好:4、决策树的划分依据三:基尼值和基尼指数4.1 概念4.2 案例一、决策树算法简介决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。决策树:是一种树形结构,其中每..原创 2021-03-08 10:41:19 · 1865 阅读 · 0 评论 -
机器学习算法——详细介绍 集成学习,以及什么是Bagging、随机森林、Boosting、XGBoost
目录一、集成学习算法简介1、什么是集成学习2、机器学习的两个核心任务3、集成学习中boosting和Bagging4、小结二、Bagging和随机森林1、Bagging集成原理2、随机森林构造过程3、随机森林api介绍4、随机森林预测案例4.1、案例背景4.2、步骤分析4.3、代码实现5、bagging集成优点6、小结:三、Boosting1、boosting集成原理1.1 什么是boosting1.2 实现过程:1.3 api介绍2、GBDT2.1 梯度的概念2.2 GBDT执行流程2.3 案例2.4..原创 2021-03-09 11:32:55 · 1228 阅读 · 2 评论 -
机器学习算法——系统性的学会使用 K近邻算法(KNN)
目录1、K-近邻算法简介1.1 什么是K-近邻算法1.2 K-近邻算法(KNN)概念(1)定义:(2)距离公式:1.3 电影类型分析1.4 KNN算法流程总结2、k近邻算法api初步使用2.1 Scikit-learn工具介绍2.1.1 安装2.1.2 Scikit-learn包含的内容2.2 K-近邻算法API2.3 案例2.3.1 步骤分析2.3.2 代码过程3、距离度量3.1 欧式距离(Euclidean Distance):3.2 曼哈顿距离(Manhattan Distance):3.3 切比雪.原创 2021-02-07 11:38:52 · 925 阅读 · 0 评论 -
机器学习算法——详细的介绍 聚类算法 的实现原理(以Kmean算法为中心的优化算法、以及sklearn如何实现)
目录一、聚类算法简介1、认识聚类算法1.1 聚类算法在现实中的应用1.2 聚类算法的概念1.3 聚类算法与分类算法最大的区别小结:二、聚类算法api初步使用1、api介绍2、案例2.1流程分析2.2 代码实现小结:三、聚类算法实现流程(算法原理)1、k-means聚类步骤2、案例3、小结:四、模型评估1、误差平方和(SSE \The sum of squares due to error):2、“肘”方法 (Elbow method) — K值确定3、轮廓系数法(Silhouette Coefficie..原创 2021-03-12 09:09:50 · 1171 阅读 · 0 评论 -
特征工程——主成分分析(PCA)的原理解析
目录一、使用最大方差理论解析PCA原理1、原理解析:2、总结:二、最小平方误差理论解析PCA原理1、原理解析2、总结在机器学习领域中,我们对原始数据进行特征提取,有时会得到比较高维的特征向量。在这些向量所处的高维空间中,包含很多的冗余和噪声。我们希望通过降维的方式来寻找数据内部的特性,从而提升特征表达能力,降低训练复杂度。主成分分析(Principal Components Analysis,PCA)作为降维中最经典的方法,至今已有100多年的历史,它属于一种线性、非监督、全局的降维算法,是面试中经常.原创 2021-03-17 09:15:22 · 2004 阅读 · 0 评论 -
特征工程——什么是 维数灾难,与过拟合又有什么联系?
目录维灾难1 什么是维灾难2 维数灾难与过拟合维灾难1 什么是维灾难随着维度的增加,分类器性能逐步上升,到达某点之后,其性能便逐渐下降有一系列的图片,每张图片的内容可能是猫也可能是狗;我们需要构造一个分类器能够对猫、狗自动的分类。首先,要寻找到一些能够描述猫和狗的特征,这样我们的分类算法就可以利用这些特征去识别物体。猫和狗的皮毛颜色可能是一个很好的特征,考虑到红绿蓝构成图像的三基色,因此用图片三基色各自的平均值称得上方便直观。这样就有了一个简单的Fisher分类器:if 0.5*red +.原创 2021-03-15 11:20:12 · 1100 阅读 · 0 评论 -
特征工程——特征预处理(归一化和标准化),通过例子并利用sklearn实现归一化和标准化
目录特征工程——特征预处理1.1 什么是特征预处理1.1.1 特征预处理定义1.1.2 包含内容(数值型数据的无量纲化)1.1.3 特征预处理API1.2 归一化1.2.1 定义1.2.2 公式1.2.3 API1.2.4 数据计算1.2.5 归一化总结1.3 标准化1.3.1 定义1.3.2 公式1.3.3 API1.3.4 数据计算1.3.5 标准化总结总结:上面就是特征工程所要做的事,下面我们就只针对特征预处理来做一个介绍:特征工程——特征预处理1.1 什么是特征预处理1.1.1 特征预.原创 2021-03-12 16:44:08 · 1745 阅读 · 0 评论 -
特征工程——为什么要特征降维?特征降维有哪些方法?如何使用sklearn实现?
特征降维1、降维1.1 定义降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程降低随机变量的个数相关特征(correlated feature)比如,相对湿度与降雨量之间的相关,我们就可以只选择一个正是因为在进行训练的时候,我们都是使用特征进行学习。如果特征本身存在问题或者特征之间相关性较强,对于算法学习预测会影响较大1.2 降维的两种方式特征选择主成分分析(可以理解一种特征提取的方式)2、特征选择2.1 定义数据中包含冗余或无关原创 2021-03-12 09:07:06 · 6946 阅读 · 0 评论 -
特征工程——什么是特征提取?本文使用sklearn实现字典特征提取和文本特征提取
目录特征工程——特征提取1、特征提取1.1 定义1.2 特征提取API2、字典特征提取2.1 应用2.2 流程分析2.3 总结3、文本特征提取3.1 应用3.2 流程分析3.3 jieba分词处理3.4 案例分析3.5 Tf-idf文本特征提取3.5.1 公式3.5.2 案例3.6 Tf-idf的重要性4、总结:特征工程——特征提取特征提取是特征工程里面的一部分操作,下面开始介绍特征提取:什么是特征提取呢?1、特征提取1.1 定义将任意数据(如文本或图像)转换为可用于机器学习的数字特征.原创 2021-03-08 10:49:08 · 970 阅读 · 0 评论 -
机器学习分类评估方法——准确率、精确率、召回率、F1-score、ROC曲线 的详细介绍
目录1、分类评估方法1.1 分类评估方法1.1.1 精确率与召回率(1)混淆矩阵:(2) 精确率(Precision)与召回率(Recall)1.1.2 F1-score1.1.3 分类评估报告api1.2 ROC曲线与AUC指标1.2.1 TPR与FPR1.2.2 ROC曲线1.2.3 AUC指标1.2.4 AUC计算API总结:2、ROC曲线的绘制2.1 曲线绘制(1) 如果概率的序列是(1:0.9,2:0.7,3:0.8,4:0.6,5:0.5,6:0.4)(2) 如果概率的序列是(1:0.9,2:.原创 2021-03-02 16:59:51 · 2486 阅读 · 0 评论 -
什么是交叉验证?什么是网格搜索?
目录1、什么是交叉验证(cross validation)1.1 分析1.2 为什么需要交叉验证2、什么是网格搜索(Grid Search)3、交叉验证,网格搜索(模型选择与调优)API:1、什么是交叉验证(cross validation)交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证。1.1 分析我们知道数据分为训练集和测试集,但是为了.原创 2021-02-06 00:47:50 · 1073 阅读 · 0 评论 -
CUDA、CUDNN、CUDA Driver、CUDA Toolkit、NCVV的区别?
我的课题是关于深度学习的,需要在GPU上跑程序,但是对于标题的名词概念有些模糊,所以觉得有必要写一篇文章当做笔记供之后参考。1、什么是CUDA?CUDA 英文全称是Compute Unified Device Architecture,是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。2、什么是CUDNN?CUDNN 是用于深度神经网络的GPU加速库。它强调性能、易用性和低内存开销。可以集成到高级的机器学习框架中,如谷歌的Tensorflow、加州大学伯克利分校的.原创 2020-07-29 20:38:10 · 3737 阅读 · 0 评论 -
马尔可夫链 (Markov Chain)
原文链接: link.1. 唯一让我彻底蒙圈的课程这些课程真的太难了,大学里无数人为此伤透了脑筋,挂科率杠杠的。我当初也是的,特别是随机过程这门课,上完了一学期的课,只记住了几个公式,问我干嘛的?不知道!像其他的高等数学啊,电磁场电磁波啊,通信原理啊,我都能大体知道是干嘛的,用在什么地方。讲真的,唯独就随机过程,感觉这门课太变态了,学的我云里雾里的,尤其是我当时那本只有公式,别无其他的影印教材,看了让人直蒙圈。此后的很长一段时间,随机过程都是我的噩梦,是一段不忍回忆的历史,不过庆幸还好工作中不会.转载 2020-06-13 11:37:47 · 1003 阅读 · 0 评论 -
表示学习与特征工程
表示学习与特征工程的概念当我们进行机器学习算法时,首先做的第一步是对数据进行提取特征,而在机器学习中一般有两种思路来提升原始数据的表达:1.表示学习:为了提高机器学习系统的准确率,我们就需要将输入信息转换为有效的特征,或者更一般性称为表示。如果有一种算法可以自动地学习出数据有效的特征,并提高最终机器学习模型的性能,那么这种学习就是可以叫做表示学习(Representation Learnin...原创 2020-03-07 09:04:27 · 613 阅读 · 0 评论 -
机器学习的概念以及机器学习中的假设函数、代价函数、目标函数
基本概念作为一个初学者,说一下在我的理解中什么是机器学习:从字面意思理解就是,让机器自己学习,这里的机器一般指的就是计算机,而我们所要研究的就是怎样才能让机器自己学习。因此我们才要研究机器学习的算法,通过这个算法,我们就能得出模型,进而就可以解决我们现实生活中的问题。例如:对于房价的预测,我们要得到的模型是,输入一些给出的条件,来预测出这个房子的价格。那么我们现在要做的就是怎么才能得到这个...原创 2019-12-10 18:53:33 · 1461 阅读 · 0 评论