机器学习
文章平均质量分 88
hhhcbw
Hello World!!!
展开
-
sklearn包使用Extra-Trees和GridSearchCV完成成人死亡率预测
使用sklearn包的Extra-Trees和GridSearchCV完成成人死亡率预测,含有关分析。原创 2022-09-24 09:02:24 · 7625 阅读 · 3 评论 -
sklearn包MLPClassifier的使用详解+例子
sklearn包中MLPClassifier的使用详解,以及应用于iris数据集以及手写数字识别的案例分析。原创 2021-05-12 16:04:48 · 37060 阅读 · 8 评论 -
机器学习(十三)——神经网络
人工神经网络(artificial neural network,ANN),简称神经网络(neural network,NN),是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具,常用来对输入和输出间复杂的关系进行建模,或用来探索数据的模式。神经网络概述神经网络是一种运算模型,由大量的节点(或称“神经元”)和之间相互的联接构成。每个节.原创 2021-12-09 12:23:07 · 2118 阅读 · 0 评论 -
机器学习(十二)——感知器算法
感知器算法是一种可以直接得到线性判别函数的线性分类方法,它是基于样本线性可分的要求下使用的线性可分与线性不可分假设有一个包含 n 个样本的样本集合 Y={y1,x2,…,xn} , 其中 [公式] . 我们想要找到一个线性判别函数。...原创 2021-12-08 14:33:52 · 13516 阅读 · 2 评论 -
机器学习(十一)——集成学习
集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务。根据个体学习器的生成方式,目前集成学习的方法大致分为两类,即个体学习器之间存在强依赖关系,必须串行生成的序列化方法;另一类就是个体学习器之间不存在强依赖关系、可同时生成的并行化方法。前者的代表是Boosting,后者的代表室Bagging和随机森林。集成学习中的几个概念1、个体学习器:集成学习的一般结构都是先产生一组个体学习器(individual learner),在用某种策略将他们结合起来,个体学习器通常由一.原创 2021-12-07 13:43:36 · 6136 阅读 · 0 评论 -
机器学习(十)——支持向量机
支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行广义线性分类,其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)。SVM可以通过核函数进行非线性分类,是常见的核学习(kernel learning)方法之一。什么是支持向量机支持向量机(support vector machines)是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划.原创 2021-12-06 19:33:07 · 4528 阅读 · 0 评论 -
机器学习(九)——Kmeans聚类
k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。Kmeans介绍算法接受参数k,然后将事先输入的n个数据划分为k个聚类以便使得所获得的聚类满足同一聚类中的对象相似度高,而不同聚类中的相似度低。以空间中k个中心进行聚类,对最靠近他们的对象归类,通过迭代的方法,逐次更新聚类中心的值,直至得到最好的聚类结果。算法描述:.原创 2021-12-06 11:41:50 · 7614 阅读 · 0 评论 -
机器学习(八)——决策树
决策树是基于树结构进行决策的。决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率。它是一种非参数学习算法,既可以解决分类问题,也可以解决回归问题。在学习决策树前需要先对熵的概念进行了解。信息熵熵:用来描述事物的混乱程度,是对平均不确定性的度量。信息熵:由香农提出,。是度量样本集合纯度的最常用的指标。熵在信息论中代表随机变量不确定度的度量。一条信息大小和它的不确定性有直接关系,要搞清楚一件非常不确定的事情,或者是我们一无所知的.原创 2021-12-05 12:29:40 · 803 阅读 · 0 评论 -
机器学习(七)——分类算法的评价
分类准确度存在的问题如果现在有一个癌症预测系统,输入患者的信息,可以判断是否有癌症。如果只使用分类准确度来评价模型的好坏是否合理?假如此时模型的预测准确度是99.9%,那么是否能认为模型是好的呢?如果癌症产生的概率只有0.1%,那就意味着这个癌症预测系统只有预测所有人都是健康,即可达到99.9%的准确率。那么此时还认为模型是好的嘛?假如更加极端一点,如果癌症产生的概率只有0.01%,那就意味着这个癌症预测系统只有预测所有人都是健康,即可达到99.99%的准确率。到这里,就能大概理解分类准确度评价模型存在的原创 2021-12-04 12:20:53 · 1398 阅读 · 0 评论 -
机器学习(六)——逻辑回归
逻辑回归(Logistics Regression),逻辑回归虽然叫回归,但实际上属于分类算法,常用于二分类的任务。当然逻辑回归也可以用于多分类,这就需要加上其它的方法。至于逻辑回归是怎么解决分类问题,实质上是把样本特征和样本发生的概率联系起来。认识逻辑回归逻辑回归,通常作为分类算法,只可以解决二分类问题。最终得出的结果是一个概率值。首先给出逻辑回归的公式:如何得到 p^\widehat{p}p 的函数表达式呢?既然叫逻辑回归,那就说明跟回归还是有关系的,先回顾一下回归问题:通常线性方程.原创 2021-12-03 11:09:16 · 2477 阅读 · 0 评论 -
机器学习(五)——模型泛化
引言众所周知,考试前会刷题。但是考试大部分又不是原题,那考前刷题有什么用?我们考前做的题目的当然不是为了赌考试有一模一样的题(有可能也是。。。),我们是为了从题目中学到一般的知识,这样我们在遇到新题目的时候也可以根据知识来做出题目。其实在机器学习中,考前刷的题就是训练集,考试中的题就是我们模型之后遇到的新样本。...原创 2021-12-02 14:23:38 · 2710 阅读 · 0 评论 -
机器学习(四)——PCA主成分分析
引言我们在完成一个机器学习任务比如线性回归,所使用数据的维度可能非常高(训练测试耗时大且占内存大),或者属性之间可能具有相关性,比如奖学金和绩点(奖学金也反映了绩点的情况),这就会造成数据的冗余。这时我们就可以用到 PCA(Principal components analysis)主成分分析,来对数据进行降维,减小数据的冗余。PCA的思想当然,PCA 不是简单地选择几个属性或者说是去除几个属性,它是综合考虑了所有属性,确定出几个主成分(或者说是新的属性),这个主成分可以说是原始属性的综合。所以原创 2021-12-01 16:43:26 · 2422 阅读 · 0 评论 -
机器学习(三)——多项式回归
引言我们创建一组数据,并绘出散点图。x = np.random.uniform(-3, 3, size=100)print(x.shape)y = 0.5 + x**2 + x + 2 + np.random.normal(0, 1, size=100)plt.scatter(x, y)plt.show()我们直接使用线性回归看看效果。from sklearn.linear_model import LinearRegressionlin_reg = LinearRegression原创 2021-11-29 21:31:27 · 4286 阅读 · 1 评论 -
机器学习(二)——K近邻算法
引言在具体讨论 KNN 算法之前,我们先通过一个具体的例子引入。我们创建一个数据集,并将其可视化出来。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltraw_data_x = [[3.3935, 2.3313], [3.1101, 1.7815], [1.3438, 3.3684], [3.5823, 4.6792],原创 2021-11-29 17:14:36 · 657 阅读 · 0 评论 -
线性回归实战——波士顿房价预测
利用马萨诸塞州波士顿郊区的房屋信息数据,使用线性回归模型训练和测试一个房价预测模型,并对模型的性能和预测能力进行测试分析。使用的编程语言是python,主要使用了pandas、matplotlib、sklearn这几个包。导入数据Boston房价数据下载地址,提取码:nefuimport pandas as pd# 载入波士顿房屋的数据集data = pd.read_csv('Boston.csv')# print(data)# print(type(data))Y = data['.原创 2021-11-27 11:55:03 · 5880 阅读 · 0 评论 -
机器学习(一)——线性回归
在详细了解线性回归的所有知识点之前,我们先来了解一下线性回归的重要性。理论层面的重要性Linear Regression:是回归问题的基础Logistic Regression:是分类问题的基础可扩展性:使用基函数来解决非线性问题应用层面的重要性——在工业中最广泛应用的模型高效易用(简单、易训练)可解释性强(参数直接反应特征强弱)适合预估(概率形式)资源丰富(开源资料、文档、文献、论文)建立模型基本形式数据集一共有 p 个数据点,每个数据点有 d 个描述的维度 xi=原创 2021-11-24 18:38:21 · 6665 阅读 · 0 评论