玩转Python机器学习
文章平均质量分 94
我们将探索机器学习的核心概念,包括数据预处理、特征工程、监督学习、无监督学习和深度学习等。您将了解不同的机器学习算法和模型,并学会如何使用Python库和框架,如NumPy、Pandas、Scikit-learn和TensorFlow等,来构建和训练自己的机器学习模型。
小刘要努力。
未来不担心,过去不后悔,现在不犹豫。
展开
-
26 | 随机森林算法
在了解随机森林算法前,需要知道集成算法。集成算法是构建多个学习器,然后把它们来完成学习任务的,常常可以获得比单一学习显著优越的学习器更好的泛化能力。最常见的集成算法模型分别是Bagging和Boosting。在了解Bagging算法前,需要知道Bootstrapping算法。Bootstrapping指的是利用有限的样本经过多次抽样,重新建立起可以代表母体样本分布的新样本。Bootstrapping方法的实现很简单,假设抽取的样本大小为 ,在原样本中进行有放回的抽样,一共抽取 次。原创 2019-05-22 19:30:11 · 1005 阅读 · 0 评论 -
30 | 聚类算法
图像压缩时用较少的数据量来表示原有的像素矩阵的过程,该过程称为图像编码,但是数字图像的数据量庞大,需要占用很大的存储空间,给存储、计算、传输等带来不小的资源消耗,因此会预先对数字图像进行压缩,压缩的方法之一就是聚类算法。聚类也是进行异常检测的方法之一,常用的便是基于距离的异常检测方法,该方法包含并拓展了基于统计的思想,即使数据集不满足任何特定分布模型,仍能有小弟发现离群点,特别是当空间维度数目较高时,算法的效率比基于密度的高很多。常用的聚类算法分为基于划分、层次、密度、网络、统计学、模型等类型的算法。原创 2023-08-19 10:27:56 · 214 阅读 · 0 评论 -
22 | 贝叶斯分类算法
贝叶斯分类算法是一类基于贝叶斯定理的分类技术。在统计分类任务中,这些算法使用特定的假设来建立特征之间的关系。原创 2023-08-03 14:48:05 · 256 阅读 · 0 评论 -
23 | 实现K-近邻(KNN)分类器
K近邻算法是一种强大而易于实现的算法,适用于分类和回归任务。其主要优点是实现简单,理解直观。不过,它也有缺点,如对于大数据集计算量大,需要大量存储空间,并且对于不平衡的数据类别,可能产生偏见。原创 2019-06-10 12:40:56 · 1836 阅读 · 0 评论 -
20 | 分类模型评估指标
ROC曲线是以不同的分类阈值为基础,绘制出真阳性率(True Positive Rate,TPR)和假阳性率(False Positive Rate,FPR)之间的关系曲线。例如,在上面的混淆矩阵中,第一行表示实际标签为负例的样本,第二行表示实际标签为正例的样本。因此,混淆矩阵中的4表示实际为负例且预测为负例的样本数,3表示实际为正例且预测为正例的样本数。你可以用自己的数据集替代示例中使用的乳腺癌数据集,然后根据实际情况应用这些指标来评估二分类模型的性能。在机器学习中,分类模型是常见的一种模型。原创 2023-08-03 14:10:58 · 923 阅读 · 0 评论 -
17 | 逻辑回归
逻辑回归是一种监督学习算法,用于解决二元分类问题。它的目标是预测一个二元变量的结果,例如预测一个人是否会购买某个产品,或者预测某个病人是否患有某种疾病。逻辑回归的输出是一个介于0和1之间的概率值,表示给定输入数据属于正类的概率。如果概率大于或等于一个预定义的阈值,则将该输入数据分类为正类,否则将其分类为负类。逻辑回归(Logistic Regression)是一种广泛用于二分类问题的回归模型,尽管它的名称里包含“回归”二字,但它实际上是用于分类的一种算法。原理。原创 2020-04-03 10:19:51 · 1079 阅读 · 1 评论 -
《玩转Python机器学习》 专栏汇总目录
欢迎来到《玩转Python机器学习》专栏!在这个专栏中,我们将探索机器学习的奥秘,并学习如何用Python实现各种强大的机器学习算法和技术。无论您是初学者还是有一定机器学习经验的开发者,这个专栏都将为您提供有价值的内容。我们将从基本概念开始介绍,逐步深入,并提供实际的代码示例和项目案例,让您能够从理论到实践得到全面的学习。原创 2023-07-26 16:10:36 · 288 阅读 · 0 评论 -
16 | 回归模型评估
使用以下数据集,建立一个简单的线性回归模型,其中第一列为自变量X,第二列为因变量Y。当训练出线性回归模型后,需要对回归模型进行评估,最常用的评价回归模型的指标分别是平均绝对误差,均方误差,决定系数和解释方差。,这里的 指的是真实值的平均值,越接近1,表明变量 对 的解释能力越强,这个模型对数据拟合的也较好;平均绝对误差(Mean Absolute Error,MAE)是所有单个观测值与真实值的偏差的绝对值的平均,其计算公式为。,SSE计算观测值与真实值的偏差的总平方和,这里的。是回归模型的预测值。原创 2023-07-26 16:14:03 · 194 阅读 · 0 评论 -
15 | 线性回归代码实现
还有统计模块比较出名的Statsmodels中的OLS最小二乘法也可以实现线性回归,虽然Statsmodels在简便性上是远远不及SPSS和 Stata等数据分析软件的,但它的优点在于可以与 Python 的NumPy、Pandas有效结合。在评价线性回归模型的性能,通常采用计算点到直线的距离的平方和,也是常说的均方误差(Mean Squared Error,MSE)。在很多回归分析中,并不都是线性关系,其中也有可能是非线性关系,如果还使用线性模型去拟合,那么模型的效果就会大打折扣。原创 2023-07-26 16:08:08 · 275 阅读 · 0 评论 -
13 | 卡方检验
卡方检验基于一个称为卡方统计量的值,该值表征观察到的频率与假设变量独立时预期的频率之间的差异。$期望频数 = \frac{(行Y组总计数 \times 列B类总计数)}{总计数} = \frac{(100 \times 80)}{200} = 40 $接下来,我们计算卡方统计量对应的p值,用于检验原假设。期望频数的值是根据上述计算得出的。卡方统计量用于衡量观察频数与期望频数之间的差异,用于判断两个分类变量之间是否存在显著关联。是第j列的总频数,N是所有观察频率的总和。好的,我来用中文重新回答你的问题。原创 2023-07-22 08:54:36 · 129 阅读 · 0 评论 -
12 | T检验
两独立样本t检验的检验假设是两总体均数相等,即H0:u1=2,也可表述为u1-μ2=0,这里可将两样本均数的差值看成一个变量样本则在H0条件下两独立样本均数t检验可视为样本与已知总体均数μ1-μ2=0的单样本t检验,统计量计算公式为。需要注意的是,在进行独立样本T检验时,应确保两个样本具有相同的方差,或在。有12名接种卡介苗的儿童,8周虐用两批不同的结核菌素,一批是标准结核菌素,一批是新制结核菌素,分别注射在儿童的前臂,两种结核菌素的皮肤浸润反应平均直径(mm)如表所示,问两种结核菌素的反应性有无差别。原创 2023-07-22 08:38:42 · 124 阅读 · 0 评论 -
5 | 机器学习中的牛顿法代码实现
请注意,这只是一个简单的示例,实际中的应用可能涉及更复杂的函数和参数。牛顿法的迭代过程可以根据具体问题进行调整和改进,以获得更好的结果。在这个例子中,我们可以看到牛顿法在第一次迭代后就找到了函数的最小值。然后,我们选择一个初始点作为起始位置,例如 x = 0。让我们以一个简单的二次函数的最小化问题为例来演示牛顿法的应用。我们将使用牛顿法来找到使得函数 f(x) 最小的 x 值。在这个例子中,我们可以设置迭代次数为5次作为停止条件。首先,我们需要计算函数的一阶导数和二阶导数。假设我们要最小化函数。原创 2023-07-20 16:13:36 · 141 阅读 · 0 评论 -
29 | MNIST多分类
因此精度通常与另一个指标一起使用,召回率(recall),也称之为灵敏度(sensitivity)或者真正类率(TPR):是分类器正确检测到正类实例的比例。本例中第一行表示所有 “非9”(负类)的图片:51608张被正确的分为“非9”类别(真负类),2443张被错误的分成“9”类别(假正类)第二行表示所有“9”类别(正类)图片:1653张被错误分成“非9”类别(假负类),4296张被正确的分成“9”类别(真正类)想知道是不是这样,可以调用 decision_function() 方法,返回 10 个分数。原创 2021-07-16 09:00:16 · 936 阅读 · 0 评论 -
11 | Z检验
某机床厂加工一种零件,根据经验知道,该厂加工零件的椭圆度近似服从正态分布,其总体均值为p=0.081mm,总体标准差为=0.025。本例Z=10.40>1.96(查表得0.975对应值),故P原创 2021-04-19 20:45:22 · 1204 阅读 · 0 评论 -
3 | 机器学习中的概率论基础精讲
这是统计学的基本概念,随便找本概率论基础都可以找到这些概念,理解为王。原创 2021-04-18 09:50:25 · 951 阅读 · 0 评论 -
4 | 机器学习中的牛顿法原理
牛顿法(Newton’s Method)是一种在机器学习中广泛应用的优化算法,以数学家和物理学家艾萨克·牛顿的名字命名。它被用于求解最小化函数的问题,特别是在拟合模型参数、求解方程和优化损失函数等方面。牛顿法基于泰勒级数展开的概念,通过迭代的方式逐步逼近函数的最小值。它利用函数的一阶和二阶导数信息来估计最优解,并以此调整当前位置。其主要思想是通过找到函数的局部最小值来不断优化目标函数,直到满足预定的停止条件。初始化:选择初始点作为起始位置。原创 2021-04-17 21:29:48 · 953 阅读 · 0 评论 -
28 | SVM人脸识别
使用这种核支持向量机,我们学习一个合适的非线性决策边界。我们将使用Wild数据集中的标记人脸,该数据集由数千张不同公众人物的整理照片组成。使用grid search cross-validation来选择我们的参数。接下来我们尝试一下,用不同多的数据点,看看效果会不会发生变化。观察发现有3个点做了特殊的标记,它们恰好都是边界上的点。观察可以发现,只需要支持向量我们就可以把模型构建出来。作为支持向量机的一个例子,让我们来看看人脸识别问题。这条线就是我们希望得到的决策边界啦。随便的画几条分割线,哪个好来这?原创 2021-04-28 11:49:40 · 1022 阅读 · 0 评论 -
25 | 贝叶斯分类算法实现文档分类
bayes”的 TF-IDF 值要大于“this”的 TF-IDF 值。这就说明用“bayes”这个单词做区分比单词“this”要好。原创 2021-04-22 13:55:52 · 967 阅读 · 0 评论 -
2 | 机器学习中的统计学习方法概论
统计学习的定义、研究对象和方法、无监督学习、半监督学习、强化学习统计学习方法三要素:模型、策略、算法模型选择:正则化、交叉验证、学习的泛化能力生成模型和判别模型监督学习的应用:分类问题、标注问题、回归问题。原创 2021-04-17 23:00:25 · 1017 阅读 · 0 评论 -
21 | 机器学习中常见距离度量及实现
*删除操作:**删除s1[i],以期望s1[i-1]能与s2[j]匹配(如果s1[i-1]前边的几个字符能与s2[j]前边的几个字符有较好的匹配,那么这么做就能得到更好的结果)。另外,对于s1[i-1]之前的字符跟s2[j]匹配的情况,edit[i-1][j]中已经考虑过。于是替换操作的编辑距离就是edit[i-1][j-1]+f(i,j)。定义状态矩阵edit[len1][len2],len1和len2分别是要比较的字符串s1和字符串s2的长度+1(+1是考虑到动归中,一个串为空的情况)原创 2021-04-17 12:12:42 · 965 阅读 · 0 评论 -
1 | 机器学习简史和常用算法的梳理
同样的线性分类情况下,如果异常点较多的话,无法剔除,首先 LR,LR 中每个样本都是有贡献的,最大似然后会自动压制异常的贡献。决策树是利用训练数据集来构造决策树,用构造好的决策树对将来的新数据进行分类的监督型算法,典型的算法有 ID3、ID4、ID5、C4.0、C4.5、C5.0、CART 等,其常用于二元或者多元分类。KNN 算法中,所选择的邻居都是已经正确分类的对象。随机森林是监督型分类算法,顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。原创 2021-04-17 23:15:27 · 1057 阅读 · 0 评论 -
9 | 方差分析和实例
检验多个总体均值是否相等,通过分析察数据的误差判断各总体均值是否相等下图,所有的样本都在一个相似的正态分布区间下图,所有的样本都是正态分布,但不在同一分布区间为了对几个行业的服务消费者协会在四个行业分别抽取了不同的企业作为样本。最近一年中消费者对总共23家企业投诉的次数如下表分析四个行业之间的服务质量是否有显著差异,也就是要判断“行业”对“投诉次数”是否有显著影响。原创 2021-04-19 20:21:36 · 1027 阅读 · 0 评论 -
10 | 相关分析
在二维空间中分布着一些数据,我们想知道数据点坐标X轴和Y轴的相关程度,如果X与Y的相关程度较小但是数据分布的比较离散,这样会导致求出的协方差值较大,用这个值来度量相关程度是不合理的。虽然协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关),但是协方差值的大小并不能很好地度量两个随机变量的关联程度。计算得出,他们的皮尔森相关系数=1,P-vlaue=0,从以上可以直观看出,如果两个基因的表达量呈线性关系,则具有显著的皮尔森相关性。以上是两个基因呈线性关系的结果。原创 2021-04-19 17:16:32 · 928 阅读 · 0 评论 -
27 | SVM算法
今天将介绍另一种简单的线性二分类模型:感知机(Perceptron),它的要求比较松,只要能找到一个超平面将正负样本分割开就行!它的目标函数形式也简单:f(x)=sign(wTx∗)f(x)=sign(w^Tx^*)f(x)=sign(wTx∗)同样,这里x∗=[xT,1]Tx^*=[x^T,1]^Tx∗=[xT,1]T,signsignsign表示符号函数,对于t≥0t\geq 0t≥0,有sign(t)=1sign(t)=1sign(t)=1,反之sign(t)=−1sign(t)=-1sign(原创 2021-04-28 11:34:34 · 1187 阅读 · 0 评论 -
22 | 机器学习中KNN算法
K近邻法(KNN)是一种很基本的机器学习算法,属于监督学习类算法,是一种简单易懂的方法,可用于回归和分类。比如我们要给点 A 做预测,做的时候,我们经常采用原则,A点最近的 K 个点属于哪个类最多,A点就属于那个类;做的时候,一般采用附近K个点的作为A点的回归值。很多人会把 KNN 与 KMeans 混合,记住 KNN:K 是指附近的 K 个点,有分类标签;KMeans:K 是指分成 K 类,无分类标签。原创 2021-04-18 21:28:23 · 989 阅读 · 0 评论 -
25 | Titanic 乘客生存决策树预测
1.特征选择是分类模型好坏的关键。选择什么样的特征,以及对应的特征值矩阵,决定了分类模型的好坏。通常情况下,特征值不都是数值类型,可以使用 DictVectorizer 类进行转化;2.模型准确率需要考虑是否有测试集的实际结果可以做对比,当测试集没有真实结果可以对比时,需要使用K 折交叉验证 cross_val_score,就是交叉熵;3.Graphviz 可视化工具可以很方便地将决策模型呈现出来,帮助你更好理解决策树的构建。原创 2021-04-23 23:40:14 · 967 阅读 · 1 评论 -
【机器学习算法专题(蓄力计划)】十五、机器学习中玄乎的最大熵原理及模型
【机器学习算法专题(蓄力计划)】十五、机器学习中玄乎的最大熵原理及模型原创 2021-04-20 23:48:32 · 917 阅读 · 0 评论 -
19 | 特征数据预处理
这个意义是十分重大的,想象一下,我们经常通过梯度下降来进行优化求解,公式一般如下,如果特征之间的数值差异太大,那么更新的结果肯定也会产生较大的差异,这是我们所不希望的。在最开始的时候,我们认为特征之间的重要程度的是一样,并不想偏袒哪个特征,所以这部预处理工作必做!处理后的所有特征的值都会被压缩到 0到1区间上.这样做还可以抑制离群值对结果的影响.在机器学习中,如果我们对训练集做了上述处理,那么同样的对测试集也必须要经过相同的处理。来返回新的列的名字,其中0和1就代表是不是这个属性.对所有的数据都做了映射。原创 2021-04-19 16:52:47 · 889 阅读 · 0 评论 -
8 | 线性代数的基础代码操作
可以看成是 u 在 v 上的投影长度乘以 v 的模长,如果 v 为单位向量,则 u 和 v 的内积即为 u 在 v 上的模长。我们称 x = 0.84 , y = 1.87 为线性方程的近似解,正是因为由此得到的。二维平面中,向量的外积表示两个向量张成的平行四边形的 “面积”三维空间中,u 和 v 向量的外积表示两个向量张成平面的法向量。2、矩阵的零空间的维数为0,或者列空间的维数为n。: 通常情况下,线性代数下的向量是列向量 即。,在这个矩阵中,每一列都是与。,二重特征值6,所对应的。原创 2021-04-18 10:20:36 · 921 阅读 · 0 评论 -
18 | 逻辑回归源码实现
逻辑回归(LogisticRegression)简单来看就是在线性回归模型外面再套了一个SigmoidSigmoidSigmoidδt11e−tδt1e−t1而将ttt替换为线性回归模型wTx∗w^Tx^*wTx∗(这里x∗xT1Tx∗xT1TfxδwTx∗11e−wTx∗fxδwTx∗1e−wTx∗1Sigmoid。原创 2021-04-20 23:36:38 · 894 阅读 · 0 评论 -
24 | 决策树算法
决策树是解决分类和回归问题的一种常见的算法。决策树算法采用树形结构,每一次选择最优特征,来实现最终的分类,因此决策树是一种递归的算法。但是,决策树很容易产生过拟合现象,最常见的处理方法进行剪枝的处理和限制决策树的深度。随机森林,是由多棵决策树集成,因此随机森林一种基于树的模型集成学习方法,下面,将详细介绍决策树和随机森林算法。决策树最重要的是选择特征,这个选择特征的标准就是依靠熵而定。因此,学习决策树前,需要介绍决策树中的熵,其中包括信息熵、条件熵、联合熵和互信息。在了解信息熵之前,需要知道信息量。信息量是原创 2021-01-29 16:06:16 · 1276 阅读 · 1 评论 -
14 | 线性回归算法
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。最小二乘法是一种数学优化技术,它通过最小化误差的平方和寻找数据的最佳函数匹配。最早接触最小二乘法,应该是在高中初等数学中。要想拟合直线达到最好的效果,就是将直线和所有点都近,即与所有点的距离之和最小。比如样本点(xi,yi)(x_i,y_i)(xi,yi) 与直线y=a+bxy=a+bxy=a+bx 之间的“距离”,代入方程计算出距离等于 ∣yi−(a+bxi)∣2{\left| {{y_i}原创 2021-01-29 16:04:13 · 978 阅读 · 0 评论 -
7 | 快速入门线性代数的向量和矩阵篇
@Author:Runsen在本节中,将介绍向量知识基础,开始学习行向量和列向量的基本概念,并逐步了解行列式以及向量的加减乘除和矩阵的线性运算,以及如何使用Python代码计算向量或者矩阵的相关线性运算。向量和线性运算向量在这里,介绍的是向量在线性代数中的应用。向量的概念其实很简单,比如向量[1,2][1 ,2][1,2],就是一个维度是(1,2)(1,2)(1,2) 的二维的行向量,同样的道理向量 [12]\left[ \begin{array}{l}1\\2\end{array} \right]原创 2021-01-29 16:00:04 · 1099 阅读 · 0 评论 -
6 | 快速入门高等数学的导数和微积分篇
微积分是现代数学的基础,在学习机器学习算法,更多用到的是微积分,概率密度函数,分布函数等概念和计算都要借助于微积分来计算。但是,如果需要换元,那么定积分的难度有点加大,但也不是那么难计算了,下面计算下面的定积分。莱布尼兹采用了微分符号 ,并明确了函数和,差,积,商,乘幂和方根的微分公式,也是微分法则,如下表1.4所示。这需要定义函数,通过evalf方法传入x的数值,具体代码如下。可导,则函数的和,差,积和商的求导法则,如下表1.2所示。简单的说,导数就是曲线的斜率,是曲线变化快慢的反应。原创 2021-01-30 21:04:30 · 1614 阅读 · 0 评论