![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
machine learning
tigerlib
种一棵树最好的时间是十年前,其次是现在
展开
-
Scikit-learn中的API总结
sklearn.neighbors.KNeighborsClassifier(n_neighbors=5)n_neighbors:int,可选(默认= 5),k_neighbors查询默认使用的邻居数原创 2019-07-30 14:07:22 · 800 阅读 · 1 评论 -
逻辑回归的梯度下降计算
目的:找到损失函数的最小值;方法:梯度下降z=wTx+bz = w^Tx + bz=wTx+by^=a=σ(z)\hat{y} =a= \sigma(z)y^=a=σ(z)损失函数单个训练样本的损失函数:L(y^,y)=−(ylogy^)−(1−y)log(1−y^)L(\hat{y},y) = -(y\log\hat{y})-(1-y)\log(1-\hat{y})L(...原创 2019-11-04 00:15:09 · 478 阅读 · 0 评论 -
决策树算法知识要点
1 决策树的基本概念决策树(decision tree ) 是一种基本的分类与回归方法(这里主要讨论用于分类的决策树);决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程可以认为是 if-then 规则的集合。由决策树的根结点到叶结点的每一条路径构建一条规则路径上内部结点的特征对应着规则的条件,而叶结点的类对应着规则的结论决策树的路径或其对应的if-then 规...原创 2019-08-24 19:22:25 · 564 阅读 · 0 评论 -
学习笔记:浅谈NP完全性问题
学习笔记:浅谈NP完全性问题 ...转载 2019-10-01 01:06:55 · 640 阅读 · 0 评论 -
朴素贝叶斯算法知识要点
1 朴素贝叶斯法典型的生成学习方法。利用训练数据学习P(X∣Y)P(X|Y)P(X∣Y)和P(Y)P(Y)P(Y)的概率估计,从而得到联合概率分布:P(X,Y)=P(Y)P(X∣Y)P(X,Y)=P(Y)P(X|Y)P(X,Y)=P(Y)P(X∣Y)概率估计方法极大似然估计(见3(2)先验概率及条件概率的计算)贝叶斯估计用极大似然估计可能会出现所要估计的概率值为0 的情况。这时会...原创 2019-08-21 22:30:48 · 488 阅读 · 0 评论 -
k近邻算法知识要点
1 kkk 近邻算法kkk近邻法(k-nearest neighbor, k-NN) 是一种基本的分类与回归方法,这里只讨论分类问题中的k-NN。kkk近邻法的三个基本要素:kkk值的选择、距离度量、分类决策规则。kkk近邻法没有显式的学习过程,实际上利用训练集对特征空间进行划分,并作为其分类的"模型"。kkk近邻算法输入:训练数据集 T={(x1,y1),(x2,y2)...原创 2019-08-21 15:07:03 · 855 阅读 · 0 评论 -
感知机模型知识要点
1 感知机(perceptron)学习 模型二分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取 +1 和 -1 二值;感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型;感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化, 求得感知机模型;感知机学习算法具有简单而易于实现的...原创 2019-08-21 01:10:34 · 609 阅读 · 0 评论 -
逻辑斯谛回归与最大熵模型
1 逻辑斯谛回归模型逻辑斯谛回归模型是由以下条件概率分布表示的分类模型。P(Y=k∣x)=exp(wk⋅x)1+∑k=1K−1exp(wk⋅x),k=1,2,...,K−1P(Y=k|x)=\frac{\exp(w_k\cdot x)}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)},k=1,2,...,K-1P(Y=k∣x)=1+∑k=1K−1exp(wk...原创 2019-08-24 19:21:36 · 340 阅读 · 0 评论 -
模型的评估与选择
模型评估与模型选择训练误差:模型 Y=f^(X)Y=\hat f(X)Y=f^(X) 关于训练集 TTT 的平均(经验)损失Remp(f^)=1N∑i=1NL(yi,f^(xi))R_{emp}(\hat f)=\frac{1}{N}\sum^{N}_{i=1}L(y_{i},\hat f(x_{i}))Remp(f^)=N1i=1∑NL(yi,f^(xi))测试误差...原创 2019-08-19 21:11:55 · 194 阅读 · 0 评论 -
机器学习三要素
机器学习三要素方法=模型+策略+算法模型 f(X)f(X)f(X)模型 f(X)f(X)f(X) 的假设空间 F\mathcal{F}F:包含所有可能的条件概率分布或决策函数。假设空间 定义为 决策函数的集合:F={f∣Y=f(X)}\mathcal{F}=\{f|Y=f(X)\}F={f∣Y=f(X)},其中,XXX 和 YYY 是定义在输入空间 X\mathcal{X}X...原创 2019-08-19 16:57:54 · 579 阅读 · 0 评论 -
机器学习及监督学习的重要概念理解
机器学习(machine learning)关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。机器学习的主要特点:以计算机及网络为平台以数据为研究对象目的是 对数据进行 预测与分析以方法(算法)为中心,机器学习算法构建模型并应用模型进行预测与分析机器学习是一门交叉学科(是概率论、统计学、信息论、计算理论、最优化理论及计算机科学)机器学习的基...原创 2019-08-19 12:13:54 · 1026 阅读 · 0 评论 -
分类算法--逻辑回归
逻辑回归(LogisticRegression)机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归。由于算法的简单和高效,在实际中应用非常广泛。文章目录1 逻辑回归的原理1.1 输入1.2 激活函数1.3 判断标准1.4 逻辑回归的损失1.5 逻辑回归的优化2 逻辑回归----分类评估方法2.1 混淆矩阵2.2 ROC曲线和AUC指标1 逻辑回归的原理1.1 输入逻...原创 2019-07-28 14:00:53 · 255 阅读 · 0 评论 -
机器学习中的欠拟合和过拟合
1 欠拟合和过拟合的定义过拟合:一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在测试数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。(模型过于复杂)欠拟合:一个假设在训练数据上不能获得更好的拟合,并且在测试数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单)2 欠拟合原因以及解决办法2.1 欠拟合原因学习到数据的特征过少2...原创 2019-07-27 16:36:51 · 548 阅读 · 0 评论 -
集成学习算法
集成学习:通过建立几个模型来解决单一预测问题;工作原理:生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。(只要单分类器的表现不太差,集成学习的结果总是要好于单分类器的)1 集成学习的两个核心任务任务一:如何 优化 训练数据 —> 主要用于解决 欠拟合 问题任务二:如何 提升 泛化性能 —> 主要用于解决 过拟合...原创 2019-07-30 16:45:12 · 503 阅读 · 0 评论 -
K-近邻算法(KNN)
什么是K-近邻算法?K-近邻算法(k-Nearest Neighbors,KNN) 算法是一种分类算法;1968年由 Cover 和 Hart 提出,应用场景有字符识别、文本分类、图像识别等领域;定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。1 K-近邻算法实现流程:1)计算已知类别数据集中的点与当前点之间的距...原创 2019-07-24 16:24:03 · 452 阅读 · 0 评论 -
分类算法--决策树
决策树是一种树形结构;其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出;最后每个叶节点代表一种分类结果;本质是一颗由多个判断节点组成的树。决策树分类原理1 信息熵物理学上,熵是“混乱”程度的量度。1948年香农提出了信息熵(Entropy)的概念。(1)从信息的完整性上进行的描述:当系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散的...原创 2019-07-29 13:26:21 · 272 阅读 · 0 评论 -
什么是机械学习?及Scikit-learn机械学习库
1、什么是机器学习机器学习是人工智能的一个分支;机器学习是实现人工智能的一个途径(即以机器学习为手段解决人工智能中的问题);机器学习算法是一类从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测的算法。2、为什么需要机器学习21世纪机器学习又一次被人们关注,而这些关注的背后是因为整个环境的改变,我们的数据量越来越多,硬件越来越强悍;急需要解放人的生产力,自动去寻找数据的...原创 2019-07-12 16:44:55 · 6651 阅读 · 0 评论 -
Scikit-learn特征工程之特征抽取
“ 数据,决定了机器学习的上限;而算法,只是尽可能逼近这个上限。” ——这句话很好的阐述了 数据 在机器学习中的重要性。数据的特征工程大部分直接拿过来的数据都是特征不明显的、没有经过处理的或者说是存在很多无用的数据,那么需...原创 2019-07-14 12:08:27 · 198 阅读 · 0 评论