ML 机器学习
文章平均质量分 78
机器学习
小田_
这个作者很懒,什么都没留下…
展开
-
AI 的一些图 - 专家系统、机器学习、强化学习
来源:邱锡鹏 3小时 PPT。原创 2023-11-21 15:23:03 · 58 阅读 · 0 评论 -
ML - 集成学习 Code
文章目录手动实现集成学习使用 Hard VotingClassifier使用 Soft Voting ClassifierBagging 和 Pastingoob并行化处理(n_jobs)随机采样 bootstrap_features随机森林Extra-Trees集成学习解决回归问题BoostingAdaBoostingGradient BoostingBoosting 解决回归问题import numpy as npimport matplotlib.pyplot as plt from skl原创 2021-04-03 18:36:01 · 231 阅读 · 1 评论 -
ML - 集成算法
文章目录一、什么是集成学习二、算法介绍1、Hard & Soft Voting创建更多子模型2、Bagging 和 PastingOOB并行计算差异化随机森林Extra-Trees3、BoostingAda BoostingGradient Boosting4、Stacking如何训练 Stacking一、什么是集成学习综合多方面的意见来做出决策。比如:买东西推荐、专家会诊疾病。根据各种算法做出决策:KNN,逻辑回归,SVM,决策树,神经网络,贝叶斯;sklearn 中提供的方法称为 V原创 2021-04-03 18:35:09 · 208 阅读 · 0 评论 -
ML - 决策树 Code
文章目录缺失值归一化测试集、训练集分离K折交叉验证过采样 & 下采样过采样下采样缺失值归一化最值归一化均值方差归一化详见:https://blog.csdn.net/weixin_45390999/article/details/115412362测试集、训练集分离将数据分为 训练数据和测试数据,问题是:过拟合了测试数据K折交叉验证详见:https://blog.csdn.net/weixin_45390999/article/details/115412508原创 2021-04-03 17:36:20 · 681 阅读 · 1 评论 -
ML - 下采样&过采样
文章目录使用场景SMOTE 数据生成策略imblearn安装使用使用场景在样本不均衡的情况下,模型可能会一边倒。比如,30w个正样本,500 个负样本。因此提出两种解决方案:下采样 Down Sampling只从正样本中随机抽取 500个;比例均衡了,但是只利用了一小部分数据。过采样,Over Sampling对数据进行变换,制造负样本(数据生成)。策略:SMOTE算法SMOTE 数据生成策略对于少数类的每一个样本x,以欧式距离为标准。计算它到 少数类样本级中所有样本的距原创 2021-04-03 16:21:55 · 365 阅读 · 0 评论 -
ML - 梯度下降
文章目录计算几种不同的梯度下降批量梯度下降:随机梯度下降小批量梯度下降法学习率(步长)引入:当我们得到了一个目标函数后,如何进行求解?直接求解? (并不一定可解,线性回归可以当做是一个特例)都是使用优化算法求解,如梯度下降算法。常规套路:机器学习的套路就是我交给机器一堆数据,然后告诉它什么样的学习方式是对的(目标函数),然后让它朝着这个方向去做。如何优化: 一口吃不成个胖子,我们要静悄悄的一 步步的完成迭代(每次优化一点点, 累积起来就是个大成绩了)目标:让真实值和预测值之间的差异越小越好。原创 2021-04-03 15:53:04 · 70 阅读 · 0 评论 -
ML- LR Code
文章目录代码实现逻辑回归使用逻辑回归决策边界kNN的决策边界逻辑回归中添加多项式特征使用逻辑回归给逻辑回归添加多项式项更大的 degreescikit-learn中的逻辑回归OvR 和 OvO使用所有的数据代码实现逻辑回归import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasetsiris = datasets.load_iris() X = iris.datay = iris.target原创 2021-04-03 15:48:21 · 112 阅读 · 0 评论 -
ML - 逻辑回归
文章目录什么是逻辑回归sigmoid 函数逻辑回归的流行度逻辑回归的损失函数决策边界逻辑回归中添加多项式特征解决多分类问题 OvR & OvOOvROvO文章目录什么是逻辑回归sigmoid 函数逻辑回归的流行度逻辑回归的损失函数决策边界逻辑回归中添加多项式特征解决多分类问题 OvR & OvOOvROvO什么是逻辑回归逻辑回归:Logistic Regression;LR 由线性回归衍生而来;原理:将样本的特征和样本发生的概率联系起来,概率是一个数;逻辑回归既可以看做是回原创 2021-04-03 15:47:08 · 159 阅读 · 0 评论 -
ML - K折交叉验证
文章目录验证数据的由来随机问题 和 交叉验证的由来K折交叉验证方法留一法 LOO-CV代码实现Validation 和 Cross Validation测试train_test_split使用交叉验证回顾网格搜索cross_val_score 参数验证数据的由来只是将数据分为 训练数据和测试数据,产生了问题:过拟合了测试数据;解决方式:将数据分为 训练数据、验证数据、测试数据;常用比例为 8、1、1。验证数据集用来 调整超参数使用的数据集。测试数据集保留原来的功能:不参与模型的创建,对于模型完全原创 2021-04-03 09:13:09 · 338 阅读 · 1 评论 -
ML - 数据归一化
文章目录为什么要归一化归一化方式1、最值归一化 normalization2、均值方差归一化 standardization测试数据的归一化Python 代码实现归一化处理矩阵均值方差归一化sklearn 的实现使用归一化后的数据来对 iris 进行 knn 分类其他数据集常见使用封装归一化类为什么要归一化当使用距离评估的时候,有些数据取值范围比较大,有些比较小。比如:特征A 房间面积为 70、100、120, 特征B 房间个数为 3,4,5。A,B 值范围差异比较大,如果只根据数值大小来计算,会非原创 2021-04-03 08:56:44 · 458 阅读 · 1 评论 -
ML - 分类问题的评估
文章目录准确度分类准确度的问题混淆矩阵 Confusion Matrix精准率和召回率精准率召回率为什么好?F1 Score代码实现F1 的代码实现引入真实数据混淆矩阵,精准率、召回率的实现scikit-learn中的混淆矩阵,精准率、召回率、F1Precision-Recall 的平衡阈值对精准率和召回率的影响代码实现阈值的调整阈值使用 5阈值使用 -5阈值如何选取 -- PR 曲线Precision-Recall 曲线scikit-learn中的Precision-Recall曲线ROC 曲线TPR &原创 2021-03-31 20:17:25 · 256 阅读 · 0 评论 -
ML - 线性回归
文章目录是什么特点和 kNN 图示的区别简单线性回归算法原理如何求解机器学习算法?编程实现简单线性回归向量化运算封装线性回归类评估方法向量化运算的性能测试线性回归的可解释性是什么线性回归:Linear Regression寻找一条直线,最大程度的“拟合”样本特征和样本输出标记之间的关系。主要解决回归问题特点思想简单,实现容易许多强大的非线性模型的基础结果具有很好的可解释性蕴含机器学习中的很多重要思想是典型的参数学习;对比之下,kNN 是非参数学习只能解决回原创 2021-03-30 22:28:45 · 189 阅读 · 0 评论 -
ML - kNN
文章目录本质示例说明计算流程特点缺点:超参数 & 模型参数kNN 算法中的超参数KNN 的实现python 原生的实现sklearn 的实现评估算法的准确性digits 手写数字识别相关资料本质kNN:k-Nearest Neighbors,K近邻理论基础:如果样本A 和 样本B 足够相似,就A 和 B 大概率属于同一个类别。如果A 和 n 个样本相似,A 和n个样本属于同一个类别。示例说明K近邻算法示例:数据:两类点方块和三角绿色的点属于方块还是三角呢?K=3 还是 K=5原创 2021-03-30 22:24:53 · 299 阅读 · 0 评论 -
机器学习 概览
文章目录是什么ML 的分类常见算法模型训练学习要素学习过程模型评定标准分类问题回归问题相关性是什么ML 研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。是人工智能的核心是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。核心:建模和算法,学习到的参数只是一个结果;主要使用归纳、综合,而不是演绎。ML 的分类根据是否有 label 分类有监督学习无监督学习半监督学习增强学习深度学习原创 2021-03-27 21:51:09 · 55 阅读 · 0 评论