数据挖掘
文章平均质量分 94
Python大数据挖掘,数据分析
许久是混子
我是混子我是混子我是混子。。。。。。
展开
-
1.无监督学习引入
无监督学习引入文章目录一、引入二、概念三、聚类3.1 概念3.2 距离计算3.3 应用场景一、引入在实际工作中,我们经常会遇到这样一类问题:给机器输入大量的特征数据,并期望机器通过学习找到数据中存在的某种共性特征或者结构,抑或是数据之间存在的某种关联。例如,视频网站根据用户的观看行为对用户进行分组从而建立不同的推荐策略,或是寻找视频播放是否流畅与用户是否退订之间的关系等。这类问题被称作是 非监督学习 问题,它并不是像有监督学习那样希望预测某种输出结果。相比较于监督学习,非监督学习的输入数据没有标签信原创 2022-01-21 21:02:01 · 2267 阅读 · 0 评论 -
2.基于原型的聚类方法
基于原型的聚类方法文章目录一、概念二、K-Means2.1 算法流程2.2 超参数2.3 特性2.4 解析2.5 K-Means++2.6 Python实现三、K-Mediods3.1 概念3.2 算法对比四、特性一、概念 原型”是指样本空间中具有代表性的点。 原型聚类假设聚类结构可以通过一组原型刻画,这一方法在实际聚类任务中最为常用,理解起来也较简单;通常算法先对原型进行初始化,然后对原型进行迭代更新求解。采用不同的原型表示,不同的求解方式,即会产生不同的聚类算法。最经典的原型聚类算法即:原创 2022-01-21 20:58:14 · 3806 阅读 · 0 评论 -
8.GDBT算法原理及实现
GBDT一、概念文章目录一、概念二、算法原理2.1 原理2.2 算法流程2.3 目标函数2.4 梯度提升于梯度下降三、Python实现四、XGBoost4.1 概念4.2 区别与联系四、小结 GBDT(Gradient Boosting Decision Tree)GBDT(Gradient \; Boosting \; Decision \;Tree)GBDT(GradientBoostingDecisionTree) 梯度提升决策树,是 Gradient BoostingGradient原创 2021-12-27 16:43:24 · 4916 阅读 · 0 评论 -
7.自适应增强算法
自适应增强一、概念AdaBoostAdaBoostAdaBoost 是 Boosting MethodBoosting \; MethodBoostingMethod 类继承算法的典型代表,其全称是 Adaptive BoostingAdaptive \; BoostingAdaptiveBoosting,即自适应增强。它与 Bagging MethodBagging \; MethodBaggingMethod 类算法不同的是:它不是通过随机抽样产生每个基模型的训练集,而是通过调整训练集中每个样原创 2021-12-27 15:02:30 · 2256 阅读 · 0 评论 -
6. 随机森林
随机森林文章目录一、概念二、构建2.1 影响随机森林分类性能的主要因素2.2 算法流程2.3 OOB2.4 算法特性三、Python实现一、概念 随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。 随机森林(Random ForestRandom \; ForestRandomForest,简称 RFRFRF )是 BaggingBaggingBagging 的一个扩展变体。RFRFRF 在以决策树为基学习器构建 BaggingBaggingBagging原创 2021-12-21 16:40:16 · 1917 阅读 · 0 评论 -
5. 集成学习引入
集成学习引入文章目录一、概念二、集成学习策略三、Bagging四、Boosting一、概念 面对一个机器学习问题,通常有两种策略。一种是研发人员尝试各种模型,选择其中表现最好的模型做重点调参优化。这种策略类似于比赛,通过强强竞争来选拔最优的运动员,并逐步提高成绩。另一种重要的策略是集各家之长,如同君主广泛的听取众多谋臣的建议,然后综合考虑,得到最终决策。后一种策略的核心,是将多个分类器的结果统一成一个最终的决策。使用这类策略的机器学习方法统称为集成学习。其中每个单独的分类器称为基分类器。#merm原创 2021-12-21 16:00:23 · 1339 阅读 · 0 评论 -
4. 朴素贝叶斯
朴素贝叶斯文章目录一、概念二、贝叶斯分类方法2.1 预测2.2 训练2.3 独立性假设2.4 特性三、高斯朴素贝叶斯3.1 引入3.2 Python实现四、多项式朴素贝叶斯五、伯努利朴素贝叶斯一、概念 朴素贝叶斯是应用贝叶斯定理进行有监督学习的一种分类模型。在该模型中,将贝叶斯定理公式 P(A∣B)=P(A)P(B∣A)P(B)P(A | B) = \frac{P(A) P(B|A)}{P(B)}P(A∣B)=P(B)P(A)P(B∣A) 中的事件 AAA 看成分类标签,事件 BBB 看出数据特征原创 2021-12-21 15:03:28 · 1331 阅读 · 0 评论 -
3. 决策树原理及数学建模实战
决策树是一种非常成熟的算法,它是一种自上而下,对样本数据进行树形分类的过程,本文讲解了决策树的常见算法即在数学建模竞赛的应用。原创 2021-12-18 20:27:57 · 9483 阅读 · 0 评论 -
2. 支持向量机
SVM 是基于统计学习理论的一种机器学习方法。简单地说,就是将数据单元表示在多维空间中,然后在这个空间中对数据做划分的算法。原创 2021-12-17 16:00:21 · 2031 阅读 · 0 评论 -
1. 逻辑回归理论与Python实现
逻辑回归是一种很容易实现的分类模型,但仅在线性可分类上表现不错。是一种应用广泛的 二分类模型,而且可以利用 OVR 技术扩展到多元分类。原创 2021-12-16 15:43:14 · 1654 阅读 · 0 评论 -
6. 常见降维算法原理与Python实现
降维是对事物的特征进行压缩和筛选,该项任务相对比较抽象。如果没有特定领域知识,无法预先决定采用哪些数据,比如在人脸识别任务中,如果直接使用图像的原始像素信息,数据的维度会非常高,通常会利用降维技术对图像进行处理,保留下最具有区分度的像素组合。原创 2021-12-13 16:40:40 · 2595 阅读 · 0 评论 -
5. 特征选择(附Python的简单实现)
特征的质量决定模型的上限原创 2021-12-09 20:15:12 · 7413 阅读 · 5 评论 -
4. 类别不均衡问题
类别数据不均衡是分类任务中存在的经典问题,一般在数据清洗环节进行处理。不均衡简单来说,在数据集中,一类样本的数据量明显远大于其他样本类别数据量。原创 2021-12-08 16:25:06 · 583 阅读 · 0 评论 -
3. 特征处理概述
Garbage in, garbage out.原创 2021-12-07 19:47:36 · 1602 阅读 · 0 评论 -
2.卷积神经网络
卷积神经网络(CNN) 卷积神经网络 是一种具有 局部连接、权重共享 等特性的 深层前馈神经网络(文末附CNN的Python 实现(基于Keras))文章目录一、概念1. 前言2. 卷积2.1 一维卷积2.2 二维卷积3. 卷积的变种二、卷积神经网络1. 卷积和全连接2. 汇聚层3. 卷积网络的结构4. 卷积神经网络的反向传播算法4.1 汇聚层4.2 卷积层三、基于卷积神经网络的手写数字识别四、参考文献四、参考文献一、概念1. 前言 卷积神经网络最早用于解决图像信息,再用全连接前馈网络来原创 2021-08-01 11:35:25 · 4402 阅读 · 2 评论 -
1. 全连接神经网络
基于Python的全连接神经网络入门原创 2021-07-30 13:51:24 · 3046 阅读 · 0 评论