数据分析
文章平均质量分 80
喜欢大海的CC
谁不是从小小白开始的呢
展开
-
数据可视化方向的毕业设计详细思路
数据可视化毕设思路分享原创 2021-06-29 12:05:58 · 23221 阅读 · 44 评论 -
关联规则挖掘
(一)几个基本概念关联规则挖掘就是从数据集中发现项与项之间的关系以超市购物为例:1、支持度支持度是个百分比,它指的是某个商品组合出现的次数与总次数之间的比例。支持度越高,代表这个组合出现的频率越大。例如,“牛奶 + 面包”出现了 3 次,那么这 5 笔订单中“牛奶 + 面包”的支持度就是 3/5=0.6。2、置信度置信度是个条件概念,就是说在 A 发生的情况下,B 发生的概率是多少。即就是当你购买了商品 A,会有多大的概率购买商品 B。例如,置信度(牛奶→啤酒)=2/4=0.5,代表如果你购买原创 2021-01-20 22:14:59 · 1036 阅读 · 0 评论 -
如何用 EM 算法对王者荣耀数据进行聚类
EM 的英文是 Expectation Maximization,所以 EM 算法也叫最大期望算法。举个栗子????:将一份炒菜等分给两个人,实际上最终我们想要的是碟子 A 和碟子 B 中菜的份量,你可以把它们理解为想要求得的模型参数。然后我们通过 EM 算法中的 E 步来进行观察,然后通过 M 步来进行调整 A 和 B 的参数,最后让碟子 A 和碟子 B 的参数不再发生变化为止。EM 算法可以理解成为是一个框架,在这个框架中可以采用不同的模型来用 EM 进行求解。常用的 EM 聚类有 GMM 高斯原创 2021-01-19 18:35:01 · 532 阅读 · 0 评论 -
使用K-Means算法对微信背景图进行分割
K-Means 是一种非监督学习,解决的是聚类问题。K 代表的是 K 类,Means 代表的是中心,你可以理解这个算法的本质是确定 K 类的中心点,当你找到了这些中心点,也就完成了聚类。(一)工作原理1、选取 K 个点作为初始的类中心点,这些点一般都是从数据集中随机抽取的;2、将每个点分配到最近的类中心点,这样就形成了 K 个类,然后重新计算每个类的中心点;3、重复第二步,直到类不发生变化,或者你也可以设置最大迭代次数,这样即使类中心点发生变化,但是只要达到最大迭代次数就会结束。(二)区分K-Me原创 2021-01-19 15:30:23 · 777 阅读 · 0 评论 -
KNN与SVM、朴素贝叶斯、决策树的比较
(一)KNN算法“近朱者赤,近墨者黑”可以说是 KNN 的工作原理。整个计算过程分为三步:1、计算待分类物体与其他物体之间的距离;2、统计距离最近的 K 个邻居;3、对于 K 个最近的邻居,它们属于哪个分类最多,待分类物体就属于哪一类。K值的选择至关重要,K值太小,容易过拟合;K值太大,容易欠拟合。所以 K 值应该是个实践出来的结果,并不是我们事先而定的。在工程上,我们一般采用交叉验证的方式选取 K 值。计算距离在 KNN 算法中,还有一个重要的计算就是关于距离的度量。两个样本点之间的距离代表原创 2021-01-17 17:28:57 · 4912 阅读 · 0 评论 -
SVM
SVM 的英文叫 Support Vector Machine,中文名为支持向量机。它是常见的一种分类方法,在机器学习中,SVM 是有监督的学习模型。(一)几个关于SVM的基础概念有监督学习:它指的是我们需要事先对数据打上分类标签,这样机器就知道这个数据属于哪个分类;无监督学习:就是数据没有被打上分类标签,这可能是因为我们不具备先验的知识,或者打标签的成本很高,所以我们需要机器代我们部分完成这个工作;硬间隔:完全分类准确,不能存在分类错误的情况;软间隔:允许一定量的样本分类错误;核函数:可以将样原创 2021-01-16 17:31:47 · 1509 阅读 · 2 评论 -
通过实例理解朴素贝叶斯算法
(一)贝叶斯原理中的几个概念先验概率通过经验来判断事情发生的概率,比如说某一种疾病的发病率是万分之一,就是先验概率。再比如南方的梅雨季是 6-7 月,就是通过往年的气候总结出来的经验,这个时候下雨的概率就比其他时间高出很多。后验概率后验概率就是发生结果之后,推测原因的概率。比如说某人查出来了患有“某种病”,那么患病的原因可能是 A、B 或 C。患有“某种病”是因为原因 A 的概率就是后验概率。它是属于条件概率的一种。条件概率事件 A 在另外一个事件 B 已经发生条件下的发生概率,表示原创 2021-01-15 19:15:35 · 1447 阅读 · 0 评论 -
通过实例理解决策树算法(ID3,C4.5,Cart算法)
(一)实例:使用ID3算法给出“好苹果”的决策树(二)决策树的工作原理我们在做决策树的时候,会经历两个阶段:构造和剪枝。构造原理——构造的过程就是选择什么属性作为节点的过程,构造过程中,存在三种节点:1、根节点:就是树的最顶端,最开始的那个节点;2、内部节点:就是树中间的那些节点;3、叶节点:就是树最底部的节点,也就是决策结果。因此,在构造过程中,我们要解决三个问题:1、选择哪个属性作为根节点?2、选择哪些属性作为子节点?3、什么时候停止并得到目标状态,即叶节点。剪枝原理——剪枝就是原创 2021-01-14 17:05:04 · 4749 阅读 · 0 评论