数据分析之算法篇
文章平均质量分 55
该专栏主要介绍的是数据分析常用的一些算法的使用内容和应用,希望可以帮助到自己和大家更好的进步
有猫腻妖
网络爬虫中级工程师,主要研究方向网络爬虫,数据分析,数据挖掘,数据可视化,物联网应用,后端开发,人工智能
擅长python语言,精通java,Android,C#,C,JavaScript
欢迎各位大佬友好交流,大家相互进步
展开
-
机器学习的一些指标介绍
混淆矩阵准确率的介绍精准率和召回率F1值ROC曲线原创 2022-04-24 21:32:09 · 1138 阅读 · 0 评论 -
算法DBSCAN-课堂笔记
DBSCAN算法基本概念核心对象:若某个点的密度达到算法设定的阈值则其为核心点(即R领域内点的数量不小于minPts)e-领域的的距离阈值:设定的半径r直达密度可达:若某点p在点q的r领域内,且q是核心点则p-q直达密度可达密度可达:若有一个点的序列q0,q1,…qk,对任意qi-qi-1是直接密度可达的,则称从q0到qk密度可达,这实际上是直接密度可达的“传播”DBSCAN算法的小结BSCAN算法的小结...原创 2021-08-23 15:29:25 · 9356 阅读 · 0 评论 -
在列表中正数和负数区分出来,并且对它们进行分列
怎么把一个列表中的正数和负数区分出来,并且让这些正数归为一组一组,负的归为一组一组有三种方法可以考虑一下最简单的方法,直接调用函数即可import itertoolslist1 = [1,1,1,1,1,1,1,1,1,1,-1,-1,-1,-1,-1,2,2,2,2,2,2,2]for i,g in itertools.groupby(list1,lambda x:x<0): print(list(g))第二种方法,这里是用while先对判断count是否小于列表的长度,然后原创 2021-08-23 14:21:03 · 10435 阅读 · 0 评论 -
数据分析-随机森林,GridSearchCV,逻辑回归,混淆矩阵,时间序列分析
构建随机森林分类器随机森林它实际上是一个包含多个决策树的分类器,每一个子分类器都是一颗CART分类回归树,所以随机森林既可以做分类,又可以做回归。当它做分类的时候,输出的结果是每一个子分类器的分类结果中最多的那个。你可以理解是每一个分类器都做投票,取投票最多的那个结果。当它做回归的时候,输出结果是每棵CART树的回归结果的平均值GridSearchCV工具的使用在做好分类算法的时候,我们需要经常调节网络参数,目的是得到更好的分类结果,实际上一个分类算法有很多参数,取值范围也很广,这样我们该怎原创 2021-08-17 15:50:06 · 15620 阅读 · 1 评论 -
数据分析-数据规范化的一些方法
数据规范化的几种方法1. Min-Max规范化from sklearn import preprocessingimport numpy as np#初始化数据,每一行表示一个样本,每一列表示为一个特征x = np.array([ [0.,-3.,1.], [3.,1.,2.], [0.,1.,-1.]])#将数据进行[0,1]规范化min_max_scaler = preprocessing.MinMaxScaler()minmax_x = min_max_sc原创 2021-06-27 12:58:51 · 18841 阅读 · 0 评论 -
AdaBoost算法-课堂笔记
AdaBoost算法是属于分类算法中的集成算法集成算法通常有两种方式:投票选举和再学习投票选举的场景类似专家召集到会议室里面,当做一个决定的时候,让K个专家(K个模型)分别进行分类,然后选择出现次数最多的那个类作为最终的分类结果。再学习相对于把K个专家(K个分类器)进行加权融合,形成一个新的超级专家(强分类器),让这个超级专家做判断再学习是提升,它的作用是每一次训练的时候都对上一次的训练进行改进提升,在训练的过程中这K个“专家”之间是有依赖性的,当引入第K个“专家(第K个分类器)的时候,实际上是原创 2021-08-15 19:51:50 · 12091 阅读 · 0 评论 -
PageRank-课堂笔记
PageRank的简化模型举个例子:,假设有4个网页在开始之前有两个重要概念需要了解一下:出链指的是链接出去的链接。入链指的是链接进来的链接。比如是图中有两个是入链,3个出链一个网页的影响力 = 所有入链集合的页面的加权影响力之和,用公式表示:在上面的例子中可以看到,A有三个出链分别链接到了B,C,D上。在访问A的时候,就有跳到B,C或者D的可能性为1/3B有两个出链,链接到A和D上,跳转的概率为1/2从这里可以看出,A页面相比其他页面的权重更大,也就是PR值更高,而B,C,原创 2021-08-11 17:07:25 · 12792 阅读 · 0 评论 -
apriori-课堂笔记
Apriori的重要概念Apriori的几个重要概念:支持度、置信度、提升度什么是支持度支持度是个百分比,它指的是某个商品组合出现的次数与总次数之间的比例。支持度越高,代表这个组合出现的频率越大举个例子,商品列表:在这个例子中,牛奶出现了4次,所以这5笔订单中,牛奶的支持度为 4/5 = 0.8同样“牛奶+面包”出现了3次,所以这5笔订单中,牛奶+面包的支持度为 3/5 =0.6什么是置信度它指的是当你购买了商品A,会有多大的概率购买商品B就拿上面那个例子来说置信度(牛奶-啤酒) =原创 2021-08-11 17:06:55 · 13820 阅读 · 0 评论 -
EM聚类-课堂笔记
EM聚类也被叫成最大期望算法具体的实现步骤主要为三步:初始化参数观察预期重新估计EM算法的工作原理假设一个例子EM聚类的工作原理就是把潜在类别当做隐藏变量,样本看做观察值,就可以把聚类问题转化为参数估计问题。这也就是EM聚类的原理相比于K-means算法,EM聚类更加灵活,因为K-means是通过距离来区分样本之间的差别的,且每个样本在计算的时候只能属于一个分类,称之为硬聚类算法,而EM聚类在求解的过程中,实际上每个样本都有一定的概率和每个聚类相关,叫做软聚类算法EM算法可原创 2021-08-08 20:11:26 · 14343 阅读 · 0 评论 -
k-means-课堂笔记
什么是K-means?K-means是一种非监督学习,解决的是聚类的问题。K代表的是K类,means代表的是中心,一般K-means主要的是思路分三步走:如何确定K类的中心点如何将其他点划分到K类中如何区分K-means与KNN?K-means的工作原理选取K个点作为初始的类的中心,这些点一般都是从数据集随机抽取的将每个点分配到最近的类中心点,这样就形成了K个类,然后重新计算每个类的中心点重复第二步,直到类不发生变化,或者你也可以设置最大迭代次数,这样即使类中心点发生变化,但是只要达原创 2021-08-08 20:10:53 · 13822 阅读 · 0 评论 -
KNN的基础知识-课堂笔记
KNN的工作原理通俗易懂的来说就是“近朱者赤近墨者黑”,就是计算出哪些是一类的,将它们区分出来计算的过程分三步走:计算待分类物体与其他物体之间的距离统计距离最近的K个邻居对于K个最近的邻居,它们属于哪个分类最多,待分类物体就属于哪一类K值如何选择1、如果K值比较小,就相当于未分类物体与它的邻居非常接近才行。这样产生的一个问题就是,如果邻居点是个噪声点,那么未分类物体的分类也会产生误差,这样KNN分类就会产生过拟合2、如果K值比较大,相当于距离过远的点也会对未知物体的分类产生影响,虽然这种原创 2021-08-08 20:10:22 · 13927 阅读 · 0 评论 -
SVM算法-课堂笔记
什么是SVM说白了SVM就是一个分类器,红球和篮球就是我们的类别,而SVM就是这条黑色的线,把这些物体给划分出来SVM的工作原理SVM有一个特有的概念:分类间隔在保证决策面不变,且分类不产生错误的情况下,我们可以移动决策面C,直到产生两个极限的位置:如图中的决策面A和决策面B。极限的位置是指,如果越过了这个位置,就会生产分类错误。这样的话,两个极限位置A和B直接的分界线C就是最优决策面。极限位置到最优决策面C之间的距离就是“分类间隔”,英文叫margin。如果我们转动这个最优决策面,你会发现可能原创 2021-08-08 20:09:50 · 13806 阅读 · 0 评论 -
朴素贝叶斯-课堂笔记
贝叶斯的原理贝叶斯的原理就是基于一个逆向概率展开的在这个原理中,涉及了4个概念先验概率先验概率就是通过以往的经验来判断事情发生的概率后验概率后验概率就是发生结果之后,推测原因的概率条件概率条件概率就是事件A在另外一个事件B已经发生条件下的发生概率,表示为P(A|B),读作“在B发生的条件下A发生的概率”似然函数似然函数就是把概率模型的训练过程理解为参数估计的过程,举个例子,如果一个硬币在10次抛落中正面均朝上。那么你肯定在想,这个硬币是均匀的可能性是多少?这里硬币均匀就是个参数,似然函数原创 2021-08-02 09:16:53 · 13783 阅读 · 0 评论 -
数据分析算法-决策树(下)-课堂学习笔记
数据分析之决策树(下)CART算法cart只支持二叉树,由于cart的特殊性,cart既可以作为分类树也可以作为回归树cart和c4.5算法类似,只是属性选择的指标采用的是基尼系数。基尼系数的计算公式:怎么计算呢,举个例子吧集合1,6个都去打篮球集合2,3个去打篮球,3个不去打篮球集合1的基尼系数p(Ck|t) = 1-1 = 0集合2的基尼系数p(Ck|t) = 1-(0.5 * 0.5+0.5 * 0.5) = 0.5在这里p(Ck|t)表示节点t属于类别Ck的概率,节点t的基尼原创 2021-07-28 20:17:45 · 16051 阅读 · 0 评论 -
数据分析算法-决策树(上)-课堂学习笔记
数据分析之决策树决策树的工作原理决策树基本上就是把我们以前的经验总结起来,我给你准备一个打篮球的训练集。如果我们要出门打篮球,一般会根据’天气’、’温度‘、’湿度‘、’刮风‘这几个条件来判断,最后得到的结果:去打篮球?还是不去?一般做决策树会有两个阶段:构造和剪枝构造构造的过程就是选择什么属性作为节点的过程跟节点:就是树的顶端内部节点:就是树中间的那些节点叶节点:就是树最底部的节点剪枝剪枝就是给决策树瘦身,之所以这么做就是为了防止过拟合过拟合就是说这个模型训练的太好了,不符合实际原创 2021-07-19 21:17:22 · 18165 阅读 · 1 评论