数据分析算法篇
Dr.coder
这个作者很懒,什么都没留下…
展开
-
ADaBoost算法(学习笔记)
ADaBoost是分类算法中的集成算法原理:训练多个弱分类器,将其组合成一个强分类器原创 2020-05-20 23:21:16 · 148 阅读 · 0 评论 -
PageRank算法(学习笔记)
出链:链接出去的链接入链:链接进来的链接应用:网络关系的分析原创 2020-05-20 23:16:48 · 206 阅读 · 0 评论 -
EM聚类算法(学习笔记)最大期望算法
EM聚类:最大期望算法最大似然:最大可能性的意思最大似然估计:是一种通过已知结果,估计参数的方法EM算法就是一种求解最大似然估计的算法,通过观测样本,来找出样本的模型参数。相当于聚类框架,里面有不同的聚类模型。...原创 2020-05-20 23:05:37 · 481 阅读 · 0 评论 -
K-Means算法(学习笔记)
K-Means是一种非监督学习,解决的是聚类问题,本质是确定K类的中心点K-Means 的工作原理:1.选取 K 个点作为初始的类中心点,这些点一般都是从数据集中随机抽取的;2.将每个点分配到最近的类中心点,这样就形成了 K 个类,然后重新计算每个类的中心点;3.重复第二步,直到类不发生变化,或者你也可以设置最大迭代次数,这样即使类中心点发生变化,但是只要达到最大迭代次数就会结束。K-Means 和 KNN 这两个算法的区别:首先,这两个算法解决数据挖掘的两类问题。K-Means 是聚类算法,K原创 2020-05-20 22:52:31 · 191 阅读 · 0 评论 -
KNN算法(学习笔记)
KNN的工作原理1.计算待分类物体与其他物体之间的距离2.统计距离最近的K个邻居3.对于K个最近的邻居,他们属于哪个分类最多,待分类物体就属于哪一类计算距离的五种方法1.欧式距离2.曼哈顿距离3.闵可夫斯基距离4.切比雪夫距离5.余弦距离KD 树:是对数据点在 K 维空间中划分的一种数据结构。在 KD 树的构造中,每个节点都是 k 维数值点的二叉树。既然是二叉树,就可以采用二叉树的增删改查操作,这样就大大提升了搜索效率。...原创 2020-05-20 22:40:25 · 252 阅读 · 0 评论 -
SVM算法(学习笔记)
SVM:支持向量机,是监督的学习模型,常见的分类方法。监督学习:事先对数据打上标签,机器就知道数据属于哪个分类。无监督学习:数据没有分类标签SVM计算就是找到超平面的过程,超平面就是SVM分类器。分类间隔:极限位置到最优决策面之间的距离SVM就是求解最大分类间隔的过程。硬间隔:完全分类准确软间隔:允许一定量的样本分类错误非线性SVM:核函数的选择就是影响SVM最大的变量。核函数:将原有的样本空间通过核函数投射到一个高维的空间中,变得线性可分。SVM既可以做回归(SVR和LinearSVR原创 2020-05-20 22:28:07 · 351 阅读 · 0 评论 -
朴素贝叶斯分类(学习笔记)
先验概率:通过经验来判断事情发生的概率后验概率:发生结果后,推测原因的概率条件概率:事件A在另外一个事件B已经发生条件下的发生概率似然函数:把概率模型的训练过程理解为求参数估计的过程。朴素贝叶斯是一种简单但极为强大的预测建模算法。朴素贝叶斯模型由两种类型的概率组成:每个类别的概率P(Cj);每个属性的条件概率P(Ai|Cj)。朴素贝叶斯分类最适合的场景是文本分类、情感分类和垃圾邮件识别。sklearn 机器学习包sklearn 的全称叫 Scikit-learn,提供了 3 个朴素贝原创 2020-05-20 16:35:00 · 671 阅读 · 0 评论 -
Pandas笔记整理
Series 一维pd.Series(data,index,dtype)#数据,索引,类型创建a = pd.Series([1,2,3,4])print(a)> [1,2,3,4]b = np.arange(1,6) #1到6之间的整数,左闭右开print(b)> [1 2 3 4 5]c = pd.Series(b)print(c)dic = {'li':1,'liu':2,'wang':3} #字典h = pd.Series(dic)print(h)>原创 2020-05-19 17:23:33 · 153 阅读 · 0 评论 -
Numpy笔记总结
numpy是python中科学计算的基础包。1.创建数组np.array([1,2,3],[3,4,5],[4,5,6])原创 2020-05-19 17:13:06 · 77 阅读 · 0 评论 -
关联规则挖掘算法 (学习笔记)
关联规则挖掘是从数据集中发现项与项(item 与 item)之间的关系关联规则中的几个重要的概念1.支持度:某个商品组合出现的次数与总次数之间的比例。2.置信度:指购买了商品A,会有多大的概率购买B。3.提升度:指商品A的出现,对商品B的出现概率提升的程度提升度 (A→B)= 置信度 (A→B)/ 支持度 (B)用来衡量 A 出现的情况下,是否会对 B 出现的概率有所提升。所以提升度有三种可能:提升度 (A→B)>1:代表有提升;提升度 (A→B)=1:代表有没有提升,也没有下降;原创 2020-05-19 16:17:25 · 709 阅读 · 0 评论 -
SQL笔记整理(宝典)
**一.语句书写顺序**select:输出 (以列为单位)from:获取数据where:过滤 (一条条过滤,判断from中的信息,过滤列)group by:分组having:过滤order by:排序limit:限定个数 **二.语句执行顺序**from:获取数据where:过滤group by:分组select:输出having:过滤order by:排序limit:限定个数**三.逐个分析** 1. select 直接写出要输出列的名称,如果输出全部列则直接写*原创 2020-05-18 18:24:00 · 882 阅读 · 0 评论 -
#数据分析算法篇 ## 决策树(学习课程笔记)
数据分析算法篇之决策树做决策树的时候,会经历两个阶段:构造和剪枝构造构造的过程就是选择什么属性作为节点的过程。三种节点1.根节点:就是树的最顶端,最开始的那个节点。在上图中,“天气”就是一个根节点2.内部节点:就是树中间的那些节点,比如说“温度”、“湿度”、“刮风”3.叶节点:就是树最底部的节点,也就是决策结果节点之间存在父子关系。比如根节点会有子节点,子节点会有子子节点,但是到...原创 2020-04-26 09:50:54 · 216 阅读 · 0 评论