数据挖掘
zhuoyue65
这个作者很懒,什么都没留下…
展开
-
Python数据挖掘实战——相关分析
继续补以前拉下的债~~~一、相关性指标的研究意义1.1相关系数(Correlation coefficient): 相关系数是变量间关联程度的最基本测度之一1.2相关分析(Correlation analysis) 是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。二、相关系数的基本特征2.1方向: ...原创 2018-05-17 21:19:28 · 4240 阅读 · 0 评论 -
Python数据挖掘实战——回归
一、回归分析(Regression Analysis) 研究自变量与因变量之间关系形式的分析方法,它主要是通过建立 因变量y 与影响它的自变量Xi(i=1,2,3....)之间的回归模型,来预测 因变量y 的发展趋势。二、回归分析的分类2.1线性回归分析:简单线性回归、多重线性回归2.2非线性回归分析:逻辑回归、神经网络三、简单线性回归模型y = a + bx + e(一元一次方程)1)y—...原创 2018-05-17 22:20:09 · 3159 阅读 · 1 评论 -
Python数据挖掘——概况
一、碎碎念 之前一直因为懒,没有把学了的给整理下来,现在慢慢补起来。二、数据挖掘概述 1.什么是数据挖掘?数据挖掘(data mining,简称DM),是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。eg:啤酒与尿布、杜蕾斯与口红、杜蕾斯与红酒。==>达到增加商品销售的目的。数据挖掘误区:【实际】:1.数据挖掘是人们处理商业问...原创 2018-05-12 20:30:17 · 2910 阅读 · 0 评论 -
Python数据挖掘——文本分析
一、定义:文本挖掘:从大量文本数据中抽取出有价值的知识,并且利用这些知识重新组织信息的过程。二、语料库(Corpus)语料库是我们要分析的所有文档的集合。# -*- coding: utf-8 -*-import osimport os.pathfilePaths = [] #定义一个数组变量,再用OS.walk的方法传入目录for root, dirs, files in os.wal...原创 2018-05-13 11:37:44 · 85432 阅读 · 13 评论 -
Python数据挖掘实战——KNN算法(K最近邻节点算法,k-NearestNeighbor)
一、分类 分类是用来预测类别数据的一种方法,可以用来预测未来一段时间内用户是否会流失,预测用户是否会响应你的促销活动,能够评估用户的信用度是好还是差的一系列分类预测问题。二、概念2.1监督学习(Supervised Learning) 从给定标注的训练数据集中学习出一个函数,根据这个函数为新数据进行标注。(有因变量y)回归分类、分类、时间序列等。2.2无监督学习(Unsupervise...原创 2018-05-20 11:57:33 · 3038 阅读 · 0 评论 -
Python数据挖掘实战——贝叶斯分类算法
一、概念1.1贝叶斯定理(Bayes Theorem) eg.判断一个人品质的好坏是根据一个人过往的行为进行判断的,但是对于陌生人一开始初始化为50%好人、50%坏人,如果之后他做了一件好事,这个事会增加我们判断他为好人的根据。如果发现他做了一件坏事,会增加他是坏人的概率。1.2朴素贝叶斯分类(Naive Bayes Classifier) 贝叶斯分类算法,是统计学的一种分类方...原创 2018-05-20 14:29:57 · 4627 阅读 · 1 评论