数据挖掘
课堂代码+笔记
皮匠大大
这个作者很懒,什么都没留下…
展开
-
数据挖掘-9、10——Association Analysis关联分析
理论1、需要找出两个关键值:①support 支持度(后键占所有的比重)②confidence 置信度(后键占前键的比重)2、两个关键点:①找出频繁相集(所有S>min_S的集合)(support 支持度)②找出规则(在①的前提下找出所有C>min_c)(confidence 置信度)3、具体过程以及优化方法、见ppt4、两大方法:①Apriori 算法(广度优先)②FP 算法(深度优先)5、注意的小点:①超集的S一定小于子集的S(eg : S{A,B,C}< S{原创 2020-11-16 14:43:35 · 684 阅读 · 0 评论 -
数据预处理(第二课居多)
预测分析模型(第五课)1、naiveBayes#应变量y为email$spam,“~.”表示身下的所有属性都是自变量#第二个参数我也不知道#第三个参数为数据源NBfit<-naiveBayes(as.factor(email$spam)~.,laplace=0,data=email)#用naiveBayes的结果做预测,第一个参数为用预测函数形成的对象,第二个参数为被预测的自变量的值#再把预测好的应变量的值存入对象pred2中pred2<-predict(NBfit,email原创 2020-11-08 22:00:00 · 865 阅读 · 0 评论 -
数据挖掘-预测模型汇总
各种预测模型汇总二、各种预测模型先总结弄懂了的:1、naiveBayes(第5课)#应变量y为email$spam,“~.”表示身下的所有属性都是自变量#第二个参数我也不知道#第三个参数为数据源NBfit<-naiveBayes(as.factor(email$spam)~.,laplace=0,data=email)#用naiveBayes的结果做预测,第一个参数为用预测函数形成的对象,第二个参数为被预测的自变量的值#再把预测好的应变量的值存入对象pred2中pred2<原创 2020-11-08 21:59:20 · 5655 阅读 · 0 评论 -
数据挖掘R语言知识—数据可视化/画图
3、数据可视化(qplot函数的使用)(第一课的代码)这里mark一个大佬的:R语言可视化大致包含:qplot(Wind,Temp,data=airquality,color=Month)每个月份的数据用不同的颜色表示,其中month已经为分类变量,所以不用转化。如果不转换的话,就是一个渐变条。qplot(Wind,Temp,data=airquality,color=I("red"))#使整个图的所有点都变成一个颜色,用I 来改变。qplot(Wind,Temp,data=airqua原创 2020-11-08 21:12:52 · 549 阅读 · 0 评论 -
数据挖掘R语言基础常用代码
数据挖掘R语言基础知识常用代码1、#选择csv文件,载入到对象data中 data<-read.csv(file = file.choose(),header = T) 2、表的连接bind_cols()/bind_rows()inner_joinleft_joinright_joinfull_joinsemi_join (x,y ) #返回能够与y表匹配的x表所有记录anti_join(x,y) #返回无法与y表匹配的x表的所记录#举例#把flights和plane原创 2020-11-03 16:21:14 · 2144 阅读 · 1 评论