Data Mining
文章平均质量分 85
数据挖掘学习笔记~
爱笑的冷面鬼
开源。20240304记:2024会更努力更新高质量文章!感谢粉丝支持与理解
展开
-
【数据挖掘复习题】
1.下面哪个不属于数据的属性类型A.标称B.序数C.区间D.相异2.属于定量的属性类型是A.标称B.序数C.区间D.相异3.一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是A.一年级B.二年级C.三年级D.四年级4.假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为A.0.821B.1.224C.1.4原创 2022-06-12 17:24:34 · 14394 阅读 · 11 评论 -
【R】【密度聚类、层次聚类、期望最大化聚类】
数据集:2 维数据集—Countries,可以用平面图清晰的展示聚类效果。该数据集含有 68 个国家和地区的出生率(%)与死亡率(%)。实验目的:通过对该数据集进行分析,发现不同国家与地区的出生率与死亡率,并根据比较进行公共卫生的预测与防御。本实验利用密度聚类、层次聚类和期望最大化聚类对上述数据集进行聚类分析,并将三种聚类方法进行简单的比较。1.2 数据预处理从 head()结果图中可以发现该数据集没有列名,且行所对应的是数字,不是相应国家。下面我们要对行列名进行修改:从图中我们大概能看出,(菲律原创 2022-05-29 00:39:49 · 936 阅读 · 4 评论 -
【R】【支持向量机分类方法】
文章目录一、安装加载程序包二、数据探索及预处理三、设置特征向量、结果变量四、SVM建模分析五、预测六、模型精度七、优化模型(提高模型精度)八、可视化分析九、特征变量变动过程十、优化模型Reference采用 iris 数据集,利用支持向量机算法对鸢尾花的种类进行分类,可视化分类结果并对结果进行分析。一、安装加载程序包install.packages("e1071")library(e1071)二、数据探索及预处理data(iris)summary(iris)ind<-sample原创 2022-05-17 23:16:26 · 3997 阅读 · 9 评论 -
【Data Mining】【第七章作业】
原创 2022-04-26 17:45:22 · 4799 阅读 · 0 评论 -
【R】【基本操作】【运算符号、常用函数、 绘图】
文章目录1.运算符号2.常用函数3.绘图Reference1.运算符号2+5 #加法4.5%%2 #求模2>5 #比较运算x<-c(2,5,3,6)y<-c(3,5,7,8)union(x,y) #求并集intersect(x,y) #求交集setequal(x,y) #判断 x 与 y 是否相等2.常用函数x<-5:2sum(x) #对 x 中的元素求和prod(2:5) #5 的阶乘which.max(x) #返回 x 中最大元素的下标mean(原创 2022-04-04 22:35:39 · 353 阅读 · 0 评论 -
【R】【线性回归分析实验】
文章目录实验思维导图1. 收集、探索和准备数据1.1 收集数据1.2 探索和准备数据2. 基于数据训练模型2.1 使用线性回归函数2.2 建立模型3. 评估模型的性能4. 提高模型的性能4.1 将年龄非线性化4.2 数值转换二进制4.3 改进模型资料Reference实验思维导图1. 收集、探索和准备数据1.1 收集数据insurance <- read.csv("~\\insurance.csv",stringsAsFactors=TRUE)#将character类型数据转换为facto原创 2022-04-04 16:01:41 · 1195 阅读 · 0 评论 -
【R】【数据采集、抽样和预处理实验】
文章目录实验一1.1 启动 Rstudio1.2 新建 R Script 文件1.3 read.csv()函数导入数据1.4 剔除冗余变量1.5 缺失值处理1.6 异常值处理实验二2.1 启动 Rstudio2.2 新建 R Script 文件2.3 下载数据2.4 read.csv()函数导入数据2.5 简单探索数据2.6 识别缺失情况2.7 缺失值处理job处理poutcome处理education处理2.8 异常值识别识别剔除2.9 分段处理2.10 分层抽样原创 2022-03-24 09:51:16 · 1363 阅读 · 0 评论 -
【R】【决策树】【随机森林】
文章目录实验思维导图1.决策树--ctree()--iris1.1 数据1.1.1 程序包加载1.1.2 数据集探索1.1.3 数据集拆分1.2 训练1.2.1 设置因变量、自变量1.2.2 决策树建模1.2.3 查看训练结果1.2.4 绘制决策树1.3 预测1.3.1 测试集预测1.3.2 预测结果分析2.决策树--rpart()--bodyfat2.1 数据2.1.1 程序包加载2.1.2 数据集探索2.1.3 数据集拆分2.2 训练2.2.1 设置因变量、自变量2.2.2 决策树建模2.2.3 查看训原创 2022-04-19 22:14:08 · 2548 阅读 · 3 评论 -
【Data Mining】【第六章作业】
1.下列几种数据挖掘功能中被广泛的用于购物篮分析的是( )A. 关联分析;B. 分类和预测;C. 聚类分析;D. 演变分析正确答案: A2.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题( )A. 关联规则发现;B. 聚类;C. 分类;D. 自然语言处理;正确答案: A3.设X={1,2,3}是频繁项集,则可由X产生多少个关联规则( )A. 4;B. 5;C. 6;D. 7正确答案: C4.置信度(confidence)是衡量哪种兴趣度原创 2022-04-15 16:11:13 · 7187 阅读 · 7 评论 -
【R】【频繁模式挖掘Apriori算法实验】
文章目录实验描述数据集介绍重点程序包关联规则分析思维导图1.下载并加载arules包2.查看Groceries数据集的概要信息3.查看Groceries数据集的前十行的详细信息4.生成关联规则5.查看rules0中生成的关联规则6.对生成规则进行强度控制6.1 通过支持度、置信度共同控制6.2 主要通过支持度控制6.3 主要通过置信度控制6.4 主要通过提升度控7.改变输出形式8.关联规则的可视化8.1 加载aruleViz包并生成关联规则8.2 初步散点图8.3 更改互动参数后的散点图8.4 单击“fil原创 2022-04-15 14:20:28 · 1335 阅读 · 0 评论 -
【R】【lm()】初理解
浅试lm()原创 2022-04-06 00:32:31 · 1802 阅读 · 0 评论 -
【R】【纽约人口数量分析】
文章目录1)实验说明2)实验环境3)实验目的4)实验内容5)实验步骤① 下载并导入数据② 对生成的时间序列对象可视化a. 思考b. 由上述三种变量查看各个波动趋势数据c. 由上述结果可知:③ 使用 plot()函数④ 修正数据6)实验分析7)ps1)实验说明从网址(http://robjhyndman.com/tsdldata/data/nybirths.dat)中下载数据到指定位置(D:\),然后解压到当前文件夹。导入下载的数据 bank-additional-full.csv 到 R 软件。通过原创 2022-04-05 23:49:02 · 1183 阅读 · 0 评论 -
【Data Mining】【第五章作业】
文章目录一. 单选题二. 多选题三. 填空题一. 单选题1.回归分析中使用的距离是点到直线的垂直坐标距离,最小二乘准则是指( )。A. B. C.D. 正确答案: D2.回归分析的步骤为( )。① 进行相关分析 ② 建立预测模型 ③ 确定变量 ④ 确定预测值 ⑤ 计算预测误差A. ①③④⑤②B. ③①⑤②④C. ③②①⑤④D. ③⑤①②④正确答案: C3.下列变量之间的关系是函数关系的是( )。A. 已知二次函数y=ax2+bx+c,其中a,c是已知常数,取b为自变量,因变量原创 2022-04-05 18:12:30 · 2639 阅读 · 0 评论 -
【Data Mining】【第三章作业】
文章目录一. 单选题二. 多选题三. 填空题四. 判断题五. 简答题一. 单选题1.下面属于维归约常用的线性代数技术的有( )A. 主成分分析B. 特征提取;C. 特征加权D. 离散化正确答案: A2.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内( )A. 第一个B. 第二个C. 第三个D. 第四个正确答案: B3.数原创 2022-04-05 17:51:21 · 3542 阅读 · 1 评论 -
【Data Mining】【第二章作业】
1.下面哪个不属于数据的属性类型A.标称B.序数C.区间D.相异我的答案: D2.属于定量的属性类型是A.标称B.序数C.区间D.相异我的答案: C3.一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是A.一年级B.二年级C.三年级D.四年级我的答案: A4.假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转原创 2022-04-05 17:42:53 · 3683 阅读 · 3 评论 -
【Data Mining】【第一章作业】
文章目录一.单选题二.多选题三.填空题四.判断题一.单选题1.下列属于数据挖掘任务的是( )A、根据性别划分公司的顾客B、计算公司的总销售额C、预测一对骰子的结果D、利用历史记录预测公司的未来股价正确答案: D2.下述四种方法哪一种不是常见的分类方法( )A、决策树B、支持向量C、K-MeansD、朴素贝叶斯分类正确答案: C3.将原始数据进行集成、变换、维度规约、数值规约是哪个步骤的任务( )A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘正确答案: C4原创 2022-04-05 17:20:42 · 7977 阅读 · 0 评论