R语言自学笔记
文章平均质量分 61
R语言自学笔记
Vickie_wwq
这个作者很懒,什么都没留下…
展开
-
【R语言】神经网络
【代码】【R语言】神经网络。原创 2023-07-03 14:33:54 · 174 阅读 · 0 评论 -
【R语言】随机森林
每个记录由86个变量组成,包含社会人口统计数据(变量1~43)和产品所有权(变量44~86)。社会人口统计学数据来自邮政编码。生活在具有相同邮政编码的区域的所有客户具有相同的社会人口学属性。接下来使用ISLR包中的Caravan数据集来重新构建模型,该数据包含5822个真实客户记录。期望通过模型的构建,进行预测,判断用户是否会购买大篷车的保险。变量86(购买)表示客户是否购买了大篷车保险单。原创 2023-07-03 08:23:54 · 188 阅读 · 0 评论 -
【R语言】关联规则
【代码】【R语言】关联规则。原创 2023-07-02 18:39:42 · 212 阅读 · 0 评论 -
【R语言】聚类模型
本节用到的数据来源于25个欧洲国家的蛋白质摄入百分比,获取数据的链接是http://www.biz.uiowa.edu/faculty/jledolter/DataMining/protein.csv数据集包括25条数据、10个特征。原创 2023-07-01 10:06:44 · 89 阅读 · 0 评论 -
【R语言】逻辑回归模型
目的是预测哪些客户将拖欠信用卡债务有1万条数据、3个特征需要分析的是学生身份、信用卡余额、收入这3个特征,并对违约行为进行适当分类。原创 2023-06-30 20:56:28 · 149 阅读 · 0 评论 -
【R语言】线性回归模型
首先每个部分保持为测试数据,将模型重新拟合用于预测删除的观察结果的剩余k-1部分。将一组观察值随机地划分为大致相等大小的k个随机样本。然后计算均方误差来估计测试误差。原创 2023-06-30 16:17:39 · 95 阅读 · 0 评论 -
【R语言】多维缩放
【代码】【R语言】多维缩放。原创 2023-06-28 18:08:28 · 85 阅读 · 1 评论 -
【R语言】主成分分析
● 使用Cattell碎石图进行判断,碎石图绘制了特征值与主成分数量,这类图可以清晰地展示特征值与主成分个数之间的关系,图形变化最大之前的主成分都可以保留。● 平行分析法,其原理是模拟一个与原数据集相同大小的矩阵来判断提取的特征值,若真实的某个特征值大于随机数据矩阵的平均特征值,则可以保留。结果得到了所有的主成分,然后根据之前判断的主成分个数,选取相应的主成分,即可得到所需的结果。此外,通过仅对所有主成分的子集进行回归,主成分分析可以显著降低基础模型的参数数量。碎石图的结果给出了3种准则的评判结果。原创 2023-06-28 10:17:52 · 1545 阅读 · 2 评论 -
【R语言】生存分析
使用生存分析的原因是它具备处理删失数据的条件(测量或观察的数据仅部分已知的条件),而其他技术(包括线性回归)不能够很好地解决这类问题。●区间删失(Interval Censored):指的是事件的发生时间只能确定在某一时间区间内。删失数据:在研究某事物的观察过程中,该对象生存时间没有被完全观测到,造成生存数据不完整的现象。●右删失(Right Censored):指的是事件的发生时间只能确定在某一时间点之后。生成分析的目的:研究某对象某一时间某一事件的发生的概率,以及影响对象时间发生的因素。原创 2023-06-27 22:43:33 · 3275 阅读 · 0 评论 -
【R语言】数据探索
VIM包对数据的缺失值进行可视化,然后进行填补。原创 2023-06-25 16:55:57 · 605 阅读 · 0 评论 -
【R语言】数据集、数据结构等
向量——一维数组存储数值型、字符型或逻辑型数据同一向量中无法混杂不同模式的数据。原创 2023-06-25 16:38:29 · 251 阅读 · 0 评论 -
【R语言】数据的读取
col_names:可以是FALSE、TRUE或者一个字符向量,默认是TRUE。参数设置为TRUE表示读取第一行作为列明,参数设置为字符向量,表示将字符向量作为数据集的列名字。使用readxl包,提供了高效读取Excel数据的方式。skip:一个数值,表示读取数据时跳过多少条数据。n_max:一个数值,表示最多读取多少条数据。使用haven包,用于读取其他统计软件的数据。使用R语言自带的iris数据集做演示。关于system.file。原创 2023-06-25 16:23:54 · 2105 阅读 · 0 评论