R语言
文章平均质量分 54
Affiny_L
这个作者很懒,什么都没留下…
展开
-
数据集抽样方法
前言进行模型的训练前,挑选训练集和测试集也非常重要,即抽样方法,一个好的抽样方法需要保证两个数据集数据分布的一致性,例如在分类中至少要保持样本的比例类似。下面列出几种常见的做法。1.留出法“留出法”直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T。需要注意的是,训练/测试集的划分要尽可能保证两个数据集数据分布的一致性,例如在分类中至少要保持样本的比例类似。另一个需要注意的问题是,即便在给定训练/测试集的样本比例后,仍然存在许多划分方式对原始数据集D进行分割。例如可原创 2021-05-23 15:05:40 · 1437 阅读 · 0 评论 -
逻辑斯蒂回归模型
前言系统性地梳理一下逻辑斯蒂回归代码实现,顺便存档。关于原理部分的笔记在平板上,在最后一部分可以用到。目录:1.R语言实现(glm函数)2.Python实现(库)3.手撕Python1.R语言实现直接上代码,内容参考《统计学习导论》#这里使用ISLR库的smarket(股票市场)数据的数值和图像先进行描述性统计分析#该数据集包括从2001年年初至2005年年末1250天里S&P500股票指数的投资回报率#数据中记录了过去5个交易日中的每个交易日的投资回报率,从Lag1到lag5原创 2021-11-05 18:25:05 · 435 阅读 · 0 评论 -
列联表——2 CVs
前言关于两个分类变量(CV)相关列联表的一些内容和相关的检验,希望可以用R和Python实现,现只更新了R1.R与列联表在R中创建列联表需要导入包gmodelslibrary(gmodels) host_table=CrossTable(host_purchase$purchase,host_purchase$host,prop.chisq = F,prop.c=F,prop.r=F,prop.t=F) 创建列联表的函数是CrossTable,第一个参数prop.chisq为Ture会在每个原创 2021-11-01 10:41:09 · 280 阅读 · 0 评论 -
R语言可视化
前言记录一些R语言中的可视化方法(随时更新)1.图像设置参考https://blog.csdn.net/weixin_42120275/article/details/117140912具体例子:par(mar=c(5,9,4,2))之后在下面画图就可以了原创 2021-10-31 18:45:41 · 829 阅读 · 0 评论 -
R语言中的相对路径和绝对路径
同面德勤的时候被要求用相对路径,mark一下。原创 2021-03-29 14:48:11 · 9515 阅读 · 0 评论 -
关于R批量导入excel的方法
同在德勤笔试的时候发现这个需求,之前处理数据的时候也遇到过,感觉是很实用的技能,特别研究一下码上来。原创 2021-03-18 09:55:22 · 1461 阅读 · 0 评论 -
dplyr包的用法
面德勤的时候被要求用R的dplyr包处理数据(题做的不是很好所以被拒了orz),了解了一下发现和SQL的基础操作还蛮像,????上来供以后参考。原创 2021-03-07 16:38:42 · 411 阅读 · 0 评论 -
R语言中的字符串处理
马一个占地儿有时间加http://www.360doc.com/content/18/0305/17/33459258_734518990.shtmlhttps://www.jianshu.com/p/afdd8385e6cahttps://blog.csdn.net/duqi_yc/article/details/9817243原创 2021-03-07 16:35:03 · 149 阅读 · 0 评论 -
R语言中的一些常用函数
前言记录一些R语言中简单常用的函数(随时更新)1.rep函数可以用作用某值填充某行列的方法最普通常用的方法:rep(填充单体,填充数)> rep(0,5)[1] 0 0 0 0 0> rep(1:3,5) [1] 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 > rep('internet',5)[1] "internet" "internet" "internet" "internet" "internet"rep函数有三个参数times、leng原创 2021-03-07 16:33:21 · 1489 阅读 · 0 评论 -
R语言中矩阵或者数据集操作
前言记录一些R语言中简单易忘的语句,矩阵或数据集操作相关(随时更新)1.重命名行或列(1)单个行列的重命名colnames(数据集名)[列数]=‘新列名’rownames(数据集名)[列数]=‘新列名’colnames(data)[2] = 'newname'rownames(data)[2] = 'newname'(2)将某行列设为行列名row.names(数据集名)=数据集$列名row.names(df) = df$gene_id2.矩阵的转置最常用的t(矩阵名)注意:原创 2021-03-07 16:03:26 · 3339 阅读 · 0 评论