R语言数据科学
文章平均质量分 95
原价99.9,限时19.9🔥火爆订阅中(200订阅后涨到29.9🔥)完结后恢复原价99.9🔥.以实战为需求,不断深入R语言数据科学的应用,涵盖机器学习理论、数据可视化、文本处理、数据分析等数据科学的应用,专栏不会少于50篇文章,会保持长期更新,保证所有代码均运行通过。
JOJO数据科学
某985统计学硕士在读,前滴滴数分实习、目前京东风控实习中。十九届华为杯研究生数学建模竞赛全国一等奖,全国大学生数学竞赛二等奖,kaggle银牌等。研究兴趣方向:多模态深度学习、推荐系统、CV等。
展开
-
【动手学因果推断】(五):因果数据导入与探索性分析
本文将使用从中获得的数据。Touring Plans 是一家帮助人们计划迪士尼和环球主题公园之旅的公司。他们的目标之一是利用数据和统计模型准确预测这些主题公园的景点等待时间。touringplans 包含多个数据集,其中包含有关迪士尼主题公园景点的信息。此外,该包还包含一个数据集,其中包含有关公园的原始元数据,以及每天记录的观察结果。原创 2023-09-25 07:15:00 · 1143 阅读 · 0 评论 -
【动手学因果推断】(四):绘制DAG(因果图)表达因果问题
高校统计学硕士在读💌如果文章对你有帮助,欢迎✌关注、👍、✌、👍订阅专栏✨本文收录于本系列主要记录一些因果推断学习笔记,以及如何应用常见的方法,并给出相关代码,方便大家动手学习,后续会考虑做一些论文总结分析。回答因果问题对于科学和商业分析至关重要,但随机临床试验和 A/B 测试等技术并不总是实用。本文将利用 R 语言对观察数据进行因果推断。原创 2023-09-11 08:00:00 · 2880 阅读 · 0 评论 -
【动手学因果推断】(三):目标试验和标准方法
回答因果问题对于科学研究和商业分析至关重要,但随机临床试验和 A/B 测试等技术并不总是实用。本文通过R对观察数据进行因果推断。原创 2023-09-06 08:00:00 · 3580 阅读 · 0 评论 -
【R语言因果推断】0-2:因果推断案例及双重假设研究
What if 研究是一项双盲随机临床试验,其中符合条件的女性接受口服 50 毫克纳曲酮或安慰剂 4 个月,按 1:1 的比例分配,在基线(即第 0 个月,随机分组前)和第 2、4 和 7 个月的随访时进行评估。其中样本选择条件为:感染艾滋病毒的女性 (WLWH) 且年满 18 岁并符合过去一个月不健康饮酒标准纳曲酮是 FDA 批准的一种有助于减少饮酒的药物。原创 2023-08-05 00:01:07 · 12297 阅读 · 0 评论 -
【R语言因果推断】0-1:因果推断概述
所谓因果推断,就是**寻找变量间因果关系,并估计由于因对果造成的效应大小**。它之所以重要,是因为因果关系一旦被准确衡量,那么只要控制了原因,我们就能得到想要的结果。例如我们知道了长高的原因,比如吃米饭是长高的唯一原因,那么如果我们想要长高,多吃米饭就可以了!因果推断应用到业务中也是一样,如果能发现某些事件与我们关心的业务指标间的因果关系,那么根据这些原因设计出有效的策略,就能得到我们想要的收益了。本文主要介绍因果推断领域相关术语和概念原创 2023-07-25 21:04:10 · 15124 阅读 · 9 评论 -
玩转数据可视化之R语言ggplot2:(十六)使用ggplot2编程(函数式绘图)
使用ggplot2编程,实现函数式绘图,提高你的绘图效率原创 2023-07-23 07:30:00 · 16621 阅读 · 2 评论 -
玩转数据可视化之R语言ggplot2:(十五)主题设置:使绘图更美观
ggplot2设置个性化主题,使绘图更美观原创 2023-07-22 07:30:00 · 28411 阅读 · 5 评论 -
玩转数据可视化之R语言ggplot2:(十四)层级布局(一层一层增加你的绘图元素,使绘图更灵活)
ggplot2绘图,一层一层添加你需要的元素,使绘图更灵活原创 2023-07-15 11:03:16 · 29162 阅读 · 1 评论 -
玩转数据可视化之R语言ggplot2:(十三)离散型颜色及图例设置
R语言ggplot2设置离散型颜色及其图例原创 2023-07-12 07:30:00 · 16546 阅读 · 0 评论 -
玩转数据可视化之R语言ggplot2:(十二)连续型颜色及图例设置
R语言ggplot2处理连续型数据颜色及图例设置原创 2023-07-11 07:30:00 · 18753 阅读 · 0 评论 -
【R语言数据科学】(二十六):生存分析
R语言生存分析原创 2023-07-10 08:30:00 · 16369 阅读 · 0 评论 -
统计学习导论(ISLR) 第八章树模型课后习题
ISLR第八章树模型课后代码题答案原创 2023-07-08 11:29:04 · 16894 阅读 · 1 评论 -
【R语言数据科学】(二十五):bagging和随机森林
R语言实现bagging和随机森林原创 2023-03-29 08:00:00 · 16989 阅读 · 0 评论 -
【R语言数据科学】(二十四)树模型(二):拟合回归树
R语言拟合回归树原创 2023-03-13 09:47:00 · 17301 阅读 · 1 评论 -
【R语言数据科学】(二十三)树模型(一):拟合分类树 (含详细代码)
R语言实现分类树原创 2023-03-12 15:17:52 · 17494 阅读 · 0 评论 -
【R语言数据科学】(二十二):多项式回归
我们重新分析本章中的例子所考虑的工资数据,以说明所讨论的许多复杂的非线性拟合模型可以在R中轻松实现。 我们首先加载包含数据的ISLR2库。原创 2023-01-26 16:26:06 · 17719 阅读 · 0 评论 -
【R语言数据科学】(二十一):变量选择(三)主成分回归和偏最小二乘回归
上一篇文章我们讨论了岭回归和Lasso回归,并讨论了如何使用Lasso回归来做变量选择,接下来我们将进一步讨论主成分回归和最小二乘回归方法原创 2022-11-17 16:09:17 · 20151 阅读 · 4 评论 -
【R语言数据科学】(二十):变量选择(二)Lasso回归
岭回归和Lasso回归都增加了正则化项,其中岭回归使用的是L2正则化,lasso回归使用的是L1正则化。提高了模型的泛化能力。岭回归不能做变量选择,只能够让变量的系数缩小,Lasso回归可以做变量选择,让某些变量的回归系数为0🔎!原创 2022-11-07 08:00:00 · 20829 阅读 · 0 评论 -
ISLR统计学习导论之R语言应用(九):R语言实现支持向量机(SVM)
高校统计学硕士在读💌如果文章对你有帮助,欢迎✌关注、👍、✌、👍订阅专栏✨本文收录于本系列主要介绍R语言在数据科学领域的应用包括:R语言编程基础、R语言可视化、R语言进行数据操作、R语言建模、R语言机器学习算法实现、R语言统计理论方法实现。原创 2023-03-29 23:59:39 · 18569 阅读 · 1 评论 -
ISLR统计学习导论之R语言应用(八):R语言实现bagging、随机森林、boosting算法
树模型作为十分常用的一种模型,之前我们介绍了他的理论基础,这篇文章主要介绍如何用r语言实现树模型原创 2023-04-07 22:34:08 · 17374 阅读 · 3 评论 -
ISLR统计学习导论之R语言应用(六):R语言实现变量选择和岭回归
在特征选择中,我们传统的统计方法有向前逐步回归,向后逐步回归等。然后我们可以选择对应的评估指标来确定最佳变量个数。例如AIC,BIC,调整后r2等。但是此时我们是对所有的数据来进行训练拟合的,但是我们往往更关心一个模型在未知数据集上的效果。因此我们可以使用交叉验证的方法来帮助我们比较不同模型的效果。一般我们选取k折交叉验证,k=10 or k=5。然后根据k折交叉验证的最后结果来确定我们选择的变量。最后在完整的数据集上进行训练,得到最终模型的估计值。这一章介绍的是最基本的特征选择的方法,原创 2023-04-03 09:19:41 · 17640 阅读 · 1 评论 -
ISLR统计学习导论之R语言应用(五):R语言实现交叉验证和bootstrap
本文通过R语言实现交叉验证和bootstrap原创 2022-04-02 17:16:13 · 19620 阅读 · 5 评论 -
统计学习导论之R语言应用(四):分类算法R语言代码实战
统计学习导论之R语言应用(ISLR)参考资料:The Elements of Statistical LearningAn Introduction to Statistical Learning统计学习导论(ISLR)(二):统计学习概述统计学习导论(ISLR)(三):线性回归统计学习导论(ISLR)(四):分类ISLR统计学习导论之R语言应用(二):R语言基础ISLR统计学习导论之R语言应用(三):线性回归R语言代码实战ISLR统计学习导论之R语言应用(四):分类算法R语言代码实战原创 2022-03-26 00:35:18 · 17608 阅读 · 1 评论 -
统计学习导论之R语言应用(三):线性回归R语言代码实战
第二章 线性回归2.1简单线性回归ISLR2库包含波士顿数据集,该数据集记录波士顿506个人口普查区的medv(房屋价值中值)。我们将使用12个预测变量,如rmvar(每户平均房间数)、年龄(平均房屋年龄)和lstat(低社会经济地位家庭的百分比),来预测medv。library(ISLR2)library(MASS)head(Boston)A data.frame: 6 × 14 crimzninduschasnoxrmagedisradtaxptratioblacklstatme原创 2022-01-28 20:38:54 · 18324 阅读 · 0 评论 -
统计学习导论之R语言应用(二):R语言基础
1、统计学习库——R语言介绍1.1 基础命令R使用函数来执行操作。要运行一个名为funcname的函数我们输入funcname(input1, input2),其中的输入(或参数)input1并input2告诉R如何运行该函数。一个函数可以有任意数量的输入。例如,要创建一个数字向量,我们使用函数c()(用于concatenate)。括号内的任何数字都连接在一起。以下命令指示R将数字 1、3、2 和 5 连接在一起,并将它们保存为名为 的向量x。当我们输入时x,它会给我们返回向量。x <-原创 2022-01-28 21:05:21 · 16891 阅读 · 0 评论 -
【R语言数据科学】(十九):变量选择(一)逐步回归法
在特征选择中,我们传统的统计方法有向前逐步回归,向后逐步回归等。然后我们可以选择对应的评估指标来确定最佳变量个数。例如AIC,BIC,调整后r2等。但是此时我们是对所有的数据来进行训练拟合的,但是我们往往更关心一个模型在未知数据集上的效果。因此我们可以使用交叉验证的方法来帮助我们比较不同模型的效果。一般我们选取k折交叉验证,k=10 or k=5。然后根据k折交叉验证的最后结果来确定我们选择的变量。最后在完整的数据集上进行训练,得到最终模型的估计值。原创 2022-10-27 08:00:00 · 24824 阅读 · 0 评论 -
统计学习导论(ISLR) 第六章变量选择课后习题
ISLR统计学习导论第六章变量选择课后题原创 2022-10-31 08:00:00 · 22840 阅读 · 0 评论 -
统计学习导论(ISLR)第五章bootstrap和交叉验证课后习题
统计学习导论(ISLR)参考资料:The Elements of Statistical LearningAn Introduction to Statistical Learning统计学习导论(ISLR)(二):统计学习概述统计学习导论(ISLR)(三):线性回归统计学习导论(ISLR)(四):分类统计学习导论(ISLR)(五):重采样方法(交叉验证和boostrap)ISLR统计学习导论之R语言应用(二):R语言基础ISLR统计学习导论之R语言应用(三):线性回归R语言代码实战I原创 2022-04-03 23:57:49 · 19299 阅读 · 2 评论 -
统计学习导论(ISLR) 第四章分类算法课后习题
统计学习导论(ISLR)参考资料:The Elements of Statistical LearningAn Introduction to Statistical Learning统计学习导论(ISLR)(二):统计学习概述统计学习导论(ISLR)(三):线性回归统计学习导论(ISLR)(四):分类ISLR统计学习导论之R语言应用(二):R语言基础ISLR统计学习导论之R语言应用(三):线性回归R语言代码实战ISLR统计学习导论之R语言应用(四):分类算法R语言代码实战统计学习导论原创 2022-03-26 21:25:15 · 20554 阅读 · 0 评论 -
统计学习导论(ISLR)第三章线性回归课后习题
统计学习导论(ISLR)参考资料:The Elements of Statistical LearningAn Introduction to Statistical Learning统计学习导论(ISLR)(二):统计学习概述统计学习导论(ISLR)(三):线性回归统计学习导论(ISLR)(四):分类统计学习导论(ISLR)(五):重采样方法(交叉验证和boostrap)ISLR统计学习导论之R语言应用(二):R语言基础ISLR统计学习导论之R语言应用(三):线性回归R语言代码实战I原创 2022-04-04 16:13:39 · 17938 阅读 · 0 评论 -
R语言caret机器学习(四):数据拆分
函数 createDataPartition 可用于创建数据的平衡拆分。如果此函数的 y 参数是一个因素,则随机抽样发生在每个类中,并且应该保留数据的整体类分布。例如,要创建 iris 数据的单个 80/20% 拆分:原创 2022-10-14 23:04:57 · 19502 阅读 · 0 评论 -
R语言caret机器学习(二):数据预处理上
基于R语言caret包,进行数据预处理,包括虚拟变量生成、零方差处理、线性相关性处理等。原创 2022-10-07 07:30:00 · 19210 阅读 · 0 评论 -
R语言caret机器学习(一)数据可视化:绘制特征变量图
featurePlot 函数是用于可视化数据的不同格点图的包装器。对于分类数据集,我们使用鸢尾花数据集为例,绘制不同特征的分布情况图原创 2022-10-04 14:35:08 · 19046 阅读 · 0 评论 -
【R语言文本挖掘】:主题模型(LDA)
本章介绍了用于查找表征一组文档的词簇的主题建模,并展示了 tidy() 动词如何让我们使用 dplyr 和 ggplot2 探索和理解这些模型。这是模型探索 tidy 方法的优势之一:不同输出格式的挑战由整理功能处理,我们可以使用一组标准工具来探索模型结果。特别是,我们看到主题建模能够从3本书中分离和区分章节,并通过查找错误分配的单词和章节来探索模型的局限性。🔎!原创 2022-09-09 07:30:00 · 21722 阅读 · 48 评论 -
【R语言文本挖掘】:n-grams和相关性计算
到目前为止,我们都是把词作为单独的单位,并考虑它们的情感关系。然而,许多文本分析是基于词与词之间的关系**,无论是检查哪些词倾向于立即跟随其他词,还是倾向于在同一文档中共同出现。>在本章中,我们将探索tidytext提供的一些方法,以计算和**可视化文本数据集中的词之间的关系。这包括token = "ngrams "参数,它通过相邻的词对而不是单独的词来进行标记。我们还将介绍两个新的软件包:ggraph,它扩展了ggplot2来构建网络图,以及widyr,它在一个整齐的数据框架内计算成对的相关性和....原创 2022-08-31 20:28:57 · 21467 阅读 · 66 评论 -
【R语言文本挖掘】:情感分析与词云图绘制
在上一章中,我们深入探讨了tidy data的含义,并展示了如何使用这种格式来处理有关词频的问题。这使我们能够分析文档中最常用的单词并比较文档,但现在让我们研究一个不同的问题。让我们讨论情绪分析的主题。当我们阅读一段文本时,我们会利用我们对词语情感意图的理解来推断一段文本是正面的还是负面的,或者可能以其他更细微的情绪为特征,如惊讶或厌恶。 我们可以使用文本挖掘工具以编程方式处理文本的情感内容............原创 2022-07-18 06:45:00 · 21424 阅读 · 87 评论 -
【R语言文本挖掘】:分析单词和文档频率——TF-IDF
文本挖掘和自然语言处理的一个核心问题是如何量化文档的内容。的一个核心问题是如何量化文档的内容。我们可以通过查看构成文档的单词来做到这一点吗?衡量一个词的重要性的一种方法是它的词频(tf),即一个词在文档中出现的频率,然而文档中有些词出现了很多次,但可能不会重要的;在英语中,这些可能是“the”、“is”、“of”等词。我们可能会采取将这些词添加到停用词列表中并在分析之前将其删除的方法,但是这些词中的某些词在某些文档中可能比其他词更重要。停用词列表不是调整常用词的词频的非常复杂的方法。.........原创 2022-07-11 12:08:33 · 19565 阅读 · 125 评论 -
【R语言文本挖掘】:tidy数据格式及词频计算
文本挖掘中的一个常见任务是查看词频,并比较不同文本中的词频。本文基于tidy data 原则计算各作品的词频,并进一步分析不同文本之间的相关性。原创 2022-07-14 06:45:00 · 17467 阅读 · 24 评论 -
【R语言文本挖掘】:文本挖掘(以特朗普推文数据为例)
文本挖掘案例分析:在 2016 年美国总统大选期间,当时的候选人唐纳德·J·特朗普 (Donald J. Trump) 使用他的推特账户作为与潜在选民交流的一种方式。数据科学家 David robinson 进行了一项分析,发现竞选期间特朗普的推文有两个来源,其中,Android(他自己) 和 iPhone(他的员工) 的推文显然来自不同的人。...............原创 2022-06-29 10:16:29 · 20380 阅读 · 132 评论 -
玩转数据可视化之R语言ggplot2:(十一)坐标轴和刻度线设置2
上一篇文章我们介绍了数值型变量的位置和刻度的设置,这一篇文章我们来讨论一下日期型数据和离散型数据的位置和刻度设置原创 2022-10-19 07:45:00 · 22621 阅读 · 0 评论