自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

statistics+insight+vista+power

statistics+insight+vista+power

  • 博客(6028)
  • 收藏
  • 关注

原创 R语言使用tidyquant包的tq_transmute函数计算持有某只股票的天、月、周收益率(此处选择的时间周期为月)(Computing Monthly Returns of a Stock)

本文介绍了使用R语言tidyquant包计算股票收益率的方法。通过tq_transmute函数,可以方便地计算微软股票(MSFT)的月度收益率。文章首先导入tidyquant和tidyverse包,获取2010年至今的微软股票数据,然后演示了如何计算并显示月度收益率数据。同时简要介绍了ggplot2数据可视化包的背景和理论基础,包括其基于"图形语法"的设计理念和主要功能组件。该方法为金融数据分析提供了简洁高效的技术实现。

2025-12-19 21:50:34 64

原创 R语言使用econocharts包创建微观经济或宏观经济图、supply函数创建默认的供给曲线(supply curve)

本文介绍了如何使用R语言的econocharts包创建经济学图表。该包通过简单函数即可生成微观/宏观经济图表,基于ggplot2实现。重点演示了supply()函数创建默认供给曲线的方法:安装开发版后直接调用supply()即可生成右上倾斜的供给曲线,反映价格与供给量的正比关系。函数支持自定义数据覆盖默认值,并提供多种参数调整曲线样式。供给曲线展示了商品价格与生产者供给意愿的关系,是经济学基本分析工具之一。

2025-12-19 21:49:26 62

原创 ↵R语言使用cph函数和rcs函数构建限制性立方样条cox回归模型、使用rms包的Predict函数计算指定连续变量在不同分组变量下和风险比HR值的关系、使用ggplot2可视化连续变量在不同

本文介绍了使用R语言构建限制性立方样条(RCS)Cox回归模型的方法,用于分析连续变量与生存风险的非线性关系。通过rms包的cph和rcs函数建立模型,利用Predict函数计算不同分组下风险比(HR),并使用ggplot2进行可视化。研究以胰腺癌患者术后生存数据为例,分析年龄与死亡风险的关系,结果显示年龄与HR呈非线性关联(U型曲线)。RCS方法克服了传统线性假设的局限性,能更准确地描述变量间的复杂关系。文章还对比了样条回归与多项式回归的差异,强调RCS在保留数据信息、避免主观分段方面的优势。

2025-12-19 21:48:42 359

原创 R语言使用geomtextpath包的geom_textpath函数在笛卡尔坐标系中可视化文本的直线文本转化为极坐标系中的弯曲文本(直角坐标中的直线文本在极坐标中变得弯曲)

摘要:本文介绍如何使用R语言的geomtextpath包将直线文本在极坐标系中转化为弯曲文本。通过geom_textpath函数,可以在ggplot2中实现文本随路径弯曲的效果。首先安装并加载geomtextpath和tidyverse包,然后创建螺旋线数据集,使用geom_textpath函数将文本沿螺旋线路径绘制。同时演示了在笛卡尔坐标系中的直线文本转换到极坐标系后变为弯曲文本的过程。文章还简要介绍了ggplot2的基本原理和图形语法概念,包括几何对象、图形属性和统计变换等核心要素。该技术为数据可视化提

2025-12-19 21:47:34 32

原创 R语言使用survival包的coxph函数构建cox回归模型、使用ggrisk包的ggrisk函数可视化Cox回归的风险评分图(风险得分图)、使用family参数自定义字体类型(基于LIRI基因数

本文介绍了使用R语言survival和ggrisk包构建Cox回归模型并进行可视化分析的方法。基于LIRI肝癌数据集,利用ANLN、CENPA等4个基因表达值构建Cox比例风险模型,通过ggrisk函数生成包含风险评分排序图、生存时间分布图和基因表达热图的三联图。文章详细解析了图形含义,展示了高低风险组生存差异,并演示了通过family参数自定义字体等图形美化方法。该可视化方法能直观评估模型准确性,展示预测变量与生存结局的关系,适用于肿瘤遗传数据分析。

2025-12-19 21:46:40 440

原创 R语言ggplot2可视化删除图例(legend)周围的灰色矩形(remove the gray rectangle around the legend)

本文介绍了在R语言ggplot2可视化中删除图例(legend)周围灰色矩形的方法。通过修改theme()函数中的legend.key参数,设置fill=NA可移除灰色背景。文章提供了完整代码示例,包括数据准备、图形绘制和主题设置,并验证了无效方案(如theme_set方法)。作为背景,文章还简要介绍了ggplot2包的基本原理,说明其基于"图形语法"理论,通过几何对象、图形属性和统计变换的组合实现数据可视化。

2025-12-19 21:45:51 41

原创 R语言编写自定义函数(线条颜色、线型、填充色、标签、字体、轴标签等)设置fmsb包生成的漂亮的雷达图(radar chart、蜘蛛图spider plot)、可视化多个数据对象的雷达图(Create

本文介绍了使用R语言fmsb包创建和美化雷达图的方法。首先演示了如何安装fmsb包并准备仿真数据,包括计算变量的最大值和最小值。然后展示了基本雷达图的绘制方法,重点介绍了自定义函数create_beautiful_radarchart的实现,该函数可以灵活设置线条颜色、填充色、标签样式等参数来美化图表。最后展示了如何在一个图中可视化多个数据对象,并通过添加图例增强图表可读性。文章提供了完整的代码示例,从数据预处理到最终可视化效果调整,帮助读者快速掌握制作精美雷达图的技巧。

2025-12-19 21:45:00 31

原创 R语言使用ggplot2可视化:使用ggpattern包在分组条形图中添加自定义条纹图案、添加阴影、条纹或其他图案或纹理(add hatches, stripes or another pattern

本文介绍如何使用R语言的ggplot2包结合ggpattern扩展包,在分组条形图中添加自定义条纹图案和纹理效果。通过仿真学生数据(包含学科类别、学习时间和是否为书呆子等变量),演示如何利用geom_bar_pattern()函数为不同分组添加斜条纹图案。文章详细说明了参数设置方法,包括图案角度(45°)、密度(0.1)和间距(0.025)等关键参数,并展示了如何通过scale_pattern_manual()控制图案显示。同时介绍了ggplot2基于图形语法的设计理念,以及ggpattern包如何扩展gg

2025-12-19 21:38:29 31

原创 R语言评估回归模型预测因素(变量、特征)的相对重要性(Relative importance)、将回归模型的预测变量标准化(scale)之后构建模型获得标准化回归系数来评估预测变量的相对重要性

 R语言评估回归模型预测因素(变量、特征)的相对重要性(Relative importance)、将回归模型的预测变量标准化(scale)之后构建模型获得标准化回归系数来评估预测变量的相对重要性

2025-12-19 21:37:39 32

原创 R语言使用reshape2包的melt函数进行dataframe变形将dataframe数据从宽表变换为长表、dcast函数把melt函数处理后的数据、基于一个自定义公式(formula)从长表到宽表

摘要:reshape2包是R语言中实现数据宽长格式转换的重要工具,主要通过melt和dcast两个函数实现。melt函数将宽表转为长表,将原列标识符和数据整合成行内容,数值统一存入value列;dcast函数则基于指定公式将长表转回宽表,可选择是否使用聚合函数。演示案例展示了ID-Time格式数据通过melt转为三列长表,再通过dcast还原的过程。该包为Hadley Wickham开发,类比金属熔铸过程,为数据重塑提供了高效解决方案。

2025-12-19 21:37:01 260

原创 R语言使用vtreat包的designTreatmentsC函数构建数据处理计划(treatment plan)、使用vtreat包进行数据准备

本文介绍了使用R语言vtreat包处理分类预测建模数据的方法。通过KDD Cup 2009客户流失预测案例,展示了如何利用designTreatmentsC函数构建数据处理计划,解决现实数据中的常见问题:缺失值、分类变量水平过多、罕见分类水平等。文章首先演示了未预处理数据直接建模的失败案例,然后详细讲解了使用vtreat包进行数据准备的过程,包括并行计算加速、变量转换和生成新特征(如_isBAD字段)。该方法能有效提高数据质量,使模型在生产环境中更稳定可靠。

2025-12-10 17:39:12 42

原创 R语言ggplot2可视化:ggplot2可视化密度图(density plot)并使用geom_vline函数添加均值竖线、添加均值数值标签(Mean Line or Vertical Line )

本文介绍了使用R语言ggplot2包绘制密度图并添加均值线和标签的方法。首先导入相关包并加载薪资数据,通过geom_density()函数绘制对数转换后的薪资密度图。然后计算薪资均值,使用geom_vline()添加红色均值竖线,最后通过geom_text()在图中标注均值数值。文章还简要介绍了ggplot2的设计理念,它基于"图形语法"理论,通过几何对象、图形属性和统计变换的组合来创建可视化图形。ggplot2作为R语言中最流行的可视化包之一,提供了灵活而强大的数据可视化功能。

2025-12-10 17:38:36 42

原创 R语言data.table导入数据实战:data.table使用dcast.data.table函数实现透视表(pivot table)

本文介绍了R语言中data.table包的使用方法,重点讲解了如何利用dcast.data.table函数实现数据透视表功能。内容包含data.table的基本概念、安装方法、与data.frame的转换技巧,以及使用mtcars数据集进行实战演示。文章详细说明了dcast.data.table函数的四个主要参数:数据表、公式、值变量和聚合函数,并提供了创建不同汽缸和化油器组合下平均里程透视表的示例代码。该教程适合R语言初学者学习高效数据处理方法。

2025-12-10 17:37:34 44

原创 R语言ggplot2可视化分面图(faceting):自定义分面图可视化、ggplot2可视化分面图并移除分面图之间的边框线、以及分面图之间的间隙(Remove Spacing between Pan

本文介绍使用R语言ggplot2包创建分面图(facet plot)的三种方法:1)基础分面图绘制;2)移除分面图边框线;3)同时移除边框线和分面间隙。通过palmerpenguins数据集示例,演示如何利用facet_wrap()函数按物种分组展示企鹅性别与喙长关系,并使用theme()函数调整图形样式。ggplot2基于图形语法理论,通过映射数据到几何对象和图形属性来创建可视化。文章还简要介绍了ggplot2的发展历史和核心概念。

2025-12-10 17:36:56 43

原创 R语言ggplot2可视化整体排序的水平堆叠分离(dodge)条形图(Stacked Barplot Side By Side with position=dodge)

本文介绍了使用R语言ggplot2包创建水平堆叠分离条形图的方法。首先导入tidyverse库并设置主题样式,然后读取社交媒体使用情况的仿真数据。通过ggplot2的fct_reorder函数对数据进行排序,使用coord_flip()实现水平条形图展示。重点演示了三种可视化方式:基础水平条形图、整体排序的水平堆叠条形图,以及使用position="dodge"参数实现的水平堆叠分离条形图。文章还简要介绍了ggplot2基于"图形语法"的设计理念,强调其通过映射数据到

2025-12-10 17:36:06 111

原创 R语言使用magick包的image_append函数把多张图片纵向并排组合起来形成合成图像(Stack images on top of each other)

本文介绍了如何使用R语言的magick包进行图像处理,重点讲解了image_append函数的纵向图片拼接功能。首先说明包的安装方法,包括Windows/Mac和Linux系统下的不同安装步骤。然后展示如何查看系统支持的图像格式,以及基本的图像读写和转换语法。通过示例演示了读取图片、查看元数据信息等操作。最后详细讲解了三种图片组合方式:使用image_mosaic和image_flatten进行图片堆叠,使用image_append实现横向和纵向图片拼接,其中纵向拼接需要设置stack=TRUE参数。文章提

2025-12-10 17:35:25 32

原创 R语言使用DALEX包的predict_parts函数对h2o包生成的多个算法模型的在指定单条测试样本(观察)数据下的核心预测变量(特征)进行分析、ggplot2可视化多个模型对于指定样本影响力最强

本文介绍了使用R语言的DALEX包对h2o构建的机器学习模型进行解释性分析的方法。首先通过h2o包构建了逻辑回归、随机森林和梯度提升机三种分类模型,并计算了各自的AUC值。然后将数据转换为DALEX包所需的格式,使用explain函数创建模型解释器。重点展示了predict_parts函数对单条测试样本的核心预测变量分析,通过ggplot2可视化对比了三种模型对该样本影响最大的前10个特征变量。研究发现不同模型对同一观测值的特征重要性存在差异,如GBM模型中JobRole、StockOptionLevel等

2025-12-10 17:34:43 35

原创 R语言plotly可视化:使用PCA算法进行数据降维、使用PCA所有的主成分绘制散点图矩阵(scatter plot matrix)、使用分类类别表征散点图矩阵中数据点的色彩(scatter plot

本文介绍了使用R语言plotly包进行数据可视化的方法,重点展示如何利用PCA算法降维并绘制散点图矩阵。首先使用iris数据集演示了原始变量的散点图矩阵绘制,通过颜色区分不同类别。然后详细说明了PCA分析过程,包括主成分提取、方差解释率计算,并绘制了主成分的散点图矩阵,图中标注了各主成分的方差贡献率。文章还对比了ggplot2和plotly两种可视化工具的特点,指出plotly具有交互性强、图形美观、支持多语言等优势。通过具体代码示例,展示了plotly在R语言中实现高质量数据可视化的方法。

2025-12-10 17:33:40 52

原创 R语言使用ggpubr包的gghistogram函数可视化分组箱图、添加分组均值、自定义分组色彩、添加轴须图(rug)、添加密度曲线、添加双y轴分别表示频率以及密度曲线的密度值(Using a sec

本文介绍使用R语言ggpubr包的gghistogram函数创建分组直方图的方法。主要内容包括:导入必要包(ggpubr和cowplot),生成仿真数据;创建基础分组直方图并添加均值线、轴须图和自定义颜色;进一步添加密度曲线并统一y轴为比率信息;最后实现双y轴可视化,左侧显示频率,右侧显示密度值。通过align_plots和ggdraw函数实现两个图形的精确对齐叠加,展示了ggplot2强大的图形语法和灵活的可视化能力。

2025-12-10 17:32:59 40

原创 R语言plotly可视化:plotly可视化回归模型的残差分析图、分别可视化训练接、测试集对应的预测值和残差的散点图、并使用小提琴图可视化训练集和测试集上的残差(residual plots)

本文介绍了使用R语言中的plotly包进行回归模型残差可视化分析的方法。首先基于iris数据集建立线性回归模型,将数据分为训练集和测试集。然后分别绘制训练集和测试集的预测值与残差的散点图,并使用小提琴图展示两组的残差分布。通过plotly的交互式可视化功能,可以直观地评估模型在不同数据集上的表现。文章还简要介绍了ggplot2和plotly这两个强大的可视化工具包的特点和优势。整个分析过程展示了如何利用R语言的plotly包进行回归模型诊断和结果展示。

2025-12-10 17:31:15 46

原创 R语言ggplot2可视化:ggplot2可视化分组箱图,将可视化图像的图例(legend)放置在图像底部居中、其中图例信息平铺​ (position legend in bottom center)

本文介绍使用R语言ggplot2包绘制分组箱图并调整图例位置的方法。以mtcars数据集为例,通过aes()函数映射x轴为cyl因子、y轴为mpg、填充颜色为cyl因子,使用geom_boxplot()绘制箱图。重点演示如何通过theme()函数将图例置于底部居中(position='bottom')并水平排列(direction='horizontal')。ggplot2基于图形语法理论,通过几何对象、图形属性和统计变换的灵活组合实现数据可视化,其系统化的绘图逻辑虽然需要学习成本,但能有效提升数据呈现效果

2025-12-09 14:47:16 31

原创 R语言使用fmsb包可视化雷达图(radar chart、蜘蛛图spider plot)、独立显示多个数据对象的雷达图、添加平均水平灰色区域、每个雷达图都和平均水平进行对比(showing both

本文介绍使用R语言fmsb包绘制雷达图的方法。首先安装并导入fmsb包,生成仿真学生成绩数据,对数据进行标准化处理。然后计算各变量的最大值、最小值和平均值,合并到数据集中。最后使用radarchart()函数绘制每个学生的雷达图,其中灰色区域表示平均水平,红色线条表示个体水平,实现个体与平均水平的直观对比。通过调整图形参数,可在3×4网格中独立显示多个数据对象的雷达图。该方法适用于多维度数据的可视化分析,便于比较个体与整体特征。

2025-12-09 14:46:05 34

原创 R语言使用DALEX包对h2o包构建的机器学习模型进行解释分析:总结及实战

本文介绍使用R语言的DALEX包对h2o构建的机器学习模型进行解释分析。主要内容包括:1) 数据预处理,将数据集转换为h2o格式并划分训练/验证/测试集;2) 使用h2o构建GLM、随机森林和GBM三种分类模型;3) 通过DALEX包创建模型解释器,进行残差分析、特征重要性评估;4) 使用偏依赖图(PDP)和ALE方法分析连续变量与目标值的关系;5) 对单条样本进行预测解释,识别关键影响因素。实验结果表明,不同模型的特征重要性存在差异,GBM和随机森林能更好地捕捉非线性关系。该方法可帮助理解模型预测行为,提

2025-12-09 14:44:20 35

原创 R语言使用DALEX包对h2o包构建的机器学习模型进行解释分析:总结及实战

本文介绍了使用R语言的DALEX包对h2o构建的机器学习模型进行解释分析的完整流程。首先通过h2o包构建了三种二分类模型(GLM逻辑回归、随机森林和GBM),并计算各模型的AUC值。然后利用DALEX包创建解释器对象,对模型进行多维度解释分析:包括模型性能评估(残差分布分析)、特征重要性排序、偏依赖图(PDP)和累积局部效应(ALE)分析连续变量影响,以及单样本预测解释(Breakdown分析)。文章特别展示了不同模型对相同特征(如年龄)的响应差异,并提供了特征重要性计算耗时统计。通过DALEX的可视化工具

2025-12-09 14:43:25 28

原创 R语言plotly可视化:使用UMAP算法将数据降维到三维并使用plotly可视化降维后的数据(project data into 3D with UMAP and px.scatter_3d)

本文介绍如何使用R语言的plotly包结合UMAP算法进行数据可视化。首先使用iris数据集,通过UMAP算法将四维数据降维至2D和3D,然后分别用plot_ly()函数创建散点图。2D可视化使用X/Y轴坐标和颜色区分不同种类,3D可视化增加Z轴坐标。文章还简要介绍了ggplot2和plotly的特点:ggplot2基于图形语法理论,支持灵活的数据映射;plotly作为交互式可视化工具,支持多种图形类型和语言接口。示例代码展示了如何设置图表颜色、坐标轴标签等属性,最终生成可交互的3D散点图来直观展示数据分布

2025-12-09 14:42:05 34

原创 R语言plotly可视化:使用TSNE算法将数据降维到二维并使用plotly可视化降维后的数据(project data into 2D with t-SNE and px.scatter)

本文介绍了使用R语言中的plotly和tsne包实现数据降维与可视化的方法。首先通过tsne算法将鸢尾花数据集(iris)降维到二维空间,然后利用plotly的px.scatter函数绘制散点图进行可视化展示。文章详细展示了从数据准备(加载iris数据集)、tsne降维处理(设置随机种子、指定初始维度)到可视化呈现(按不同物种分类着色)的完整代码流程。同时,文章还简要介绍了ggplot2和plotly这两个强大的可视化工具的特点和优势,包括ggplot2基于图形语法的设计理念,以及plotly支持多语言、交

2025-12-09 14:41:22 34

原创 R语言ggplot2可视化:ggplot2可视化基本散点图(scatter plot)、通过在theme_bw中指定参数base_size来改变轴标签的大小、并控制网格线和轴标签的大小

本文介绍了使用R语言ggplot2包绘制基本散点图的方法。主要内容包括:1)导入tidyverse库并使用faithful数据集;2)绘制基础散点图,展示喷发时间与等待时间的关系;3)通过theme_bw()函数调整图形样式,特别是用base_size参数控制轴标签大小;4)进一步使用base_line_size和base_rect_size参数精细调整网格线和轴标签的大小。文章还简要介绍了ggplot2基于"图形语法"的设计理念,强调其通过映射数据到几何对象属性来创建可视化图形的特点。

2025-12-09 14:38:12 34

原创 R语言可视化分面图、多变量分组嵌套多水平t检验、并指定参考水平、可视化多变量分组嵌套多水平分面箱图(faceting boxplot)并添加显著性水平、指定显著性参考水平

本文介绍了使用R语言进行多变量分组数据可视化和统计分析的方法。通过ggplot2和ggpubr包,演示了如何创建分面箱图(faceting boxplot)和条形图,并添加统计检验结果。主要内容包括:1)数据预处理,将剂量(dose)转换为因子变量;2)创建分组分面可视化图表;3)执行多水平t检验并指定参考组;4)在图表中添加显著性标记。文章展示了完整的分析流程,从数据模拟、可视化到统计检验,为复杂分组数据的分析提供了实用解决方案。特别强调了ggplot2基于图形语法的灵活性和plotly在交互式可视化中的

2025-12-09 14:35:13 26

原创 R语言使用gt包和gtExtras包优雅地、漂亮地显示表格数据:使用gt包可视化表格数据,使其易于阅读和理解、gtExtras包的gt_bar_plot函数和gt_plt_bar_pct函数可视化百

本文介绍如何使用R语言的gt和gtExtras包优雅地可视化表格数据。首先需通过GitHub安装gtExtras包,然后利用其gt_plt_bar_pct函数创建百分比条形图,支持原始数据和缩放数据的可视化展示。文章演示了如何调整条形图颜色、对齐方式和列宽,使表格更美观易读。通过mtcars数据集示例,展示了如何计算百分比并生成带有条形图的表格。该工具包能显著提升数据展示效果,适合需要制作精美数据报告的场景。

2025-12-09 14:33:32 39

原创 R语言ggplot2可视化线图(line)、自定义配置标题文本相关内容颜色和图例(legend)颜色相匹配(color individual words in title to match color

本文介绍如何使用R语言ggplot2包创建线图并实现标题文本颜色与图例颜色匹配。通过仿真数据展示"affluence"和"poverty"两组随时间变化的浓度趋势,使用textGrob函数分别创建不同颜色的标题文本片段,并通过annotation_custom将彩色标题叠加到图表上。同时利用scale_color_manual设置与标题相匹配的线条和图例颜色,最终实现可视化效果中标题关键词颜色与对应数据组颜色的一致性。这种方法提升了图表的视觉协调性和信息传达效果,体现

2025-12-08 17:28:53 37

原创 R语言偏相关性计算(Partial Correlation)、使用ggm包的pcor函数计算偏相关性(Partial Correlations)

本文介绍了使用R语言计算偏相关性的方法。主要内容包括:1) 使用state.x77数据集进行演示,展示cov()和cor()函数计算协方差和相关性的基本用法;2) 解释偏相关与半相关的概念差异,偏相关是控制其他变量后两个变量的净相关;3) 重点演示ggm包的pcor()函数计算偏相关性,示例计算人口与谋杀率的偏相关(控制收入、文盲率和高中毕业率),结果为0.346。文章还对比了Pearson、Spearman和Kendall三种相关性计算方法,适用于控制其他变量影响时的相关性分析场景。

2025-12-08 17:27:57 55

原创 R语言ggplot2可视化: 将图例标题(legend title)对齐到ggplot2中图例框的中间(默认左对齐、align the legend title to the middle of le

摘要:本文介绍了如何使用R语言ggplot2包将图例标题居中对齐的方法。通过示例数据展示了默认左对齐的情况,并提供了三种解决方案:使用theme(legend.title=element_text(hjust=0.5))、guides(color=guide_legend(title.hjust=0.5))以及theme(legend.title.align=0.5)。同时简要介绍了ggplot2包基于"图形语法"的设计理念,说明其通过几何对象、图形属性和统计变换的组合实现数据可视化。文

2025-12-08 17:27:18 442

原创 R语言使用ggpubr包ggsummarystats函数可视化分组箱图(自定义分组颜色)并在X轴标签下方添加分组对应的统计值(样本数N、中位数median、四分位数的间距iqr、统计值的色彩和分组图色

本文介绍使用R语言ggpubr包的ggsummarystats函数创建分组箱图并添加统计信息。首先导入tidyverse、rstatix和ggpubr包,使用ToothGrowth数据集作为示例数据。通过ggsummarystats函数可生成基础分组箱图,并在x轴下方显示样本数(N)、中位数(median)和四分位距(IQR)等统计值。进一步可自定义分组颜色,使统计值的颜色与箱图分组颜色相匹配,增强可视化效果。该函数结合了ggplot2的图形语法理念,通过简单代码实现专业统计图形的绘制,帮助研究人员直观展示

2025-12-08 17:26:30 162

原创 R语言使用DALEX包的model_profile函数对h2o包生成的多个算法模型的连续变量进行分析、使用偏依赖图(Partial Dependence Plots)解释某个离散特征和目标值y的关系

本文介绍了使用R语言中的DALEX包对h2o生成的机器学习模型进行解释分析的方法。主要内容包括:1)数据预处理,将分类变量转化为因子并转换为h2o格式;2)使用h2o包构建三种二分类模型(GLM、随机森林和GBM);3)将数据转换为DALEX期望的格式,构建模型解释器;4)重点演示了使用model_profile函数分析连续变量,并通过偏依赖图(PDP)解释离散特征与目标变量的关系。以EnvironmentSatisfaction变量为例,展示了不同模型下员工满意度与流失概率的关系,发现满意度低的员工流失概

2025-12-08 17:25:27 272

原创 R语言plotly可视化:使用PCA算法进行数据降维、使用plotly可视化降维后的三个核心主成分的三维可视化图形(3D PCA Scatter Plot of first three princip

本文介绍了使用R语言中的plotly包进行数据可视化的方法,重点展示了两种可视化技术:1) 绘制散点图矩阵(scatterplot matrix)来展示多变量关系,其中数据点颜色按分类类别区分;2) 应用PCA算法进行数据降维,并将前三个主成分通过3D散点图可视化。文章以iris数据集为例,详细演示了如何使用plotly包实现这两种可视化效果,包括数据准备、PCA分析和图形参数设置等步骤。同时简要介绍了ggplot2和plotly这两个强大的可视化工具包的特点和优势。

2025-12-08 17:23:31 39

原创 R语言使用hexSticker包将ggplot2包可视化的结果转换为六角图(六角贴、六角形贴纸、ggplot2 plot to hex sticker)

本文介绍了如何使用R语言的hexSticker包将ggplot2可视化结果转换为六角形贴纸。首先需要安装hexSticker包及相关依赖,然后通过ggplot2创建基本图形并设置透明背景,最后使用sticker()函数将图形转换为六角贴纸格式。文章还简要介绍了ggplot2包的特点,它是基于图形语法理论的数据可视化工具,提供了丰富的几何对象函数来创建各种统计图形。hexSticker包能将常规图形转换为适合作为软件包标识的六角形格式,便于在项目中使用。

2025-12-08 17:22:44 24

原创 R语言R原生plot函数和lines函数的主要参数说明、解析(type、pch、cex、lty、lwd、col、xlab、ylab)

本文介绍了R语言中plot和lines函数的主要参数及其用法。关键参数包括:type控制图形类型(线/点/两者),pch和cex设置点的形状和大小,lty和lwd控制线型和线宽,col指定颜色,xlab和ylab设置坐标轴标签。文章通过示例代码演示了如何创建基础图形并添加线条和图例。同时简要提及了ggplot2包的优势,指出其基于"图形语法"理论,提供了丰富的几何对象函数(如geom_line、geom_point等)来实现更复杂的数据可视化。这些基础绘图函数和高级包共同构成了R语言强大

2025-12-08 17:21:46 226

原创 R语言ggplot2可视化绘制线图(line plot)、使用gghighlight包突出高亮线图中满足组合判断条件的线图(satisfies both condition A and B)

本文介绍了使用R语言ggplot2包绘制线图(lineplot)的方法,并演示如何通过gghighlight包高亮显示同时满足条件A和B的线条。首先导入tidyverse和gghighlight包,设置主题为theme_bw()。然后生成仿真数据集,包含400个观测值和随机生成的数值。文章详细讲解了ggplot2的图形语法原理,包括几何对象、图形属性、统计变换等核心概念。最后通过示例代码展示如何绘制基础线图,并使用gghighlight函数突出显示最大值大于15且flag均值大于0.5的线条。ggplot2

2025-12-08 17:03:35 31

原创 R语言使用fs包的file_delete函数删除指定文件夹下的指定文件、举一反三、dir_delete函数、link_delete函数可以用来删除文件夹和超链接

R语言fs包提供了便捷的文件系统操作功能,包括路径处理、文件/目录/链接管理等。主要操作包括:使用dir_create()创建目录、file_create()创建文件;通过file_delete()删除文件、dir_delete()删除目录、link_delete()删除链接。安装方式可通过install.packages("fs")或GitHub安装。该包提供跨平台统一接口,配合path()函数构建路径,结合dir_ls()查看目录内容,能有效简化文件系统管理工作流程。

2025-12-08 17:02:03 42

原创 R语言使用treemap包中的treemap函数可视化treemap图:treemap将分层数据显示为一组嵌套矩形,每一组都用一个矩形表示,该矩形的面积与其值成正比

摘要:本文介绍了R语言中treemap包和ggplot2包的数据可视化功能。treemap函数可将分层数据展示为嵌套矩形图,矩形面积与数值成正比。文章通过仿真数据演示了treemap的基本用法。同时详细介绍了ggplot2包,它基于"图形语法"理论,提供丰富的几何对象函数(geom_xxx)来创建多样化统计图形。ggplot2通过数据映射、统计变换和坐标系等组件实现灵活的可视化,虽学习曲线较陡但功能强大。两个工具包都能有效提升R语言的数据可视化能力。

2025-12-05 18:39:34 24

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除