翻译:黄小伟,资深数据从业者。目前就职杭州有赞数据分析团队,欢迎加入!
2019年8月份,227个R新包收录于CRAN(7月份收录176个,环比增长29%),累计收录15,035个R包!由于CRAN会不定时进行R包增删,所以具体数量会随时间略有变化。
此次整理了九个类别,分别为数据、计算方法、基因组学、机器学习、医学与制药、统计学、时间序列、工具和可视化。
以下是本期(总第33期)R新包的核心功能介绍:
一. 数据
1. arcos: 实现了ARCOS API的封装,它从药品执法局报告和综合订单系统的自动化中返回原始和汇总的数据帧,该数据库用于存储制造商和分销商之间的交易数据.
2. censusxy: 提供对美国人口普查局API的访问权限,以对美国街道地址进行批量地理编码.
3. hdfqlr: 实现与HDFql的接口以及用于从HDF5文件读取数据和将数据写入HDF5文件的辅助功能.
4. nhdplusTools: 提供访问美国环境保护局记录的工具,支持遍历和使用国家水文数据集Plus(NHDPlus)的数据.
二. 计算方法
1. fmcmc: 提供了一个灵活的马尔可夫链蒙特卡洛(MCMC)框架,用于实现Metropolis-Hastings算法.
2. Mercator: 定义用于探索、聚类和可视化距离矩阵的类,特别是二进制数据所产生的类.
3. tdigest: 实现Dunning等人的t-Digest构造算法(2019),它使用一维k-means聚类的变体来生成非常紧凑的数据结构,从而可以准确估算分位数.
三. 基因组学
1. getspres: 如Magosi等人所述,实现SPRE(标准化的预测随机效应)统计数据以探索遗传关联荟萃分析中的异质性(2019).
2. simGWAS: 支持以模拟病例对照全基因组关联研究(GWAS)的输出.
3. viromeBrowser: 使用多个fasta文件中的注释促进浏览病毒体测序,并允许用户选择和导出特定的注释序列.
4. whoa: 提供功能分析按预期基因型排序(GBS)数据中的基因型分布,其中预期近似Hardy-Weinberg平衡,以便评估基因分型错误的比率以及这些比率对读取深度的依赖性.
四. 机器学习
1. flashlight: 提供使用置换变量重要性(Fisher等人(2018))、ICE轮廓和部分依赖项(Friedman J.H.(2001))来检查黑盒机器学习模型的功能.
2. imagefx: 提供用于从时间序列分析或机器学习应用中提取图像特征的函数.
3. rTorch: 提供基于Python的PyTorch机器学习库的接口.
五. 医学与制药
1. accept: 根据Adibi等人发表的临床预测模型,使临床医生能够预测慢性阻塞性肺疾病(COPD)患者未来急性加重的发生率和严重程度.
2. DRAFT: 支持使用具有常数或时间依赖行为的随机模型进行流行病数据的拟合.
3. getspres: 如Magosi等人所述,实现SPRE(标准化的预测随机效应)统计数据以探索遗传关联荟萃分析中的异质性.
4. idmodelr: 实现一个框架,其中包括用于探索各种传染病模型的模拟和可视化工具.
5. OncoBayes2: 使用可选的EXchangeability-NonEXchangeability参数模型实现贝叶斯逻辑回归模型,并包括一个安全模型,该模型可指导适应性肿瘤学I期剂量递增试验(涉及任意数量的药物)的剂量递增决策.
6. PML: 实施惩罚性的多频段学习算法,以根据加速度计数据分析昼夜节律.
7. xgxr: 提供功能以支持用于探索PKPD数据的结构化方法.
8. visit: 支持进行贝叶斯I期癌症疫苗试验,该试验允许在疫苗研究的背景下同时评估安全性和免疫原性结果.
六. 统计学
1. baggr: 提供功能以拟合与比较带有Stan的分层贝叶斯元分析模型.
2. BayesPostEst: 提供了使用马尔可夫链Monte Carlo(MCMC)估计贝叶斯回归模型后生成和绘制后估计量的函数,包括精确回忆曲线(参见BeaGER(2016))和预测概率,使用HANMER和卡尔坎(2013)和King等人的方法.
3. cotram: 提供函数来实现计数转换模型,其特征为可解释为离散危险比、比值比、反向时间离散危险比或变换期望值的参数.
4. lax: 提供用于调整极值模型的标准误差的功能.
5. OwenQ: 实现了整数值自由度的OWN-Q函数,这对于等价性检验的计算是有用的.
七. 时间序列
1. avar: 支持隐时间序列模型的艾伦方差和艾伦方差线性回归估计.
2. feasts: 提供用于分析时间序列数据的分解、统计摘要和绘图的函数集合.
3. scorpeak: 提供基于GIHISH Palsikar(2009)中描述的算法来检测时间序列中的峰值的函数.
八. 工具
1. arrow: 提供Apache Arrow C ++库的接口.
2. butcher: 将S3泛型提供给拟合模型对象的AXE组件,以减少保存到磁盘的模型对象的大小.
3. mRpostman: 提供功能,使其易于连接到您的IMAP(Internet消息访问协议)服务器,并执行命令,如列表邮箱,搜索和获取消息.
4. pins: 提供一种“将”远程资源“插入”本地缓存以脱机工作、提高速度和避免重新计算的方法。资源可以是任何东西,从csv、json或图像文件到任意r对象.
5. pmdplyr: 扩展dplyr以提供一组用于操作面板数据的函数,包括基于索引变量操作数据的函数.
6. tidycells: 提供实用工具来读取复杂表格数据中的单元格,并使用启发式方法将这些单元格分配为柱形或整齐的格式.
九. 可视化
1. ggpointdensity: 扩展ggplot2以提供点密度图的几何图形,这是2D密度图和散点图之间的交叉.
2. hpackedbubble: 提供了一种简单的方法来绘制基于Highcharts的打包气泡图.
3. SHAPforxgboost: 提供功能以使用XGBoost的SHAP(SHapley Additive exPlanation)可视化图来辅助视觉数据分析.
往期Top 40 R包介绍: