R生信
文章平均质量分 81
Bioinfo Guy
药物研发生信工程师,多线程核糖体运营者|R语言、Python、AIGC|生信累积解惑1000余人,累积完整分析项目超100个,暂不接全篇分析,欢迎学术交流
展开
-
R包Colorfindr识别图片颜色|用刀剑神域方式打开SCI科研配色
最近忙里偷闲,捣鼓一下配色,把童年回忆里的动漫都搬进来,给科研信仰充值吧~提取颜色之前写过一个Py的,那个很准确不过调参会有点麻烦。这里分享一个比较懒人点的R包吧,虽然会有一定误差,但是无伤大雅——colorfindr好的配色第一印象不一样,看着心情都不一样,真的,杜绝红蓝配色了吧,最近审稿还是看到不少红蓝红绿,极度审美疲劳了。原创 2024-05-28 13:36:47 · 432 阅读 · 0 评论 -
代码分享|GPL平台没有基因注释什么办?别慌,基因ID注释万能公式!
前因是小编在接近两年前回复了C站小伙伴一条帖子,这一年多来陆续有20几个问题,同样是问GPL没有基因注释文件怎么转换Symbol ID说实话我也不知道,如果是做大队列的话一般为了省事我直接换一个GSE,但如果这个数据集真的很好,含泪也要想办法去搞定。而且第一时间看到soft里无symbol或者GPL一般情况下,作者都会在补充文件上传已经注释好ID的表达矩阵,或者把注释文件,直接下载使用即可。第二般情况下,在谷歌检索这个GSE+symbol,或者检索GPL+gene,或者其中一个。原创 2024-04-28 14:10:06 · 1400 阅读 · 0 评论 -
bayesplot|分享一个可视化贝叶斯模型的R包
该包主要用于贝叶斯模型的可视化分析,提供了一系列工具来帮助评估、理解和诊断贝叶斯模型。这个包特别适用于与 Stan 以及其他提供 MCMC 样本的软件如 JAGS 和 BUGS 的模型输出。后验分布图:包括密度图、直方图和区间图,用于展示模型参数的后验分布。MCMC 诊断图追踪图(trace plots)、秩序图(rank plots)、自相关图(autocorrelation plots)和转移图(transition plots),这些都是用来诊断 MCMC 算法收敛性的工具。后验预测检查。原创 2024-04-24 17:24:05 · 590 阅读 · 0 评论 -
CMplot & rMVP | 全基因组曼哈顿图和QQ图轻松可视化!
这是一个做全基因组对SNP可视化神器了,尹立林教授写的R包。主打两个功能,曼哈顿图(Manhattan plots)和QQ图曼哈顿图:用于展示 GWAS 分析的结果,其中每个点代表一个单核苷酸多态性(SNP),点的位置表示 SNP 在基因组中的位置,而点的高度则表示该 SNP 与研究性状的关联强度(通常用 -log10(p-value) 表示)。QQ图:用于检查数据的分布是否符合期望的分布(通常是正态分布)。原创 2024-04-24 15:25:33 · 1321 阅读 · 0 评论 -
singleCellNet(代码开源)|单细胞层面对细胞分类进行评估,褒贬不一,有胜于无
书接上回,上篇分享了作者做的基于bulkRNA的细胞分类评估工具CellNet及其更新版PACNet,现在分享的是单细胞数据的细胞分类评估工具,该工具与CellNet是同时期开发的。原创 2024-04-18 10:36:16 · 479 阅读 · 0 评论 -
PACNet & CellNet(代码开源)|bulk数据作细胞分类,评估细胞命运性能的一大利器
今天冲浪看到一个细胞分类性能评估的R包——PACNet,它与转录组分析方法、计算预处理方法和预处理方法产生的基因可用性无关,因此可以对细胞命运工程方案的性能进行交叉研究比较,这个是新包。CellNet先讲一下CellNet,因为新包的参考数据集也是共用的,但使用的话我们还是用PACNet哈CellNet是一个基于网络生物学的计算平台,用于评估细胞工程的保真度,并生成用于改进细胞衍生的假设。CellNet基于细胞类型特异性基因调控网络(GRN)的重建,有16种小鼠和16种人类。原创 2024-04-17 12:07:28 · 844 阅读 · 0 评论 -
R语言处理RNA等位基因不平衡(二)
RNA测序技术允许研究人员在转录组水平上精细地检测基因表达,包括等位基因特异性表达的变异。通过比较来自同一基因的不同等位基因的表达量,可以揭示细胞内遗传和表观遗传调控机制的差异。本代码通过对RNA测序数据中的读数计数进行详细分析,旨在检测和量化等位基因不平衡。通过优化统计模型来估计等位基因表达的差异,研究人员可以识别出在特定生物学条件下受到调控的基因区域。其实和DNA的处理是差不多的,只是测序到的数值水平不同,以及基因的表达有所差异。原创 2024-04-11 09:40:31 · 498 阅读 · 0 评论 -
R语言处理DNA等位基因不平衡(一)
在生物信息学和基因组学研究中,等位基因不平衡分析是一种重要的方法,用于识别在特定生物过程或疾病状态中可能受到选择压力的基因或基因区域。等位基因不平衡()指的是基因座上两个等位基因表达或存在的比例不等,这种不平衡可能是由于自然选择、遗传漂变或基因流等进化力量的作用。原创 2024-04-10 15:40:28 · 527 阅读 · 0 评论 -
cfDNAPro|cfDNA片段数据生物学表征及可视化的R包
cfDNA(无细胞DNA,游离DNA,or)是指在血液循环中存在的DNA片段。这些DNA片段不属于任何细胞,因此被称为“无细胞”或“游离”的。cfDNA来源广泛,可以来自正常细胞和病变细胞(如肿瘤细胞)的死亡和分解过程。cfDNA的长度通常在160-180碱基对左右,这与核小体保护的DNA片段长度相符。cfDNA的研究对于非侵入性诊断、疾病监测、早期检测以及了解生理和病理状态具有重要意义。特别是在肿瘤学领域,通过分析循环肿瘤DNA(ctDNA。原创 2024-04-10 10:52:23 · 1253 阅读 · 0 评论 -
全代码分享|R语言孟德尔随机化怎么做?TwoSampleMR包MR一套标准流程
孟德尔随机化(,MR)是一种利用基因变异作为工具变量来评估暴露与结果之间因果关系的统计方法。它基于这样的原理:基因变异是在出生前就随机分配给个体的,类似于在随机对照试验中随机分配治疗,因此可以帮助区分因果关系和简单相关性。孟德尔随机化通常用于观察性数据,以确定一个特定的生物标志物、行为或其他暴露是否真正地影响了健康结果,而不是仅仅与之相关。通过这种方法,研究者可以减少混杂因素的影响,避免了传统观察性研究中常见的一些偏差。原创 2024-03-13 09:37:33 · 4941 阅读 · 0 评论 -
全代码分享|R语言孟德尔随机化怎么做?TwoSampleMR包MR一套标准流程
孟德尔随机化(,MR)是一种利用基因变异作为工具变量来评估暴露与结果之间因果关系的统计方法。它基于这样的原理:基因变异是在出生前就随机分配给个体的,类似于在随机对照试验中随机分配治疗,因此可以帮助区分因果关系和简单相关性。孟德尔随机化通常用于观察性数据,以确定一个特定的生物标志物、行为或其他暴露是否真正地影响了健康结果,而不是仅仅与之相关。通过这种方法,研究者可以减少混杂因素的影响,避免了传统观察性研究中常见的一些偏差。两步法的双样本孟德尔随机化怎么做?2暴露因素+4风险因素+3结果。原创 2024-03-04 11:28:41 · 3431 阅读 · 6 评论 -
R包:disgenet2r|DisGeNET的懒癌福利,一行代码多种可视化
DisGeNET是一个综合性的数据库,它集合了关于基因和人类疾病之间关联的信息。这个数据库涵盖了各种疾病和条件,提供了大量有关基因、变异和疾病之间联系的数据。DisGeNET数据集通常用于生物信息学和基因组学研究,特别是在疾病遗传学和药物发现领域。disgenet2r包是一个用于R语言的工具,专为访问和分析DisGeNET数据库中的数据而设计。DisGeNET是一个包含了人类基因和疾病关联数据的综合性数据库。通过disgenet2r包,研究者可以在R环境中直接查询、检索和分析与基因和疾病相关的信息。原创 2024-01-26 09:37:02 · 787 阅读 · 6 评论 -
R语言:鉴于计算10亿以内训练模型记录for循环的加速
笔者主力机是MBAM1芯片(8+256),某个下午巩固循环突然思考到个问题,小循环很快就能run出来,中循环还勉勉强强,稍微上点强度就运行的很慢。虽然是CPU占用100%,8颗核心好像是偷着懒跑的,但是丢给我那台4核心8线程黑苹果,是跑满的,说明ARM在多线程的时候,有点东西下图是计算一个10亿内训练模型时的top。原创 2023-05-05 20:04:33 · 1596 阅读 · 0 评论 -
【R语言】鉴于计算10亿以内训练模型记录for循环的加速
笔者主力机是MBAM1芯片(8+256),某个下午巩固循环突然思考到个问题,小循环很快就能run出来,中循环还勉勉强强,稍微上点强度就运行的很慢。虽然是CPU占用100%,8颗核心好像是偷着懒跑的,但是丢给我那台4核心8线程黑苹果,是跑满的,说明ARM在多线程的时候,有点东西下图是计算一个10亿内训练模型时的top。原创 2023-05-05 16:05:44 · 433 阅读 · 0 评论 -
JupyterR内核在Seurat及依赖包安装时,Error: C++17 standard requested but CXX17 is not defined各种报错问题及解决方案
满江红原创 2023-04-11 14:12:26 · 3664 阅读 · 2 评论 -
【R语言】计算100以内素数的8种方法
用r语言计算100以内素数的8种方法原创 2023-03-27 10:23:23 · 1553 阅读 · 0 评论 -
【R语言】2022年末特辑——ggsci包色版最详分享
部分新手直接化用代码跑出来的图很多都是典型红蓝分组或者黄绿,可视化图第一目的是反馈数据信息,再者第二目的是让人看的明白看的舒服,ggsci很好的针对于可视化时的颜色问题。原创 2023-01-21 23:13:49 · 3224 阅读 · 0 评论 -
【R语言】(全代码发放)调用腾讯地图API检索四种相关地标信息
这几天用R和MATLAB在学机器学习的时候尝试调用了API,无意间发现了腾讯地图的API,开源的,就折腾了个半个多小时,花十分钟来记录一下,以下出现的建筑名仅供参考学习(脑海里第一时间浮现的,并无他意),R版本是4.2.1。原创 2022-11-23 11:41:25 · 492 阅读 · 0 评论 -
【R语言】用str_detect函数和mutate函数给样本矩阵分组
前几天又一个刚入门生信的学生问了我,机缘巧合下又在问答区见到相似的问题,固此作以相互学习。原创 2022-11-14 10:29:36 · 1148 阅读 · 0 评论 -
【R语言】他说每个生存曲线一定要看到p值,不能0.05,0.01,0.001
起初听到这个我是不理解的,这不是统计学常识吗?划分三个程度:* ,** ,***。头儿咋还要精确到小数位,不是画蛇添足吗?不了解归不了解,该干还是要干。原创 2022-10-08 11:54:16 · 3376 阅读 · 0 评论 -
【R语言】用R写for循环批量绘制生存曲线,肠子都悔青了
for循环批量做生存分析真的很简单,直接释放双手原创 2022-09-16 16:15:38 · 2047 阅读 · 0 评论