![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
R语言
文章平均质量分 62
穆易青
心之所向,行之所为
展开
-
2022.08.24【R语言】|pheatmap外接函数调用时不能有NA/NaN/Inf(arg10)报错问题及解决方案
这个问题其实说大不大,说小不小。原创 2022-08-24 17:34:55 · 6061 阅读 · 1 评论 -
2022.04.15【单细胞】|Seurat安装,C++ compiler supports the long long type... no解决方法
最近学习单细胞转录组(scRNA)分析,这个分析需要提前安装R4.0还有Seurat等R包进行分析,同事在创建新环境后正常情况下都可以顺利安装,然而到我这边,似乎是缺少某一个lib依赖库,没法成功安装。原创 2022-04-15 15:40:46 · 1975 阅读 · 0 评论 -
2021.07.17【R语言】丨扩增子课程学习——α多样性简介
目录α多样性简介R语言的安装R依赖包及需要命令数据导入数据导入注意事项数据塑形Alpha多样性指数的计算-计算和储存数据可视化可视化-数据导入可视化-数据塑形(合并)可视化-箱线图可视化-添加字母显著性标记可视化-图片的修饰可视化-图片保存总结α多样性简介α多样性描述的是样本内的多样性,主要有两个维度种类数量(丰富度)种类数量的均匀度种类数量越多,种类间的分布越均衡,α多样性指数越高Observed species指数:指样本中实际测定得到的OTU数量,亨利OTU丰富度指数chaol指数:预测原创 2021-07-17 19:18:11 · 5737 阅读 · 1 评论 -
2021.07.05【R语言】丨预测lncRNA并绘制venn图
目录摘要环境与方法依赖工具预测工具绘制工具使用命令预测lncRNA统计noncoding_ID绘制Venn图结果展示总结摘要接到一个单样品测lncRNA数据的项目,正好拿来练练手,梳理一下lncRNA流程。这里记录预测lncRNA并生成venn图的过程环境与方法R version 3.6.3 (2020-02-29)依赖工具预测工具CPC2CNCIPfamCPAT绘制工具R:VennDiagram使用命令预测lncRNACPC2#更换envconda activate py原创 2021-07-05 15:36:42 · 1508 阅读 · 0 评论 -
2021.06.29【R语言】丨png转pdf批量生成
摘要接到一个特别要求,客户想把结果里的png图片全部转化成pdf。刚开始,这边销售想着结果图片不多,打算手动一个一个处理,直到她发现了16差异分组里,每个分组都有个kegg_map的文件夹...环境与方法R version 3.6.0 (2019-04-26)环境包 require(stringr) EBimage: install.packages('BiocManager') BiocManager::install('EBImage')使原创 2021-06-29 15:03:45 · 879 阅读 · 0 评论 -
2021.06.24【R语言】丨使用for循环批量生成PDF柱状图
摘要最近不断做项目,闲暇之余也优化了某些项目流程。这次要补充的是分析miRNA时要对reads_length进行统计。一般定义的miRNA长度大约在18-24bp,如果你的统计结果在这个范围内,说明reads是可靠的,可以进一步分析。环境与方法R version 3.6.1 (2019-07-05)绘图包,ggplot2原始数据我设置了过滤,14之前是没有reads的,咱们后面需要统计的也是15-24bp的数据。使用代码 library(ggplot2) #调用ggplot2包,没有原创 2021-06-24 12:08:23 · 2748 阅读 · 0 评论 -
2021.06.08|提取、比较各样品vcf文件中snp突变频率
目录摘要环境与方法使用代码分析结果总结摘要接到一个wgs项目,要帮助客户统计vcf文件中snp突变频率,比较两个样品的突变位点。这个工作在上一个项目中是手动处理的,当时参考序列短,突变位点少。这次经过比对后,发现了有个样品有上万个snp位点,肯定不能用手动处理的方式。因此,写了一个脚本来统计各个样品的突变频率。需要统计的信息包括染色体,突变位置,参考位点,各样品突变位点,突变率(AD杂合位点覆盖度/DP总覆盖度)环境与方法python 3.7R version 3.6.1 使用代码统原创 2021-06-08 16:02:38 · 5829 阅读 · 8 评论 -
2021.05.26【R语言】丨clusterProfiler注释大肠杆菌GO/KEGG富集图
摘要 之前写过一篇文章,对clusterProfiler常用注释包进行简单的整理分类2021.05.17【R语言】丨clusterProfiler注释表——KEGG/GO enrich富集图专用_穆易青的博客-CSDN博客。然而在遇到一个原核转录组项目想使用大肠杆菌注释包的时候却遇到了报错,经过一番查阅和测试。终于能够注释大肠杆菌,得到GO/KEGG富集图,在这里将整个过程做个梳理。 环境与方法 R version 3.6.1 Bioconductor version 3.10 packa原创 2021-05-26 15:01:13 · 2487 阅读 · 2 评论 -
2021.05.17【R语言】丨clusterProfiler注释表——KEGG/GO enrich富集图专用
摘要 刚开始接触项目的时候一直用公司搭建好的流程分析项目,慢慢学习后,发现有些地方的注释除了靠参考基因组相关的注释文档,还需要对应物种。在R中绘制KEGG.GO enrich富集图就需要根据物种来读取相应注释包,这里记录一份常用物种及对应注释包表,方便以后使用。注释表packages organism org.Ag.eg.db Anopheles org.At.tair.db Arabidopsis org.Bt.eg.db Bovine org.C..原创 2021-05-17 15:48:48 · 1875 阅读 · 0 评论 -
2021.04.29丨KEGG富集点状图绘制问题——附绘制脚本
项目场景:KEGG富集图绘制问题问题描述:得到差异基因名称,却无法成功绘制富集点状图。@Override public void run() { bytes = mmInStream.read(buffer); mHandler.obtainMessage(READ_DATA, bytes, -1, buffer).sendToTarget(); } ![在这里插入图片描述](https://img-blog.c原创 2021-04-29 15:40:29 · 863 阅读 · 0 评论 -
2021.04.27【R语言】丨箱线图无法显示解决办法
摘要 箱线图主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比 较。箱线图的绘制方法是:先找出一组数据的上边缘、下边缘、中位数和两个四分位数;然后, 连接两个四分位数画出箱体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间。然而,我们在绘制过程中,会出现不显示的情况(如下图),本篇文章则是解决箱线图无法显示的问题。 图一 环境与方法 R version 3.6.1 (2019-07-05) 产生原因 箱线图绘制原始代码 library(ballgown)librar原创 2021-04-27 10:28:58 · 5546 阅读 · 4 评论 -
2021.04.22【RNA-seq流程】丨count值转换为FPKM值优化2.0
优化内容 解决每次转换需要设置样本数和基因数目 实现基因count值与length精准匹配 摘要 大概半年前,我写过一篇将HTseq生成的基因COUNT值转换为FPKM值文章,用于对count的入门级均一化处理。随着项目越做越多,逐渐发现了之前写的脚本的局限性。比如,每次换算都需要设置包括样品数,基因数目等参数。另外,以前的转换脚本哪怕使用同一个gff文件,定量得到的基因数目和makeTxDbFromGFF中exonsby、transcriptsby定义的基因数目可能是不一样的,这就导致cou原创 2021-04-22 13:08:25 · 15014 阅读 · 9 评论 -
2021.04.14丨sRNAnalyzer分析-R语言填充空白值与去重复列
摘要 继续使用sRNAnalyzer完成miRNA分析任务,今天要解决的是填充空白值和去除重复列的问题。由于生成的样品定量结果是在多个miRNA数据库中进行比对,因此生成的miRNA会重复出现,需要去重。同时,对于某些样品的reads没有比对到miRNA,并不是显示为0,而是直接为空白。之前一直是用excel手动处理。今天决定使用R一次性解决这个问题。简单在网上查了一下,几行代码就完成了这项工作。 环境配置 R version 3.6.0 依赖包 tidyverse 使用代码原创 2021-04-14 09:37:45 · 1148 阅读 · 0 评论 -
2021.01.13【R语言】丨去除行列名双引号
在使用R语言在使用R进行数据处理时,我们经常可能会需要对每一行的首行(可能是姓名,geneID等)进行比对。在比对过程中有时会遇到一个小问题,就是明明处理前和处理后的geneID没有变化,但是生成的文件中,列名和行名都打上了双引号,导致比对出现问题,这是为什么? 这里就要提到在R中write.table()的默认参数了。我们来举个例子 这是R已经读取的基因表达水平的表格文件,这里geneID还没有双引号的,最左边是R提供的排序列,之后通过row.names取消掉 接下来我们使用writ原创 2021-01-13 11:50:09 · 8767 阅读 · 0 评论 -
2020.10.27【GWAS】丨使用vcftools绘制pi(θπ) 选择消除分析图
这两天在整理GWAS流程,发现绘制θπ选择消除分析图在网上只能找到计算π的代码,但是没有绘图代码,于是自己搞了一下,供大家参考。vcftools --vcf AxiomGT1.calls.vcf --window-pi 1000 --window-pi-step 1000 --out GT1_pi生成两个文件GT1_pi.windowed.piGT1_pi.log使用GT1_pi.windowed.p文件通过R进行绘图library(ggplot2)data<-read.原创 2020-10-27 23:58:38 · 7736 阅读 · 2 评论 -
2020.10.21【R语言】丨 undefined columns selected 问题解决办法
最近做RNA-seq项目的时候准备用R的boxplot()工具画一个各个样品的箱线统计图。 然而,在运行脚本后报错 Error in `[.data.frame`(fpkm, , c("MB7409-A", "MB7409-B", "MB7409-C", :undefined columns selectedCalls: [ -> [.data.frameExecution halted 抓取数据列的命令哪里错了呢? 打开输入的数据框和脚本做对比 数据是.原创 2020-10-21 14:44:19 · 24335 阅读 · 5 评论 -
2020.09.30【RNA-seq流程】丨转录组生信分析全流程
RNA-Seq生信分析全流程摘要第一部分step.1 下载数据step.2 数据质控第二部分step.3序列比对step.4 计算基因表达量step.5 插入片段长度检验step.6 基因表达量从count值转换为FPKM值使用基因组注释,通过R工具包GenomicFeatures获得exon length求reads 总数第三部分step.7 进行各样品分析样品间相关性分析各样品FPKM箱线图各样品FPKM密度分布对比图step.8 差异表达分析step.9 差异基因功能注释获取差异基因注释信息比对基因组原创 2020-12-10 10:03:17 · 13455 阅读 · 0 评论 -
2020.9.15丨Chip-seq结果可视化之peak检测(上)
macs2运行参数 macs2 callpeak -t K1_ChIPed_S1_L007_R1.bam -c K1_Input_S5_L007_R1.bam -f BAM -g mm -n K1 -B -q 0.01 -t -c 实验组和对照组结果 -f 输入文件格式 -g 参考基因组有效大小,人类选择hs,也可以根据基因组大小直接输入数值 -n 输出前缀 -B 输出bdg格式文件,可以上传到UCSC生成峰图 -q q值,默认0.05 -p p值,未校正值 导入到R中原创 2020-09-15 09:55:48 · 3591 阅读 · 0 评论 -
2020.9.11丨生信基础巩固R篇(三)之图片可视化
3R Visualizationlibrary(readr) d.cancer <- read_csv("cancer.csv", col_types = cols(type = col_character()), locale = locale(encoding = "GB18030")) head(d.cancer,10)## # A tibble: 10 x 6## id age sex type v0 v1## <dbl&g.原创 2020-09-11 16:37:10 · 383 阅读 · 0 评论 -
2020.9.7丨生信基础巩固R篇(二)之数据基本概念
2.1变量和常量 变量:用来保存输入或计算的值的东西 2.2R语言的变量命名 只有字母(区分大小写),数字,下划线,英文点号可以出现 数字和下划线不能开头 英文点号后面不能直接接数字 2.3数据类型 2.3.1数值 numeric 2.3.2字符 character 2.3.3逻辑 logical 只有两个值TRUE和FALSE,缺失时为NA 逻辑运算符:< <= == != > >= %in% x %in% y 把y当做...原创 2020-09-07 09:56:55 · 340 阅读 · 0 评论 -
2020.9.4丨生信基础巩固R篇(一)之背景介绍与安装
8月月底参加了菲沙基因的生信线上课程,直播听了一节,讲得有些啰嗦,听不下去,自己又有一些基础,于是凭课件自学。第一章为R背景及基础介绍,没有做过多改动,有兴趣学习的同学可以参加他们的线上课程。 1.1R语言背景 R语言是诞生于1976年左右的S语言的一个分支。而S语言是由A&T贝尔实验室的John Chambers于1976年开发的一种用来进行数据探索、统计分析、作图的解释型语言。S语言最开始的主要实现版本是S-Plus,他是一个商业软件。后来新西兰奥克兰大学的Robert Gentleman.原创 2020-09-04 12:01:56 · 469 阅读 · 0 评论 -
2020.08.14【RNA-Seq流程】丨将HTseq生成的基因COUNT值转换为FPKM值
通过HTseq生成的基因表达量是以count值计算的,而业内普遍做法是将count值转换为FPKM值提供给客户,因此,需要一个转换表达量的脚本。原创 2020-08-14 12:07:03 · 9858 阅读 · 2 评论