![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据处理读书笔记
文章平均质量分 62
穆易青
心之所向,行之所为
展开
-
2022.04.21【日常维护】|服务器存储清理浅谈
文章目录摘要基本命令结尾摘要随着业务拓展,项目越来越多,并且多人使用服务器,需要时刻注意清理存储,一不小心就容易满。今天整理几个命令,说一下我日常清理存储的方法。基本命令第一个就是df命令,这个命令常用来查看磁盘存储情况:(base) [yangxin@genomic2 ~]$ df --help用法:df [选项]... [文件]...Show information about the file system on which each FILE resides,or all file原创 2022-04-21 11:43:56 · 544 阅读 · 0 评论 -
2021.12.21【读书笔记】| 在Liunx中替换windows格式文本回车符
文章目录摘要问题描述解决方法vim界面中命令替换文本编辑器Notepad++中进行格式转换Word中另存为Unix格式总结摘要在分析常规项目的时候,一般我们会在NCBI或者UCSC上下载参考基因组还有对应的注释文件。但有时遇到的客户是自己组装的序列,而他们提供的参考基因组和注释文件都是自己组装或者用注释工具生成的,在格式上和标准数据库里的结果有些细微差别。这些格式问题对于刚入门的小白而言,在不知道的情况下分析起来会时常受阻。问题描述这次我们就遇到一个fa后缀的参考基因组,但是换行符是windows格原创 2021-12-21 16:16:32 · 680 阅读 · 0 评论 -
2021.12.13【读书笔记】|对链特异性建库的理解
刚接触高通量测序的时候就知道有链特异性建库这么个概念,当时也了解可以利用加U法,但是没有思考其中的细节。最近把这个概念掰开了揉碎了好好理解,终于填上了这个坑。正式讲之前,有几个概念是要明确的。DNA 的正链和负链,就是那两条反向互补的链。参考基因组给出的那个链就是所谓的正链(forword),另一条链是反链(reverse)。但是这正反一定不能和正义链(sense strand)反义链(antisense strand)混淆。正义链(sense strand):两条互补的DNA链其中一条携带编码转载 2021-12-13 14:36:58 · 2599 阅读 · 1 评论 -
2021-09-09【linux】丨shell使用for循环遍历文件/数组
目录摘要for循环遍历文件使用方法方法一方法二总结摘要在日常生信分析过程中,分析员或多或少会使用for循环批量处理样品或者分组。这里我简单整理一下自己常用的两种遍历方法。for循环遍历文件使用方法方法一对于在同一个文件内的所有样品,使用 ls 可以遍历该文件夹内的所有文件名。for i in ls ./;doecho ${i}done可能有时候还有一些脚本文件在里面, 我们可以使用 正则表达式 *来表示文件内的样品名for i in *_R1.fastq.gz;doi={i%_R原创 2021-09-09 14:18:00 · 8528 阅读 · 2 评论 -
2021.08.06【微生物】丨提取excel字符串制作metadata表格
目录摘要数据准备提取字符串结果展示总结摘要最近开始接手16S项目,遇到一个原始问题,就是制作样本的统计文档和metadata文件。微生物动辄几十上百个样品,一个一个整理是不现实的。目前在手动制作metadata文件时用到几个excel的参数,在此记录一下。数据准备上图展示了部分样品信息,这两列分别是样品名和细分分类标签,其中细分分类标签又有三个含义。BBH19 = BB(样品位置)+ H (个体状态,这里是健康) + 19 (采集年份)。客户提出要求,除了进行细分分类分析,还要按照样品位置和个体状原创 2021-08-06 10:43:59 · 581 阅读 · 0 评论 -
2021.07.30丨snakemake常见问题汇总(上)
目录摘要问题汇总1. MissingInputException: Missing input files for rule XXX:2. SyntaxError in line 28 of /path/to/snakefile: invalid syntax3. SyntaxError in line 25 of /path/to/snakefile: Expected name or colon after rule or checkpoint keyword.4. RuleException in l原创 2021-07-30 16:15:32 · 5532 阅读 · 6 评论 -
2021.05.11丨COG分析柱状图绘制
目录摘要环境与方法文档准备分类简称及描述比对结果使用代码结果展示总结摘要在RNA-seq项目中,需要将差异基因比对到各个数据库当中,生成相应的注释结果和图像,便于深度挖掘信息。COG(Cluster of Orthologous Groups ofproteins 同源蛋白簇)数据库可以帮助了解蛋白功能甚至进化关系(细/真菌)。此次记录一下COG分类图的绘制方法环境与方法R version 3.6.1 (2019-07-05)文档准备分类简称及描述 # Code Name原创 2021-05-11 16:48:30 · 4729 阅读 · 0 评论 -
2021.05.07丨linux sort 命令详解
sort是在Linux里非常常用的一个命令,管排序的,集中精力,五分钟搞定sort,现在开始!1 sort的工作原理sort将文件的每一行作为一个单位,相互比较,比较原则是从首字符向后,依次按ASCII码值进行比较,最后将他们按升序输出。[rocrocket@rocrocket programming]$ cat seq.txtbananaapplepearorange[rocrocket@rocrocket programming]$ sort seq.txtappleba.转载 2021-05-07 15:06:03 · 145 阅读 · 0 评论 -
2021.05.05【数据分析心得】丨如何将基因名称转化为基因ID
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言 一、pandas是什 二、使用步骤 1.引入库 2.读入数据 总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是测示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任..原创 2021-05-06 10:14:08 · 2897 阅读 · 0 评论 -
2021.04.28丨VIM/VI跳转行常用操作
vim/vi操作1.跳到文本的最后一行:按“G”,即“shift+g”2.跳到最后一行的最后一个字符 : 先重复1的操作即按“G”,之后按“$”键,即“shift+4”。3.跳到第一行的第一个字符:先按两次“g”,4.跳转到当前行的第一个字符:在当前行按“0”。5.vi加密。进入vi,输入”:” + “X” 之后就提示你输入两次密码。之后:wq 保存退出。再次进入时就提示你输入密码了。如果你不想要密码了,就:X 提示你输入密码时连续按两次回车,就搞定了。...转载 2021-04-28 14:59:14 · 426 阅读 · 0 评论 -
2021.04.27【R语言】丨箱线图无法显示解决办法
摘要 箱线图主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比 较。箱线图的绘制方法是:先找出一组数据的上边缘、下边缘、中位数和两个四分位数;然后, 连接两个四分位数画出箱体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间。然而,我们在绘制过程中,会出现不显示的情况(如下图),本篇文章则是解决箱线图无法显示的问题。 图一 环境与方法 R version 3.6.1 (2019-07-05) 产生原因 箱线图绘制原始代码 library(ballgown)librar原创 2021-04-27 10:28:58 · 5546 阅读 · 4 评论 -
2021.04.23丨批量提取子目录文件
这是木青的第96篇原创文章,本篇240字,阅读大约需要1分钟文章目录摘要环境与方法使用代码总结摘要做项目偶尔会收到一些上游测序企业,把每个样品单独放在一个文件夹内,样品少还可以手动搬运,样品数量大就比较麻烦了。照单全收又不方便我们批量分析。因此需要批量提取处理。这里写了一个小脚本,分享给大家,方便提取。环境与方法GNU bash, 版本 4.2.46(2)-release (x86_64-redhat-linux-gnu)使用代码 for i in AG0...原创 2021-04-23 10:20:10 · 204 阅读 · 0 评论 -
2021.04.21丨awk使用手册&常用命令
awk是行处理器: 相比较屏幕处理的优点,在处理庞大文件时不会出现内存溢出或是处理缓慢的问题,通常用来格式化文本信息awk处理过程:依次对每一行进行处理,然后输出awk命令形式:awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file[-F|-f|-v] 大参数,-F指定分隔符,-f调用脚本,-v定义变量 var=value' ' 引用代码块BEGIN 初始化代码块,在对每一行进行处理之前,初...转载 2021-04-21 14:07:35 · 418 阅读 · 0 评论 -
2021.04.13丨sRNAnalyzer报错fastx_collapser: Invalid input: This looks like a multi-line FASTA file解决办法
摘要 接到一个外泌体的miRNA分析,正常来说,本来可以直接使用sRNAnalyzer进行比对和定量(见文章https://share.mubu.com/doc/5KSIFg9R9u),但是在cutadapt去接口之后,执行fastx_collapser命令就发生了报错:fastx_collapser: Invalid input: This looks like a multi-line FASTA file。研究了2天终于找到了问题所在,特此记录一下。 软件配置 Python 3.8 sR原创 2021-04-13 15:32:22 · 423 阅读 · 0 评论 -
2021.04.12丨对测序样品统一命名
摘要 在公司已经待了几个月,项目也有条不紊地推进。RNA-seq流程是早就搭建好了的,奈何拿到的测序样品数据名称和后缀经常会有一些变化,比如R1.fq.gz, R1_001.fq.gz, R1_001.fastq.gz等等。导致每次都要到流程里面改一下后缀。为了尽早实现标准化,周末闲来无事,把这个统一命名的问题解决了一下 环境配置 python:3.8.5 使用代码#encoding=utf-8import ospath = "./"filelist = os.listdir...原创 2021-04-12 10:16:44 · 504 阅读 · 0 评论 -
2021.04.09丨使用featurecount进行定量处理
摘要 接到一个个性化分析,客户发了一个文档,明确了分析流程以及使用工具。其中定量环节要求使用featurecount工具。平时我都是使用htseq-count进行定量,因此,在这里记录一下新工具的使用步骤和遇到的一些小问题。 软件版本 featureCounts(subread) v2.0.1 使用说明 安装featureCounts 该工具属于Subread软件中的定量工具,另外subread还可以进行比对和寻找SNP位点,在这里就不详述了。我们要做的就是安装Subread原创 2021-04-09 16:30:36 · 12867 阅读 · 4 评论 -
2021.04.08丨RNA-seq消除批量效应
摘要 按照正常情况,送去测序的样品最好是同一个批次上机测序,避免外部干扰。最近接到一个项目,拿到手的数据就是分了四批。组长提醒我研究一下批量效应的处理方式。因此,这里总结一下批量处理的分析流程。环境配置 R版本:3.6.1 依赖R包:limma使用代码:library(limma) #调用limma包,线性分析主要包data <- read.table("all_count.txt",header = T, sep = "\t", ...原创 2021-04-08 11:42:57 · 2942 阅读 · 2 评论 -
2021.03.30丨使用python提取与合并指定列
摘要 最近优化RNA-seq,在定量环节后,需要汇总各样品的count值生成一份总表,然后转换成FPKM值。之前使用的是组长写的perl脚本,奈何自己实在是看不懂,并且之后为了加入到snakemake流程中也只支持python。于是,今天使用python对这部分进行了重写。 环境配置 python:3.8.5 使用代码 import reimport osimport pandas as pdnewfile_name = "../02.align/htseq/all_coun原创 2021-03-30 16:49:27 · 648 阅读 · 0 评论 -
2021.03.25【读书笔记】丨生物信息学与功能基因组学(第五章 高级数据库搜索 上)
学习目标 定义位置特异性打分矩阵(PSSM); 解释位置特异性迭代BLAST(PSI-BLAST)和DELTA-BLAST怎样大幅提升蛋白质BLAST蛋白搜索的灵敏度; 描述谱隐马尔可夫模型(HMMs)并解释其与BLAST相比在数据库搜索中的优势; 解释空位种子的策略怎样提升DNA搜索的灵敏度; 描述数以百万计的二代测序是怎样比对到参考基因组上的。 引言 第四章介绍了BLAST,BLAST搜索可以有很多种用途,本章将介绍几种高级的数据库搜索技术。 NCBI五种BLAST不足以解决的三个问原创 2021-03-25 23:03:23 · 811 阅读 · 0 评论 -
2021.3.24丨snakemake搭建转录组流程(一)
摘要 在公司已经待了一段时间,流程也尝试搭建了几个,但在使用过程中总是会由于项目之间的一些差异导致各种问题。同时由于bash命令看起比较乱,且某一个环节出错,整个封装程序就要全部重跑,导致面对不同项目时维护困难。跟同学一阵业务交流后,他建议我尝试使用Snakemake进行流程搭建。本篇文章将对snakemake进行简单的介绍,并且用质控工具fastqc进行示范,阐述单个命令的搭建方式。 简介 Snakemake工作流管理系统是生成可重现和可扩展的数据分析的工具,该工作流基于Python语言。 它可原创 2021-03-24 11:18:42 · 1068 阅读 · 2 评论 -
2021.02.03丨quast报错module ‘cgi‘ has no attribute ‘escape‘解决办法
最近采购了新服务器,在上面第一次跑组装,按正常流程要进行组装评估,在使用quast的过程中发生了报错,报错如下:抓重点,问题在于cgi.escape,里面其实有提示,‘html’:cgi.escape,解决方法:根据报错路径,找到最后一个报错文件/home/yangxin/miniconda3/lib/python3.8/site-packages/quast-5.0.2-py3.8.egg/quast_libs/site_packages/jsontemplate/jsontemplat原创 2021-02-03 17:00:55 · 3065 阅读 · 0 评论 -
2021.01.25丨conda环境配置
最近新换了服务器,需要重新搭建工作环境,在此整理记录一下环境搭建步骤 安装miniconda 下载地址:https://docs.conda.io/en/latest/miniconda.html 以Miniconda3 Linux 64-bit为例 sh Miniconda3-latest-Linux-x86_64.sh 一路空格、yes。注意,安装接近完成后会问你是否开机默认进入conda/base环境,这个根据个人喜好,我是习惯了base环境,所以我选择的ye.原创 2021-01-25 11:06:51 · 567 阅读 · 0 评论 -
2020.12.19丨根据差异基因ID匹配注释文本脚本
上周遇到一个比较麻烦的项目。物种是一种酵母菌,参考基因组是组装的,并没有像样的gtf文件,使用genemark-ES生成注释文件后,需要对差异基因进行注释。本来之前有一个脚本能够很流畅地处理这个步骤。然而,由于genemark-ES自动生成的geneID在perl脚本中存在bug,个人对perl又不是很熟悉,因此重新写了一个脚本,用于差异基因与注释文本的匹配注释,下面直接上脚本。import csvgenome_file = open('C:/Users/bbplayer/Downloads/ge原创 2020-12-19 15:17:31 · 583 阅读 · 1 评论 -
2020.11.20丨使用GATK CombineGVCFs命令批量合并vcf文件
GATK是一款强大的数据处理软件,最近在优化GWAS流程时遇到一个麻烦事,就是要将各样品的VCF文件进行合并,本来GATK里面有一个可以合并VCF数据的命令 CombineGVCFs,可以将所有样品的VCF合并成一个文件。但是这个命令需要一个一个输入文件名。 熟悉GWAS的小伙伴应该清楚,GWAS项目动辄上百个样品,让人一个一个输入还是很繁琐的。因此我写了个shell脚本,能够快速输入样品名称,并执行CombineGVCFs命令。 脚本 Ref_genome="genome.fna"原创 2020-11-20 15:20:18 · 11678 阅读 · 12 评论 -
2020.11.18丨Multiqc使用对多样本数据进行统计
平时做一些项目,在样品不多的情况下,使用fastqc,可以对每个样品单独生成质控报告。然而,当遇到群体遗传相关的项目、样本数量比较多的时候,则需要统计所有样品生成汇总表,方便观察各样品质控结果。因此我们选择使用Multiqc来对结果进行汇总。 使用软件:Multiqc 安装说明: 官方下载:Release MultiQC Version 1.9 · ewels/MultiQC · GitHub code: gunzip MultiQC-1.9.tar.gz tar -vzf Multi原创 2020-11-18 11:48:29 · 1022 阅读 · 0 评论 -
2020.10.22【读书笔记】丨国自然研究热点思路解析
主办方:和元生物 讲师:夏志芳 主讲内容: 1、外泌体整体课题研究; 结合研究 研究机制机制研究思路 案例解析 WB 荧光染色,免疫沉淀、个体实验 q-PCR,筛选miRNA 对差异miRNA进行深入分析 总结 2、非编码RNA研究思路介绍; lncRNA简介作用机制 miRNA简介miRNA作用方式 circRNA简介circRNA形成 4种形成机制 3种主要功能 研究思路(ncRNA原创 2020-10-22 15:50:07 · 1052 阅读 · 0 评论 -
2020.9.4丨生信基础巩固R篇(一)之背景介绍与安装
8月月底参加了菲沙基因的生信线上课程,直播听了一节,讲得有些啰嗦,听不下去,自己又有一些基础,于是凭课件自学。第一章为R背景及基础介绍,没有做过多改动,有兴趣学习的同学可以参加他们的线上课程。 1.1R语言背景 R语言是诞生于1976年左右的S语言的一个分支。而S语言是由A&T贝尔实验室的John Chambers于1976年开发的一种用来进行数据探索、统计分析、作图的解释型语言。S语言最开始的主要实现版本是S-Plus,他是一个商业软件。后来新西兰奥克兰大学的Robert Gentleman.原创 2020-09-04 12:01:56 · 469 阅读 · 0 评论 -
2020.08.14【RNA-Seq流程】丨将HTseq生成的基因COUNT值转换为FPKM值
通过HTseq生成的基因表达量是以count值计算的,而业内普遍做法是将count值转换为FPKM值提供给客户,因此,需要一个转换表达量的脚本。原创 2020-08-14 12:07:03 · 9858 阅读 · 2 评论 -
2020.7.30丨Linux CentOS安装Abyss全流程(最新)
Abyss安装前需要安装依赖包1.gcc(CentOS默认安装):使用gcc -v查阅版本,有anaconda可以直接conda install gcc2.open MPI-4.0.4:https://download.open-mpi.org/release/open-mpi/v4.0/openmpi-4.0.4.tar.bz2open MPI-4.0.4:https://download.open-mpi.org/release/open-mpi/v4.0/openmpi-4.0.4.tar.原创 2020-07-31 09:44:19 · 1444 阅读 · 0 评论 -
2020.02.18【数据分析心得】丨如何将基因ID转化为基因名称
上一次在这个平台上写文章居然已经是5年前了,毕竟研究生阶段没有主攻数据处理,让自己少了很多IT属性。废话少说,今天记录一下将基因ID转化为基因名称的操作办法。在拿到公司的基因测序数据后,不同的测序公司给出的数据也是不同的,有时候会遇到一个问题就是测序公司给出的分析报告中,GO富集以及KEGG通路通常直接以基因ID的形式给客户,而导师要求送审文章的附件要显示为基因名称。尽管在拿到的测序数...原创 2020-02-18 14:20:01 · 25167 阅读 · 4 评论 -
深入浅出数据分析:数据处理读书笔记(一)
最近持续橙色预警,之前安装上了空调,也算是保住了一条命作为准大四,考不上研的话这就是最后一个暑假了,然而并没有打算去外面浪,图像识别,生物信息,数据处理这些内容还有很多很多要学。最近在忙培训班的财务报告,学了一些数据处理的方法,也给大家推荐一下:《深入浅出数据分析》http://download.csdn.net/detail/u014113790/7042425 下载需要积分,如果需要可原创 2015-07-30 10:20:29 · 203 阅读 · 0 评论