Ubuntu测试生信软件
文章平均质量分 86
在windows下的Ubuntu子系统测试生信的各个软件
还是要前进啊
一个喜欢生信的人
展开
-
windows下ubuntu系统,bwa reads mapping
其中,GCA_000005845.2和GCF_000005845.2分别是大肠杆菌K-12 substr. MG1655基因组的两个不同版本,包含了该基因组的fasta格式序列文件(GCA_000005845.2_ASM584v2_genomic.fna和GCF_000005845.2_ASM584v2_genomic.fna)。#可以使用统计软件或脚本来进一步分析coverage.txt文件,以获得reads在参考基因组上的分布情况,比如平均覆盖度、覆盖度分布图等。我们选择一个作为大肠杆菌的基因组文件。原创 2024-05-21 08:36:35 · 484 阅读 · 0 评论 -
windows ubuntu子系统,肿瘤全外篇1.安装软件及建立数据库
wget -c https://github.com/broadinstitute/gatk/releases/download/4.1.2.0/gatk-4.1.2.0.zip #conda安装GATK没作用,这个下载太慢,而且有时候下载还需要填写什么用户名。在中国,下载这个软件还挺难的。#GATK是基于Java开发的,所以在运行GATK之前,需要确保Java已经正确安装并且在系统的环境变量中配置了Java的路径。#接下来登录gatk官网(非常慢),迅雷下载gatk-4.1.2.0,好不容易成功。原创 2024-04-16 21:29:23 · 676 阅读 · 0 评论 -
windows ubuntu子系统,4.HaplotypeCaller和Mutect2总结
指定tranches文件和校正文件分别为"𝑖𝑑.𝑊𝐸𝑆.𝑠𝑛𝑝.𝑡𝑟𝑎𝑛𝑐ℎ𝑒𝑠"和"id.WES.snp.tranches"和"{id}.WES.snp.recal.vcf" (--tranches-file和--recal-file参数)它用于对VCF文件进行校正和过滤,以提高SNP的质量和可信度。ATK的HaplotypeCaller命令对一个名为sample.txt的文件中的每个样本进行变异检测。> output.ann.vcf:将注释后的结果重定向到名为output.ann.vcf的输出文件中。原创 2024-05-06 19:32:46 · 1517 阅读 · 0 评论 -
windows ubuntu sed,awk,grep篇:13.其他 awk 命令
因为我们指定的是最小宽度,通过之前的例子可以知道,如果字符串长度超过指定的宽度,字符串仍然会整个被打印出来。下面的例子,打印每个字段后,执行一个“回车”,在当前打印的字段的基础上,打印下一。隔符,即使用冒号分隔商品编号和销售量,在销售量列表中,每个数字之间以逗号分隔。如果想在字符串超出指定宽度时,仍然以指定的宽度把字符串打印出来,可以使用。宽度,如果字符串的宽度比该数字小,会在输出列左侧加上空格以凑足该宽度。使用一套算法产生随机数,因为这个算法是固定的,所以产生的数也有重复的。原创 2024-05-04 09:45:00 · 945 阅读 · 0 评论 -
windows ubuntu sed,awk,grep篇:12.awk 关联数组
请注意,我们并没有指定循环执行的条件,实际上我们不比关系数组中有多少个元素,因为。和以元素值排序相似,也可以取出所有索引值,排序,然后把他们保存在新数组中。连续的数字,实际上,它可以使字符串或者数字,并且不需要指定数组长度。想在不改变原有数组索引的情况下,使用新的索引值创建一个新的数组。的角度来说,数组的索引通常是字符串,即是你使用数组作为索引,数组索引可以是字符串,数组的最后一个元素就是字符串索引,即。作为索引值,它也不是两个索引,仍然是单个字符串索引,值为。将会丢失原始元素值,即索引值变成了元素值。原创 2024-05-03 10:30:00 · 683 阅读 · 0 评论 -
windows ubuntu sed,awk,grep篇:11.awk 分支和循环
该例用相反的顺序,从最后一个自动开始到第一个字段,逐个输出每个字段。号商品有的月份也没有卖出一件,但是并没有被打印,因为我们在循环中使用了。循环是一种进入控制判断的循环结构,因为在进入循环体前执行判断。区别在于,遇到某月为出售的商品时,退出脚本,而不是继续执行。循环用例执行一系列需要重复执行的动作,只要循环条件为。命令立即停止脚本的运行,并忽略脚本中其余的命令。语句检测条件,如果条件为真,执行相关的语句。文件中,每种商品的总销售量,输出结果和之前的。的退出状态码,如果不ᨀ供参数,默认的状态码是。原创 2024-05-02 10:30:00 · 615 阅读 · 0 评论 -
windows ubuntu sed,awk,grep篇:10.awk 变量的操作符
自增和自减改变变量的值,它可以在使用变量“之前”或“之后”改变变量的值。变量以字母开头,后续字符可以是数字、字母、或下划线。这个操作符解释了为什么在打印多个变量时,如果要使用。以逗号作为字段分隔符,包含五个雇员的信息,格式如下。下面的例子只打印偶数行。下面的例子不会打印任何信息,因为。下面例子中,有三处使用了字符串连接。把改变后的值应用到表达式的其它操作中。需要两个操作数的操作符,成为二元操作符。下面是一个有用的例子,显示所有登录到。下面的例子统计输入文件中所有的字段数。来存储公司所有雇员工资总和的变量。原创 2024-05-01 16:30:00 · 553 阅读 · 0 评论 -
windows ubuntu sed,awk,grep:9.awk 内置变量
如果你尝试认为地在输出字段之间加上冒号,会有如下输出。注意:默认的字段分隔符不仅仅是单个空格字符,它实际上是一个或多个空白字符。默认的字段分隔符是空格,如果你的输入文件中不是一个空格作为字段分隔符,的内容作为单独一行,把逗号作为字段分隔符,所以,它。当遇到一个包含多个字段分隔符的文件时,不必担心,语句打印多个变量时,输出内容会包含多余的空格。获取输入,把每个字段打印成单独一行,每条记录用。,使用都会分隔,然而输出结果却是以分号分隔。的变量是,每个变量之间会以空格分开。区域可以包含多个命令,下面的例子中,原创 2024-04-30 01:15:00 · 516 阅读 · 0 评论 -
windows ubuntu sed,awk,grep篇,8,Awk 语法和基础命令
当字段分隔符是单个字符时,下面的所有写法都是争取的,即可以把它放在单引号或双引号。这个例子中,输出结果各字段并没有很好地对齐,后面章节将会介绍如何处理这个问题。文件中写上足够多的注释,这样以后再次使用该脚本时,更易于读懂。上面的例子中,除了可以在命令行上执行外,还可以通过脚本执行。个文件的所有行上执行,然后在第二个文件的所有行上执行。区域,包含一个正则模式和一个动作,即在输入文件中搜索。准确地执行了我们要求的动作,它以空格作为分隔符,一个简单的例子,用来输出雇员姓名,职位,同时附带。原创 2024-04-29 20:36:29 · 1208 阅读 · 0 评论 -
windows ubuntu sed,awk,grep篇:7.sed 多行模式及循环
不会打印模式空间内容,也不会清除模式空间内容,而是在当前模式空间内容。从输入文件读取下一行,并追加到模式空间,以上面提到的那行数据为例,这。并且从输入文件中读取下一行数据,追加到模式空间中,然后继续执行后。会删除模式空间内容,然后读取下一条记录到模式空间,并忽略后面。打印当前模式空间的内容,并清空模式空间,从输入文件中读取下。前模式空间的内容匹配这个模式,因此将继续执行后面的命令。如果没有找到,则读取下一行。一行并追加到模式空间,而不是替换模式空间。只匹配该模式的开头,即最开始一行的开头,且。原创 2024-04-29 20:34:58 · 1214 阅读 · 0 评论 -
windows ubuntu sed,awk,grep篇,6.sed 保持空间和模式空间命令
命令表示把模式空间的内容追加到保持空间,追加之前保持空间的内容不会被覆盖;过,每次循环读取数据过程中,模式空间的内容都会被清空,然而保持空间的内容。间和模式空间的内容,然后打印模式空间的内容。命令把当前保持空间的内容作为新行追加到模式空间中。交换模式空间和保持空间的内容。中,保持空间保存的是雇员名称,模式空间保存的是职位。式空间的内容,并打印模式空间的内容。小写命令替换原来的内容,大写命令追加原来的内容。时,当前保持空间的内容会被模式空间的内容覆盖。把保持空间的内容丢到模式空间中,然后打印出来。原创 2024-04-28 20:43:01 · 1167 阅读 · 0 评论 -
windows ubuntu:sed,awk,grep篇:4.执行 sed
因此,建议把写脚本时的初衷作为注释,写到脚本里面。为了修改输入文件,通常方法是把输出重定向到一个临时文件,然后重命名该临时文件。默认不会修改输入文件,它只会把输出打印到标准输出上。或许这正是你想要的,但是务必小心。一个保护性的措施是,脚本中,然后调用脚本名称来执行它们一样,你也可以把。去掉,然后再执行一次,观察它是如何运行的。首先建立下面文件,里面包含了所有要执行的。是比较晦涩难懂的语言,所以你现在写下的。最后,为了继续下面的例子,把原来的。脚本文件,里面包含所有要执行的。在执行很长的命令,比如使用。原创 2024-04-26 19:39:40 · 818 阅读 · 0 评论 -
windows ubuntu:sed,awk,grep篇:5.sed 附加命令
打印当前模式空间的内容,然后从输入文件中读取下一行。可以改变这个流程,它打印当前模式空间的内容,然后清除模式空间,读取下一行进。命令,便立刻退出,当前循环中的后续命令不会被执行,也不会继续循环。后的内容,然后把该临时文件重命名为输入文件。打印当前模式空间的内容,并清空模式空间,读取下一行,然后把。会从另外一个文件读取内容,并在指定的位置打印出来。命令和追加命令类似,只不过是在指定位置之前插入行。选项,可以保持文件所有者不变。最后一行之后,把读取的内容打印出来。之前的例子的完成的功能都很像标准的。原创 2024-04-27 14:21:26 · 1064 阅读 · 0 评论 -
windows ubuntu:sed,awk,grep篇:3,sed正则表达式
使用回溯引用,可以给正则表达式分组,以便在后面引用它们。出现在正则表达式开头时,它才匹配行的开头。下面是一些使用正则表达式进行替换的例子。字符集匹配方括号中出现的任意一个字符。用来匹配两边任意一个子表达式。匹配一次或多次它前面的字符,例如 空格。的命令中,都用到了正则表达式,包括。匹配除换行符之外的任意单个字符。次或一次它前面的字符。匹配连续两个相同的数字,如。个或多个其前面的字符。匹配至少一个或多个空格。在方括号中,可以使用连接符。后面没有任何信息的行。表明精确匹配该正则至少。表明精确匹配该正则至少。原创 2024-04-25 20:46:01 · 1009 阅读 · 0 评论 -
windows ubuntu sed,awk,grep篇:2:sed 替换命令
这里不再显示下面例子的结果,因为它们的结果和上面的例子。然而,如果你使用的是具体的字符串,那么。这些选项未必有什么作用,因为你可以在需要的地方写出精确的字符串,而不需要使用这些。当替换操作执行成功后,它把替换后的结果保存的文件中。一个命令改变了模式空间的内容,第二个命令会在改变后的模式空间上执行。下面的例子,如果单词第一个字符为大写,那么会给这个大写字符加上。当替换操作完成后,打印替换后的行。移动的输入文件的下一行,然后重复执行第一步,即读取数据。标志时,它会把紧 跟在其后面的字符当做大写字符来处理。原创 2024-04-24 20:27:11 · 835 阅读 · 0 评论 -
windows ubuntu linux三剑客,sed awk grep 篇,1.
资料来源于《SedandAwk101Hacks》,大家有兴趣可以买一本,也可以关注我,我更新完它。在执行完命令后会默认打印模式空间的内容,既然如此,那么你可能会问为何还需要命。上面的例子里面,就已经使用了逗号参与地址范围的指定。默认匹配所有行,所以下面的例子什么都不会输出,因为它匹配。命令的语法和结构,但并不解释命令的含义,后面会详细解释。配合逗号使用,可以指定相的若干行,而不是绝对的几行。用来删除行,需要注意的是它只删除模式空间的内容,和其他。曾经,我花费大半月将它们跑完,现在啥都忘了,还是要常用。原创 2024-04-23 20:44:14 · 777 阅读 · 0 评论 -
windows ubuntu 子系统:肿瘤全外篇,bam质控
这条命令使用 samtools view 命令来查看 949743-T_L2_1_recalibrated_reads.bam 这个 BAM 文件的内容,并通过管道将输出传递给 less -S 命令进行分页查看。参数指定感兴趣的区域文件,这里使用的是一个 BED 格式的文件,其中包含了人类基因组 hg38 版本的外显子区域信息。该命令将输出 BAM 文件的一些统计信息,包括总读取数、比对上参考序列的读取数、比对到不同位置的读取数等。单独出现的 reads 数:48,005 (占总读取数的 0.05%)原创 2024-04-22 20:24:55 · 1012 阅读 · 0 评论 -
windows ubuntu 子系统,肿瘤全外篇,3. gatk中的BaseRecalibrator,HaplotypeCaller,ApplyVQSR
2中,我们对测序数据进行了比对,bam排序,标记重复和建立索引。这次我们就直接可以进入gatk流程了。原创 2024-04-18 20:17:50 · 1686 阅读 · 0 评论 -
windows ubuntu 子系统:肿瘤全外篇,2. fq 数据质控,比对。
首先我们先下载一组全外显子测序数据。nabi sra库,随机找了一个。来自受试者“16177_CCPM_1300019”(SRR28391647, SRR28398576)的样本“16177_CCPM_1300019_BB5”的基因组DNA配对端文库“0369547849_Illumina_P5-Popal_P7-Hefel”的Illumina随机外显子测序下载下来,转为两个配对的fq文件。过程可参考这样我们得到了两个配对的fq文件,如果太大,可以压缩一下。原创 2024-04-17 20:55:51 · 1307 阅读 · 0 评论 -
windows ubuntu子系统,单细胞篇 1.cellranger安装与分析
使用"ls SRR*"查找以"SRR"开头的文件,然后使用"while read id"逐行读取这些文件名,对每个文件执行以下操作:使用。--localmem=15:指定本地内存的使用量,单位为GB。raw_feature_bc_matrix:原始barcode信息,未过滤的可以用于构建矩阵的文件,可以不看;这是我最近跑的一个流程,说实在的,博大精深,以后我会看一些文献,分享一下,流程好跑,背景知识很难啊。--id=$id:指定输出结果的唯一标识符,通常是分析的样本名称或编号,指定输出文件夹的名字。原创 2024-04-15 21:32:09 · 1872 阅读 · 0 评论 -
12.windows Ubuntu 子系统:构建非冗余基因集
CD-HIT的基本思路是首先对所有序列按照其长度进行排序,然后从最长的序列开始,形成第一个序列类,然后依次对序列进行处理,如果新的序列与已有的序列类的代表序列的相似性在cutoff以上则把该序列加到该序列类中,否则形成新的序列类。③基于word filter的方法使得使用每个长度的word能够处理的冗余性水平有限,如使用长度为2的word只能够得到相似性在50%以上的序列,长度为3的word只能够得到相似性在66.7%以上的序列类,类似的,长度为5的word只能够得到相似性在80%以上的序列。原创 2024-03-31 18:19:14 · 944 阅读 · 0 评论 -
11.windows ubuntu 子系统 contig ORF(开放阅读框)预测。
Prodigal(PROkaryotic DYnamic programming Gene-finding ALgorithm)是一款用于原核生物基因预测的软件,由美国橡树岭国家实验室和田纳西大学的Doug Hyatt团队于2010年正式发表,2012年增发MetaProdigal专用于宏基因组数据,是目前应用最广泛的基因预测软件之一。前面我们组装了contig,接下来我们要对contig进行 ORF(开放阅读框)预测,这是是一个重要的过程,其目的是识别和预测可能编码蛋白质的区域。接下来我会继续分享。原创 2024-03-31 10:53:26 · 958 阅读 · 0 评论 -
10.windows ubuntu 组装软件:spades,megahit
2.--tmp-dir 临时文件保留路径在ubuntu中好像只能设/tmp路径,设置其它路径,否则会报错没有操作权限。3.要指定python程序的路径,要用根用户权限,即sudo /home/guozihan/miniconda3/envs/spades_env/bin/python,但是在正规的linux中没有遇到这个问题。-k :kmer数,一次可以输入多个,用逗号分隔,数值从小到大排列,kmer最大为127,数值必须是奇数,一般自动选择即可,--sc 参数,则默认值为 21,33,55。原创 2024-03-28 21:00:51 · 1722 阅读 · 0 评论 -
9.windows ubuntu 子系统,centrifuge:微生物物种分类。
centrifuge是一种非常快速且省内存的软件,用于对微生物样本中的DNA序列进行分类,具有比其他领先系统更好的灵敏度和可比的准确性。: Centrifuge 不仅适用于 metagenomic 数据,也可以用于其他类型的测序数据,例如 RNA-Seq 数据,从而帮助研究人员更全面地理解微生物组成和功能。:指定要使用的索引文件,该索引文件包含了对应基因组序列的信息,用于比对和分类DNA测序数据。:指定使用的线程数,加快计算速度,特别是对于大规模DNA测序数据的处理更为重要。原创 2024-03-27 20:31:13 · 915 阅读 · 0 评论 -
7.windows ubuntu 子系统:测序数据去宿主-bowtie2。
最终生成 hg38.1.bt2 , hg38.2.bt2, hg38.3.bt2, hg38.4.bt2 , hg38.fa, hg38.rev.1.bt2, hg38.rev.2.bt2这几个文件。: 这是一个循环语句,逐行读取 sample.txt 的内容,并将每行内容赋值给变量 id。bowtie2还有很多参数,需要根据需要调整,建立一个流程并不难,难的是需要,比对结果,根据需要调整参数。命令用于连接文件并输出到标准输出。: 管道符号,用于将一个命令的输出传递给另一个命令的输入。原创 2024-03-25 20:49:16 · 934 阅读 · 0 评论 -
8.windows ubuntu 子系统:karken2,bracken微生物物种注释
第四种方法为 在windows环境下登录官网https://benlangmead.github.io/aws-indexes/k2下载自己想要的数据库,官网中有诸多类型的数据库。: 指定输出详细报告文件的名称为 A1.bracken.S.kreport,该文件包含了对每个分类水平的物种丰度估计结果。: 指定输出文件的名称为 A1.kraken,该文件包含了每个 reads 的分类结果。: 指定输出文件的名称为 A1.bracken.S,该文件包含了物种丰度的估计结果。官网里面有很多已经做好的数据库。原创 2024-03-26 20:27:45 · 903 阅读 · 0 评论 -
6.windows ubuntu 子系统 测序数据质量控制。
conda install -c bioconda Trimmomatic -y #安装 Trimmomatic,Trimmomatic是基于Java开发的,因此需要提前安装Java,才能使用Trimmomatic。:指定第二个输入文件的路径,这通常是第二对(read2)原始测序数据的文件路径。:指定第一个输出文件的路径,这是处理后的第一对测序数据(read1)的输出路径。:指定第二个输出文件的路径,这是处理后的第二对测序数据(read2)的输出路径。原创 2024-03-24 19:48:27 · 821 阅读 · 0 评论 -
5.windows Ubuntu 子系统,测序数据质量检测。
我们在得到一组或几组测序数据后,比如从测序公司拿到的测序数据为fastq.gz格式,首先我们需要对它们进行MD5检验,确保数据没有问题后才可进入以后的程序。:F如过低的碱基质量、过高的测序错误率、测序适配污染等问题,有助于及时发现数据质量异常并采取相应的处理措施。:包括测序读长、碱基质量分布、测序错误率、测序深度等方面的统计和图表展示,帮助研究人员了解测序数据的质量情况。这一项检查每个碱基位置的碱基质量分数,以评估测序数据的质量是否均匀。这一项分析每个序列的平均质量得分,帮助评估整体序列质量。原创 2024-03-23 20:17:52 · 795 阅读 · 0 评论 -
4.windows ubuntu 子系统:微生物宏基因组测序和分析流程概括。
第三种:是基于bin的微生物生信流程(bin"通常指的是将组装得到的 contig 或 scaffold 根据它们的特征(如碱基组成、覆盖度、相互关系等)进行分类或分组的过程。为了还原原始基因组的序列,需要将这些短序列根据它们的重叠关系拼接成较长的连续序列,这样得到的连续序列就是 contig。我这个栏目希望能将这些流程都跑一遍,分享給大家,但是也是浅浅的跑,因为每个流程都是发展很久的,我不会全部都做得很深,有问题的朋友们,可以讨论。原创 2024-03-22 21:30:00 · 549 阅读 · 0 评论 -
3.windows下Ubuntu,sratoolkit软件,从ncbi的sra数据库下载数据。
vim ~/.bashrc,添加 export PATH="/mnt/h/softwore/sratoolkit.3.0.7-ubuntu64/bin/:$PATH" ,保存退出后,source ~/.bashrc,激活。在SRA数据库中可以找到很多的测序数据,可以在网页中搜素,找到自己感兴趣的数据,同时在SRA中搜索数据的方式方法也有很多,大家可以自学一下,最终找到自己感兴趣的数据。在NCBI的SRA数据库中,可以找到来自各种生物种类的测序数据,包括但不限于动物、植物、微生物等。自动解压:下载完成后,原创 2024-03-21 20:45:00 · 1286 阅读 · 0 评论 -
2.windows ubuntu子系统配置
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh #下载conda软件。#编辑输入:export PATH="/mnt/h/softwore/cellranger-7.2.0/bin/:$PATH",保存退出后,#安装软件,我常用的安装软件的方法有两种,基本上大部分软件都可以靠这两种方法安装。除此之外,还有其它方法,不过,我暂时没有遇到需求,等到后期,我在分享。原创 2024-03-21 08:22:13 · 560 阅读 · 0 评论 -
windows下安装Ubuntu
我在公司设计了一个pipeline,因为和实验上游交流的问题(上游实验是位40多岁的人,比较强势,我因为年龄和资历处于下风,导致工作非常难,这是经验啊),这个流程交给了一位近50岁的博士,我并未跟进这个流程的性能验证和改进。我今年在跳槽的时候,有人提出质疑,说这个流程不是我设计的,我将细节都和他们说,但是他们估计并不相信。于是我买了个服务器,在win下安装Ubuntu,从NCBI下载各种数据,测试生信的各个软件的用法。喜欢这个项目的朋友可以跟进一下。原创 2024-03-20 08:31:41 · 898 阅读 · 0 评论