进行数据分析的前提就是要获取数据,我们可以从相应的网站上下载自己需要的数据。例如https://www.ebi.ac.uk/ena/browser/view/PRJNA189204?show=reads。
选择自己想要下载的文件,将其下载到本机。下载的文件都是经过压缩的,就需要先解压文件。
在这里是使用unzip命令解压文件,在Ubuntu中,可以使用sudo apt install unzip命令,安装完成之后就可以使用unzip命令了。解压完成后会得到两个压缩的fastq文件,需要用gunzip命令解压。
利用bowtie2将fastq文件转化成bam文件。Ubuntu中可以用sudo apt install bowtie2安装bowtie2.使用以下命令就可以完成转换。
bowtie2 -x index -1 SRR893061_1.fastq -2 SRR893061_2.fastq -S bowtie.sam
samtools view -bS bowtie.sam -o bowtie.bam
samtools sort bowtie.bam -o bowtie.sorted.bam
samtools index bowtie.sorted.bam
2024年更新
bowtie2目前已经不常用,minimap2的运行速度更快,准确度更好,所以推荐使用minimap2(https://github.com/lh3/minimap2),minimap2的教程到处都是,而且用起来非常的简单,主要用法如下:
# long sequences against a reference genome
./minimap2 -a test/MT-human.fa test/MT-orang.fa > test.sam
# create an index first and then map
./minimap2 -x map-ont -d MT-human-ont.mmi test/MT-human.fa
./minimap2 -a MT-human-ont.mmi test/MT-orang.fa > test.sam
# use presets (no test data)
./minimap2 -ax map-pb ref.fa pacbio.fq.gz > aln.sam # PacBio CLR genomic reads
./minimap2 -ax map-ont ref.fa ont.fq.gz > aln.sam # Oxford Nanopore genomic reads
./minimap2 -ax map-hifi ref.fa pacbio-ccs.fq.gz > aln.sam # PacBio HiFi/CCS genomic reads (v2.19 or later)
./minimap2 -ax asm20 ref.fa pacbio-ccs.fq.gz > aln.sam # PacBio HiFi/CCS genomic reads (v2.18 or earlier)
./minimap2 -ax sr ref.fa read1.fa read2.fa > aln.sam # short genomic paired-end reads
./minimap2 -ax splice ref.fa rna-reads.fa > aln.sam # spliced long reads (strand unknown)
./minimap2 -ax splice -uf -k14 ref.fa reads.fa > aln.sam # noisy Nanopore Direct RNA-seq
./minimap2 -ax splice:hq -uf ref.fa query.fa > aln.sam # Final PacBio Iso-seq or traditional cDNA
./minimap2 -ax splice --junc-bed anno.bed12 ref.fa query.fa > aln.sam # prioritize on annotated junctions
./minimap2 -cx asm5 asm1.fa asm2.fa > aln.paf # intra-species asm-to-asm alignment
./minimap2 -x ava-pb reads.fa reads.fa > overlaps.paf # PacBio read overlap
./minimap2 -x ava-ont reads.fa reads.fa > overlaps.paf # Nanopore read overlap
核心思想就是以第一个文件的序列作为参考,将第二个文件的序列比对到第一个文件的序列上,生产比对结果,不仅可以输出bam文件,也可以输出paf文件,非常的好用。