全外显子组测序的bed文件如何制作

生信小白菜儿

已于 2023-08-18 09:35:24 修改

阅读量637

点赞数

文章标签：服务器 linux 数据库

于 2023-08-17 16:59:29 首次发布

本文链接：https://blog.csdn.net/weixin_69556916/article/details/132339897

版权

bed文件的第一列（序列名称）、第四列（起始位置）、第五列（终止位置）。下面是在Linux系统中的操作步骤：

我用的是hg19的参考基因组，先下载对应的gtf文件：

wget https://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_40/GRCh37_mapping/gencode.v40lift37.annotation.gtf.gz

然后用gtf文件处理

gunzip -c gencode.v40lift37.annotation.gtf.gz | awk '($3=="exon") {printf("%s\t%s\t%s\n",$1
,int($4)-1,$5);}' | sort -T . -t $'\t' -k1,1 -k2,2n | bedtools merge > hg19.bed

注：因为gtf的第一个碱基记为1,但是bed文件的第一个碱基记为0，所以从gtf转化为bed的碱基位置需要-1；而终止位置碱基没有-1是因为终止位置的碱基对不被包含在内，即bed文件的碱基位置是前闭后开的。后面是对最终的结果进行排序，先按照第一列进行排序（-k1,1）再按照第二列以数值的方式进行排序（-k2,2n）。最后，再用bedtools把可能有重叠的部分整合之后，就能得到我们想要的结果。

输出结果如下：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

生信小白菜儿

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

生信分析进阶5 - 全外显子组变异检测和ANNOVAR注释Snakemake分析流程

LittleComputerRobot的博客

06-16

178

全外显子组变异检测和ANNOVAR注释Snakemake分析流程

全外显子测序分析流程4 - GATK碱基校正 + Calling变异

最新发布

LittleComputerRobot的博客

09-10

全外数据分析：GATK碱基校正 + Calling变异

1 条评论您还未登录，请先登录后发表或查看评论

BED 文件格式 chip-seq m6a数据可视化会用到

生信小博士的博客

12-26

1612

BED格式（Browser Extensible Data format）是一种在生物信息学中广泛使用的文本文件格式，用于描述基因组上的特征和区域。BED文件通常包含基因组坐标、特征的名称、描述和其他附加信息。BED格式是生物信息学研究中非常常用的文件格式，用于描述基因组上的特征和区域。它提供了一种有效的方式来存储和传输基因组注释信息，并在多种生物信息学分析中发挥着重要的作用。在上述示例中，每行描述了一个基因组上的特征，包括染色体名称、起始和结束位置、名称、分数和链方向等字段。

tophat生成文件之BED文件格式

宁生信

06-12

3794

BED 文件格式提供了一种灵活的方式来定义的数据行，以用来描述注释的信息。BED行有3个必须的列和9个额外可选的列。每行的数据格式要求一致。 The first three required BED fields are: 1.chrom - The name of the chromosome (e.g. chr3, chrY, chr2_random) or scaffold (e.

生信——制作bed file

weixin_30367169的博客

06-25

2456

bed file是靶向测序中一个重要的文件，是告诉call SNP的软件，目标的基因位置在染色体的什么地方。主要用到的工具是UCSC gene browser 1.外显子的靶向文件 UCSC:http://genome.ucsc.edu/cgi-bin/hgTables. 按照下表填好，把自己的目标基因名字（如AKT1）输入到identifiers中paste list, 然后点击get ou...

Linux：bed文件制作，提取上下游150bp序列

caopei0111的博客

10-11

716

bed文件，seqkit subseq，重命名

根据引物数据做hotspot和target的bed文件

Cassiel60的博客

04-19

525

1.拿到一个已经设计好的引物表的时候，发现格式很乱，所以首先就是按照一定的格式把引物格式做好 2. 把panel 按照如下格式进行调整，UniqueID要对应数据库，其中End应为Start加上Ref的碱基个数。 3. hotspot 需要参照其他bed文件，自行添加头信息，修改makeTargetAndHotspot.py，运行。 #!\usr\bin\python # codi...

制作bed文件 fasta bigwig igv

生信小博士的博客

12-27

458

外显子不一定都能翻译成蛋白质。

如何获得hg38外显子的bed文件？

weixin_40594350的博客

04-18

4040

一、bed文件介绍 bed文件是一种记录基因组不同（功能）区域在基因组上的位置以及其它注释信息的文本文件。它包含了由空格或者tab分隔的不同列，以记录不同的信息，每一行对应一个区域。它最早出现于人类基因组计划中，后被广泛应用。因为它不直接在基因组上进行标记和修改，在使用上更具效率。 bed文件最开始并没有一个标准的格式，因此 UCSC Genome Browser 对它的描述逐渐成为了大家的参考标准。它最少为3列，最多可为12列。bed文件辅助 UCSC Genome Browser 对不同片段进行可视

mosdepth：用于WGS，外显子组或靶向测序的快速BAMCRAM深度计算

02-03

快速的BAM / CRAM深度计算的WGS ，外显子组或靶向测序。 mosdepth可以输出：每个碱基的深度约为快速samtools depth 2 samtools depth -30倍基因组的CPU时间约为25分钟。给定窗口大小的平均每个窗口深度-用于CNV...

外显子测序代码记录

Doris_xixi的博客

07-16

1214

#QC 使用SeqPrep进行质控 SeqPrep -f /home/qian.liu/gaoyang/F18FTSECWLJ0595_HUMcizE/1625668PA_all/clean_data/CL100072979_L02_561_1.fq -r /home/qian.liu/gaoyang/F18FTSECWLJ0595_HUMcizE/1625668PA_all/clean_data...

bed文件

weixin_33802505的博客

07-04

1122

2019独角兽企业重金招聘Python工程师标准>>> ...

BED 文件格式

hs6605015的博客

04-25

1780

BED 文件格式 BED (Browser Extensible Data)格式文件就是通过规定行的内容来展示注释信息. BED文件每行至少包括chrom，chromStart，chromEnd三列；另外还可以添加额外的9列，这些列的顺序是固定的。在自定义BED文件时，前面可以有注释行，以“browser”或“track”开头，可以设置一些参数便于浏览器更好展示BED文件信息。但是，下游的一些分析工具，例如bedToBigBed，是不接受有注释的BED文件的。 BED文件必须的3列: chrom -

BED文件格式

weixin_30795127的博客

08-30

165

BED文件格式 BED文件格式是一个可变方式的数据线，用来描述注释的数据。BED线有3个要求的字段和9个额外的字段。每条线的字段数目必须是任意单条数据的在注释上一致。可选字段的序试结合低数字的字段必须流行如果高位字段被使用。首先是三个要求的BED字段 chrom,染色体或scafflold的名字(eg chr3，chrY, chr2_random, scaf...

bed 文件说明

qq_36608036的博客

09-13

2361

bed文件（browse extensive data）以及gff文件（general fearture format） ben文件第一列是染色体或者contig信息。第二列是起始位置，从0开始。第三列是终止位置。前三列是必须的！第四列是bed列的名字。第五列是score。第六列是链方向。第七列是基因起始。第八列是基因终止。第九列是RGB值。第十列是外显子数量。第十一列是外显子大小。第十二列是外显...

htslib/sam.h--操作bed文件

晏九的博客

04-20

547

一、介绍 bed文件必有3个字段，以及9个可选字段。必有字段 1. chrom：染色体 2. start：起始位置 3. end：终止位置需要注意的是，bed文件是0-base坐标系统，例如以下 1 6484955 6485369 表示的区间坐标实际上是 1号染色体的 [6484956,6485369) 区间其他可选字段目前没有接触过二、判断是否在bed区域比如想判断1：101是否在bed区域 #include <htslib/tbx.h> #in...

BED文件与bedtools简介

m0_70166478的博客

10-15

3048

python与生信

生物信息数据格式：bed格式

热门推荐

sunchengquan的博客

12-15

1万+

文章目录BED format（基因组的注释文件）基本列附加列示例[Bedtools简介](https://bedtools.readthedocs.io/en/latest/index.html)下载安装演示版的bed文件 (demo.bed)我们的基因组文件（genome.txt）[bedtools slop](http://bedtools.readthedocs.io/en/latest/c...

bed bam wig、bigWig和bedgraph文件详解

生信小博士的博客

12-27

3944

文件格式数据类型存储方式应用场景BED基因组区域文本基因组注释、ChIP-seq、ATAC-seq等WIG连续测量值文本基因表达、DNA甲基化、染色质可及性等BIGWIG连续测量值压缩基因表达、DNA甲基化、染色质可及性等BEDGRAPH连续测量值文本基因表达、DNA甲基化、染色质可及性等SAM比对结果文本高通量测序数据比对BAM比对结果文本高通量测序数据比对bw连续测量值压缩基因表达、DNA甲基化、染色质可及性等BED文件。

全外显子测序文库制备获得的cdna分子的结构

08-08

全外显子测序文库制备是一种用于对全基因组进行测序的方法，其中包括了所有编码蛋白质的外显子区域。制备全外显子测序文库的第一步是提取RNA，通过逆转录反应将RNA转化为cDNA（即反转录，Reverse Transcription），得到cDNA分子。接下来，使用特定引物将cDNA进行扩增，这些引物包括了外显子区域的序列。扩增后，将cDNA加入到富含适配子的文库中，适配子可用于连接cDNA片段到测序平台。文库中的每个cDNA分子都具有两个适配子，一个位于每个端部。通过测序平台，可以对整个文库中的cDNA分子进行测序。测序完成后，获得的测序读取片段可以通过与已知外显子区域进行比对来确定cDNA分子的结构。通过比对，我们可以确定cDNA分子中包含的外显子的序列，并进一步研究这些外显子的功能和变异情况。全外显子测序文库制备获得的cDNA分子结构可以提供详细的基因组信息，帮助我们了解外显子的变异、基因功能和疾病相关基因的突变等重要信息。