序列比对
文章平均质量分 87
让学习成为一种生活方式
中国医学科学院&北京协和医学院研究生一枚,生物信息学+合成生物学欢迎交流。如切如嗟,如琢如磨!
展开
-
minimap2安装与使用(v 2.28)生物信息学工具26
Minimap2 是一个多功能的序列比对程序,可以将 DNA 或 mRNA 序列与大型参考数据库进行比对。对于约 10kb 的噪声读长序列,minimap2 比主流长读长比对程序(如 BLASR、BWA-MEM、NGMLR 和 GMAP)快几十倍。对于大于 100bp 的 Illumina 短读长,minimap2 的速度是 BWA-MEM 和 Bowtie2 的三倍,并在模拟数据上同样准确。映射长的噪声基因组读长。如果你为不同的数据类型运行 minimap2,可能需要保留使用不同参数生成的多个索引。原创 2024-07-17 00:40:32 · 1139 阅读 · 0 评论 -
GlimmerHMM安装与使用-生信工具24
GlimmerHMM是一种基于广义隐马尔科夫模型(GHMM)的新型基因预测工具。虽然该基因预测工具符合GHMM的总体数学框架,但它还结合了从GeneSplicer程序中改编的剪接位点模型。可变长度的特征状态(例如外显子、内含子、基因间区域)是使用Nth-order插值马尔科夫模型(IMM)实现的,如Delcher等人1999年所描述的,N=8。目前,GlimmerHMM的GHMM结构包括每个相位的内含子、基因间区域和四种类型的外显子(起始外显子、内部外显子、终止外显子和单独外显子),如下图所示。原创 2024-07-02 00:52:25 · 770 阅读 · 0 评论 -
模式物种葡萄基因组(T2T)--文献精读29
葡萄是全球最具经济重要性的作物之一。然而,以往版本的葡萄参考基因组通常由成千上万个片段组成,缺失着丝粒和端粒,限制了重复序列、着丝粒和端粒区域的可及性,以及这些区域中重要农艺性状的遗传研究。在此,我们利用PacBio HiFi长读长序列为品种PN40024组装了一个从端粒到端粒(T2T)无间隙的参考基因组。该T2T参考基因组(PN_T2T)比12X.v0版本长69 Mb,且鉴定出更多的9018个基因。我们注释了67%的重复序列、19个着丝粒和36个端粒,并将之前版本的基因注释整合到PN_T2T组装中。原创 2024-07-11 21:08:56 · 605 阅读 · 0 评论 -
readfq安装与使用(生物信息学工具-023)
一些简单的基准测试结果:将包含 2500 万个 100bp 读数的 FASTQ 转换为 FASTA,FASTX-Toolkit(仅解析 4 行 FASTQ)耗时 325.0 CPU 秒,EMBOSS 的 seqret 耗时 247.8 秒。对于脚本语言的用户,建议直接复制粘贴函数,而不是将 readfq 作为库使用。桂元苗. 面向蛋白互作预测的序列数据特征识别研究[D]. 中国科学技术大学, 2019. DOI:10.27517/d.cnki.gzkju.2019.000074.原创 2024-06-22 00:44:02 · 896 阅读 · 0 评论 -
MEME使用-motif分析(生物信息学工具-24)
在DNA或蛋白的同源序列中,不同位点的保守程度是不一样的,一般来说,对DNA或蛋白质功能和结构影响比较大的位点会比较保守,其它位点则不是很保守。motif最先是通过实验的方法发现的。张国莉,周倩怡,余小奎,等. 基于转录组的大蒜水通道蛋白基因家族的鉴定与分析 [J/OL]. 分子植物育种, 1-26[2024-06-20]. http://101.42.170.182:8085/kcms/detail/46.1068.S.20240614.1749.008.html.原创 2024-06-20 14:15:04 · 2530 阅读 · 0 评论 -
P450Rdb: CYP450数据库--地表最强系列--文献精读24
细胞色素P450酶(P450s)被公认为世界上最具多样性的催化剂,在所有生物界的众多生物代谢和生物合成过程中发挥着至关重要的作用。尽管数据库中有大量的P450基因(超过300,000个),但只有少部分(不到0.2%)经过功能表征。原创 2024-06-15 10:00:11 · 1178 阅读 · 0 评论 -
桑树T2T基因组-文献精读16
桑树是全球蚕桑产业的基本组成部分,其对我们的健康和环境的积极影响不可低估。然而,之前报道的桑树参考基因组存在未组装或未定位的序列。在这里,我们报道了桑树种植川桑的端到端无间隙参考基因组的组装和分析,该基因组已成为桑树基因功能研究和遗传改良的重要参考。本研究产生的桑树无间隙参考基因组为我们研究着丝粒的结构和功能提供了前所未有的机会。我们的结果显示,所有桑树的着丝粒区域都共享具有不同拷贝数的保守的着丝粒卫星重复序列。引人注目的是,我们发现川桑是一种具有多中心染色体的物种,也是迄今为止唯一报道的多中心染色体物种。原创 2024-05-30 09:29:52 · 1037 阅读 · 0 评论 -
表征和基于结构的蛋白质工程:黄芪特异性皂苷乙酰转移酶-文献精读14
乙酰化有助于许多具有药用重要性的天然产品的生物活性。然而,关于糖部分的乙酰化知之甚少。在这里,我们报道了来自黄芪的一种皂苷乙酰转移酶AmAT7-3。通过逐步的基因挖掘方法发现AmAT7-3,该酶被鉴定为黄芪皂苷IV(1)的木糖C3′/C4′-O-乙酰转移酶。为了阐明其催化机制,我们获得了AmAT7-3/1和AmAT7-3A310G/1的复合晶体结构,揭示了一个由特定序列AADAG决定的大型活性口袋。原创 2024-05-13 19:10:33 · 903 阅读 · 0 评论 -
bwa安装及使用v0.7.17(生物信息学工具-018)
BWA是一个用于将DNA序列比对到大型参考基因组(如人类基因组)的软件包。它包含三种算法:BWA-backtrack、BWA-SW和BWA-MEM。第一个算法设计用于 Illumina 测序读取长度最长为100bp,而后两个用于更长序列,范围从70bp到几百万碱基。BWA-MEM和BWA-SW具有类似的特性,如支持长读取和嵌合比对,但通常建议使用BWA-MEM,因为它更快、更准确。对于70-100bp的Illumina读取,BWA-MEM的性能也比BWA-backtrack更好。原创 2024-04-30 21:01:19 · 2548 阅读 · 0 评论 -
T2T时代的基因组组装-文献精读-9
Genome assembly in the telomere-to-telomere eraT2T时代的基因组组装,李恒大神的综述,昨天刚出刊,李恒也是samtools、seqtk等的核心作者。seqtk安装与使用-seqtk-1.4(bioinfomatics tools-012)Samtools安装与使用-samtools-v1.17(bioinfomatics tools-007)摘要de novo组装是从测序reads中重构生物体基因组序列的过程。基因组序列对于生物学至关原创 2024-04-23 20:51:33 · 1209 阅读 · 0 评论 -
蛋白质亚细胞定位预测(生物信息学工具-017)
蛋白质亚细胞定位预测,论文必备工具原创 2024-04-19 16:41:30 · 688 阅读 · 0 评论 -
蛋白质基本信息分析--理化性质如分子量、等电点、不稳定系数等计算分析(生物信息学工具-016)
蛋白质基本信息分析--需要蛋白质的理化性质计算及分析,如分子量、等电点、不稳定系数、脂肪指数、亲水系数等计算分析。原创 2024-04-19 11:12:34 · 1030 阅读 · 0 评论 -
JCVI-筛选blast最佳结果(生物信息学工具-015)
jcvi即可帮助我们挑选最佳blast比对结果,快快用起来!尤其是数据库注释等操作!原创 2024-04-16 21:04:30 · 1334 阅读 · 0 评论 -
RAxML-NG安装与使用-raxml-ng-v1.2.0(bioinfomatics tools-013)
在这里,我们介绍我们的新代码RAxML-NG(RAxML下一代)。它结合了RAxML和ExaML的优势和概念,并提供了我们在下一节中将描述的几项额外改进。所以,ML建树的最新一代版本软件,横空出世,一代版本一代神,代代版本ML树!原创 2024-03-16 23:24:42 · 2199 阅读 · 1 评论 -
Bowtie2安装与使用-bowtie2-2.5.2(bioinfomatics tools-011)
随着测序速率的增加,对读取比对器的吞吐量要求越来越高。全文分钟索引(full-text minute index)通常用于实现非常快速和内存高效的比对,但这种方法不适合查找较长的、有间隙的比对。Bowtie 2 结合了全文分钟索引的优势和硬件加速的动态规划算法的灵活性与速度,实现了高速度、高灵敏度和高准确性的结合。原创 2024-03-10 23:56:22 · 2642 阅读 · 1 评论 -
diamond安装与使用-diamond-2.1.8(bioinfomatics tools-010)
DIAMOND 是一款用于蛋白质和翻译后DNA搜索的序列比对工具,专为大规模序列数据的高性能分析设计。比BLAST快1w倍!原创 2024-03-09 23:31:14 · 2234 阅读 · 0 评论 -
Hmmer安装与使用-Hmmer-3.3.2(bioinfomatics tools-009)
HMMER是一种基于隐马尔可夫模型(HMM)的深度学习算法,现已成为代替BLAST算法进行基因家族鉴定的有力工具。利用 hmmer 构建隐马尔可夫模型并寻找同源基因。原创 2024-03-08 23:52:37 · 4904 阅读 · 1 评论 -
TransDecoder安装与使用-TransDecoder-v5.7.1(bioinfomatics tools-008)
TransDecoder 去冗余三部曲,这里是和配合trinity使用,可以得到真实的Unigene,为下游PCR或qPCR验证做下铺垫。原创 2024-03-07 21:55:21 · 2300 阅读 · 1 评论 -
Samtools安装与使用-samtools-v1.17(bioinfomatics tools-007)
SAM、BAM文件及SAMtools,SNP的研究需要!生信胶水之一!原创 2024-03-06 23:00:16 · 3923 阅读 · 3 评论 -
cd-hit安装与使用-cd-hit v4.8.1(bioinfomatics tools-005)
CD-HIT (Cluster Database at High Identity with Tolerance) 是一种广泛使用的生物信息学工具,主要用于快速聚类生物序列数据,如蛋白质或核酸序列,以减少数据冗余和简化数据分析。其基本原理涉及比较序列之间的相似性,将高度相似的序列分组到同一个聚类中,从而减少数据集的复杂性。原创 2024-03-03 23:14:57 · 3446 阅读 · 0 评论 -
MAFFT安装及使用-mafft v7.520(bioinfomatics tools-004)
多序列比对是生物信息学的一个重要研究内容,比对结果高度依赖于比对工具的参数设置,包括空位罚分(GOP和GEP)以及替换矩阵。MAFFT多序列比对解决了这个问题。原创 2024-03-02 20:49:52 · 3247 阅读 · 2 评论 -
Blast安装及使用-Blast+2.14.0(bioinfomatics tools-001)
BLAST一般在国内生物信息学专业教材中数据库和序列比对相关章节,并且众多生物化学和分子生物学教材中基因组与比较基因组学相关内容也已单独成章。通过测序获得基因、甚至基因组序列,也已成为分子生物学实验室的常规实验方法。原创 2024-02-21 21:11:57 · 2997 阅读 · 1 评论