基因组
文章平均质量分 89
让学习成为一种生活方式
中国医学科学院&北京协和医学院研究生一枚,生物信息学+合成生物学欢迎交流。如切如嗟,如琢如磨!
展开
-
基因组挖掘指导天然药物分子的发现-文献精读34
具有巨大化学多样性的天然产物为药物开发提供了无可比拟的小分子文库,从中诞生了大量的药物或先导化合物。由于众多抗生素药物集中发现于20世纪50年代左右,这一时期被称为天然产物发现的“黄金时代”[153然而,自20世纪后期以来,天然产物来源的药物出现了大幅下降,这一方面是由于小分子化学合成技术的进步和高通量筛选平台的出现,更重要的是,传统的天然产物发现策略导致了大量高丰度化合物的重复出现,而低丰度或不可培养微生物中的资源却难以得到发掘[154。原创 2024-07-25 19:29:39 · 554 阅读 · 0 评论 -
列当科比较寄生基因组-文献精读32
列当科是最大的寄生植物科,包括自养植物和具有各种寄生程度的寄生植物。因此,它是迄今为止研究植物寄生起源和进化的最佳科属。在此,我们提供了三个列当科植物的高质量基因组:自养植物绿春钟萼草(Lindenbergia luchunensis)和全寄生植物埃及列当(Phelipanche aegyptiaca)以及向日葵列当(Orobanche cumana)。将这三个基因组与之前发布的基因组以及其他列当科物种的转录组进行系统基因组学分析,建立了列当科的稳健系统发育框架。原创 2024-07-25 15:55:37 · 892 阅读 · 0 评论 -
甘蔗基因组--文献精读30
甘蔗是一种具有重要经济和工业价值的作物。然而,由于其高倍性和两个亚基因组之间广泛的重组,栽培甘蔗的超复杂基因组仍未得到解决。在这里,我们为杂交甘蔗品种中蔗1号生成了染色体级、单倍型解析的基因组组装。该组装包含10.4 Gb的基因组序列和68,509个注释基因,这些基因分布在99条原始染色体和15条重组染色体中的两个亚基因组中。RNA-seq数据分析显示,与糖积累相关的基因家族主要从ZZSO亚基因组扩展出来。然而,响应pokkah boeng病易感性的基因主要来自ZZSS亚基因组。原创 2024-07-11 22:27:24 · 452 阅读 · 0 评论 -
模式物种葡萄基因组(T2T)--文献精读29
葡萄是全球最具经济重要性的作物之一。然而,以往版本的葡萄参考基因组通常由成千上万个片段组成,缺失着丝粒和端粒,限制了重复序列、着丝粒和端粒区域的可及性,以及这些区域中重要农艺性状的遗传研究。在此,我们利用PacBio HiFi长读长序列为品种PN40024组装了一个从端粒到端粒(T2T)无间隙的参考基因组。该T2T参考基因组(PN_T2T)比12X.v0版本长69 Mb,且鉴定出更多的9018个基因。我们注释了67%的重复序列、19个着丝粒和36个端粒,并将之前版本的基因注释整合到PN_T2T组装中。原创 2024-07-11 21:08:56 · 605 阅读 · 0 评论 -
GlimmerHMM安装与使用-生信工具24
GlimmerHMM是一种基于广义隐马尔科夫模型(GHMM)的新型基因预测工具。虽然该基因预测工具符合GHMM的总体数学框架,但它还结合了从GeneSplicer程序中改编的剪接位点模型。可变长度的特征状态(例如外显子、内含子、基因间区域)是使用Nth-order插值马尔科夫模型(IMM)实现的,如Delcher等人1999年所描述的,N=8。目前,GlimmerHMM的GHMM结构包括每个相位的内含子、基因间区域和四种类型的外显子(起始外显子、内部外显子、终止外显子和单独外显子),如下图所示。原创 2024-07-02 00:52:25 · 770 阅读 · 0 评论 -
光荚含羞草基因组-文献精读26
光荚含羞草起源于热带美洲,具有独特的叶片运动特征,其运动速度相对较慢。此外,这种植物还具有固氮能力。尽管这些特性引人入胜,但由于缺乏光荚含羞草的基因组资源,相关综合研究一直受阻。原创 2024-07-01 20:14:34 · 883 阅读 · 0 评论 -
五种肉苁蓉属植物叶绿体基因组-文献精读25
肉苁蓉属是列当科的重要属类,具有重要的药用、经济和防治荒漠化的价值。然而,肉苁蓉属的系统发育关系尚不清晰。迄今为止,还没有有效的分子标记能够有效区分报道的肉苁蓉属近缘种类。在本研究中,我们获得并表征了来自中国的四种肉苁蓉属植物的叶绿体基因组,以澄清该属内的系统发育关系,并开发用于物种鉴定的分子标记。原创 2024-07-01 15:39:20 · 1068 阅读 · 0 评论 -
readfq安装与使用(生物信息学工具-023)
一些简单的基准测试结果:将包含 2500 万个 100bp 读数的 FASTQ 转换为 FASTA,FASTX-Toolkit(仅解析 4 行 FASTQ)耗时 325.0 CPU 秒,EMBOSS 的 seqret 耗时 247.8 秒。对于脚本语言的用户,建议直接复制粘贴函数,而不是将 readfq 作为库使用。桂元苗. 面向蛋白互作预测的序列数据特征识别研究[D]. 中国科学技术大学, 2019. DOI:10.27517/d.cnki.gzkju.2019.000074.原创 2024-06-22 00:44:02 · 896 阅读 · 0 评论 -
辣椒属2个T2T基因组-文献精读23
辣椒(Capsicum)因其果实中含有辣椒素而闻名,这使其具有独特的辣味。然而,由于缺乏高质量的辣椒基因组,辣椒素生物合成的进化历史及其组织特异性机制仍然不清楚。在本研究中,我们报告了辣椒和其野生无辣味近缘种C. rhomboideum的两条端粒到端粒(T2T)无缝基因组,以研究辣椒果实辣味的进化。我们精确描绘了辣椒的着丝粒,这些着丝粒缺乏高拷贝串联重复序列,但被大量的CRM逆转录转座子入侵。通过系统基因组学分析,我们估算了辣椒素生物合成的进化时间。原创 2024-06-14 15:28:02 · 731 阅读 · 0 评论 -
破布叶(Microcos paniculata)单倍型染色体级别基因组-文献精读22
布渣叶(Microcos paniculata)是一种传统上用作民间药物和制作草药茶的灌木。之前对该物种的研究主要集中在其化学成分和药用价值上。然而,缺乏参考基因组限制了对该物种活性化合物分子机制的研究。在此,我们基于PacBio HiFi和Hi-C数据组装了M. paniculata的单倍型解析染色体级别基因组。组装包含两个单倍体基因组,大小分别为399.43 Mb和393.10 Mb,Contig N50长度分别为43.44 Mb和30.17 Mb。约99.93%的组装序列可以锚定到18条伪染色体。原创 2024-06-13 21:14:10 · 1110 阅读 · 0 评论 -
QUAST安装及使用v5.2.0(Bioinformatics工具-022)
当前的 QUAST 工具包包括通用的基因组组装工具 QUAST,元基因组数据集扩展 MetaQUAST,用于大基因组(如哺乳动物)的扩展 QUAST-LG,以及用于这些工具的交互式可视化工具 Icarus。通过计算各种指标来评估基因组的组装,包括N50,L50,GC含量等contig基本信息。QUAST(Quality Assessment Tool for Genome Assemblies)是基因组质量评估工具,基于python开发,matplotlib绘图。该工具接受多个组装,因此适合比较。原创 2024-06-09 00:53:29 · 577 阅读 · 0 评论 -
Cell-在十字花科植物中一年生和多年生开花行为的互相转化-文献精读21
多年生作物的发展对于可持续农业和粮食安全具有重要潜力。然而,年生性和多年生性之间转化的进化过程尚不清楚。在此,我们利用两种十字花科植物,喜马拉雅须弥芥 和 内华达糖芥,作为多次开花多年生模型,揭示了多次开花多年生植物向二年生和一年生开花行为的转变是由三个密切相关的 MADS-box 基因的剂量决定的连续过程。这些基因表达模式、功能强度和组合的多样化使物种具有采用多种生活史策略的潜力。值得注意的是,我们发现这三个基因中的单个基因就足以将冬一年生或一年生的十字花科植物转变为多次开花的多年生植物。原创 2024-06-08 22:54:36 · 1477 阅读 · 0 评论 -
PMAT(组装线粒体基因组)安装及使用(Bioinformatics工具-021)
PMAT 是一个高效的组装工具包,用于利用第三代(HiFi/CLR/ONT)测序数据组装植物线粒体基因组。PMAT 还可以用于组装叶绿体基因组或动物线粒体基因组。原创 2024-06-05 21:13:05 · 696 阅读 · 0 评论 -
桃金娘T2T基因组-文献精读17
桃金娘(Rhodomyrtus tomentosa)是桃金娘科的重要肉质果树和著名的药用植物,广泛种植于世界热带和亚热带地区。然而,由于缺乏参考基因组,桃金娘的进化和基因组育种研究受到阻碍。在此,我们使用PacBio和ONT长读长测序技术,提出了桃金娘的染色体级无缺口T2T基因组组装。我们组装了大小为470.35 Mb的基因组,contig N50约为43.80 Mb,共有11条拟染色体。在该基因组中注释了33,382个基因和239.31 Mb的重复序列。原创 2024-05-30 22:15:09 · 751 阅读 · 0 评论 -
红花基因组-文献精读27
红花(Carthamus tinctorius)因其种子和花朵而在全球广泛种植。种子中的亚油酸(LA)和花中的水溶性红花黄A(HSYA)是红花可用于工业和药用的关键性状。了解这些性状的遗传控制对于优化红花的品质及其育种至关重要。为了推进这项研究,我们呈现了一种红花品种“川红花1”的染色体级基因组组装,该组装是通过整合Illumina、Oxford Nanopore和Hi-C测序技术实现的。我们获得了1.17 Gb的组装,其contig N50为1.08 Mb,并将所有组装序列分配到12个拟染色体上。原创 2024-05-30 16:44:30 · 1080 阅读 · 0 评论 -
桑树T2T基因组-文献精读16
桑树是全球蚕桑产业的基本组成部分,其对我们的健康和环境的积极影响不可低估。然而,之前报道的桑树参考基因组存在未组装或未定位的序列。在这里,我们报道了桑树种植川桑的端到端无间隙参考基因组的组装和分析,该基因组已成为桑树基因功能研究和遗传改良的重要参考。本研究产生的桑树无间隙参考基因组为我们研究着丝粒的结构和功能提供了前所未有的机会。我们的结果显示,所有桑树的着丝粒区域都共享具有不同拷贝数的保守的着丝粒卫星重复序列。引人注目的是,我们发现川桑是一种具有多中心染色体的物种,也是迄今为止唯一报道的多中心染色体物种。原创 2024-05-30 09:29:52 · 1037 阅读 · 0 评论 -
jellyfish安装及使用(Bioinformatics工具-020)
K是常数,且一般为奇数(避免正反链混淆)。统计所有reads中所出现的k-mer类型及各类型k-mer的深度(或者频率),绘制特定k-mer下不同深度k-mer片段的频数统计图,通常选择K-mer分布最多的峰为主峰,从而得到基因组大小=K-mer总数/K-mer主峰深度值。由于基因组存在杂合位点和重复序列,k-mer曲线往往不会呈现出良好的泊松分布,而是在主峰前后出现其他的峰,如果存在一定杂合度,会导致在主峰对应的横坐标的二分之一处出现杂合峰,而一定的重复度则会在主峰对应的横坐标的整数倍处出现重复峰。原创 2024-05-24 23:29:41 · 880 阅读 · 0 评论 -
BUSCO安装及使用(生物信息学工具-019)
Benchmarking Universal Single-Copy Orthologs (BUSCO)是用于评估基因组组装和注释的完整性的工具。通过与已有单拷贝直系同源数据库的比较,得到有多少比例的数据库能够有比对,比例越高代表基因组完整度越好。基于进化信息的近乎全基因单拷贝直系同源基因内容预期,BUSCO指标是对像N50这样的技术指标的补充。使用需要评估的生物类别所属的数据库(从busco数据库下载)比对,得出比对上数据库的完整性比例的信息。组装的基因组、转录组及注释到的基因对应的氨基酸序列等。原创 2024-05-24 00:35:41 · 1044 阅读 · 0 评论 -
康乃馨基因组-文献精读15
康乃馨(Dianthus caryophyllus)是世界上最受欢迎的观赏花卉之一。尽管已有众多关于康乃馨的研究,但花的颜色、香气以及复瓣花的形成机制尚不明确。在这里,我们采用了一种综合多组学方法来阐明康乃馨花卉最重要的观赏性状的遗传和生化途径。首先,我们组装了一个高质量的染色体级康乃馨基因组('Scarlet Queen',636Mb,contig N50为14.67Mb)。接下来,通过多种仪器类型从花的不同部位在多个发育阶段生成了一系列代谢组数据集,以评估色素和挥发性化合物积累的空间和时间差异。原创 2024-05-21 00:18:24 · 995 阅读 · 0 评论 -
茶树(山茶属)CCoAOMT基因家族的全基因组鉴定、表达分析和蛋白质相互作用分析-全基因组家族分析-文献精读13
咖啡酰辅酶A-O甲基转移酶(CCoAOMT)家族在酚类物质的氧化甲基化中起着至关重要的作用,并参与植物的多种生理过程,包括生长、发育和应对压力的反应。然而,对于茶树中CCoAOMT蛋白成员之间的相互作用了解甚少。原创 2024-05-05 00:12:47 · 1488 阅读 · 0 评论 -
二倍体毛白杨(Populus tomentosa Carr.)基因组-春天都是杨树毛子???-文献精读-11
杨树具有广泛的生态地理分布,覆盖北半球,而且种间杂交很常见。毛白杨(Populus tomentosa Carr.)在亚洲东部地区广泛分布和栽培,它在林业、农业、保护和城市园艺中扮演多重重要角色。虽然已有几种杨树的参考基因组,但我们的目标是生成一个非常高质量的毛白杨染色体水平的全新基因组组装,这将作为整个属杂交物种形成的进化和生态研究的参考。在此,我们结合了长读测序和Hi-C支架,呈现了一个高质量的二倍体解析基因组组装。原创 2024-04-26 19:30:32 · 989 阅读 · 0 评论 -
二倍体胡桃树(Juglans regia L.)基因组-文献精读-10
野生种质资源因其特殊的性状表现,对基因挖掘和分子育种至关重要。二倍体解析基因组是全面理解高度杂合物种亚基因组生物学的理想解决方案。本研究调查了中国新疆巩留县的一棵野生胡桃树的基因组,并利用PacBio高保真(HiFi)读取和Hi-C技术,为一个二倍体(hap1)生成了562.99 Mb(contig N50 = 34.10 Mb)的二倍体解析参考基因组,为另一个二倍体(hap2)生成了561.07 Mb(contig N50 = 33.91 Mb)的二倍体解析参考基因组。原创 2024-04-26 15:05:47 · 919 阅读 · 0 评论 -
T2T时代的基因组组装-文献精读-9
Genome assembly in the telomere-to-telomere eraT2T时代的基因组组装,李恒大神的综述,昨天刚出刊,李恒也是samtools、seqtk等的核心作者。seqtk安装与使用-seqtk-1.4(bioinfomatics tools-012)Samtools安装与使用-samtools-v1.17(bioinfomatics tools-007)摘要de novo组装是从测序reads中重构生物体基因组序列的过程。基因组序列对于生物学至关原创 2024-04-23 20:51:33 · 1209 阅读 · 0 评论 -
JCVI-筛选blast最佳结果(生物信息学工具-015)
jcvi即可帮助我们挑选最佳blast比对结果,快快用起来!尤其是数据库注释等操作!原创 2024-04-16 21:04:30 · 1334 阅读 · 0 评论 -
分析染色体级别的基因组装配揭示了六倍体栽培菊花的起源和进化-文献精读-7
六倍体基因组,菊花--钟山紫桂品种六倍体基因组原创 2024-04-10 21:20:35 · 1086 阅读 · 0 评论 -
植物糖基转移酶数据库-23年-地表最强系列-文献精读-6
植物糖基转移酶数据库,糖基转移酶综述必备!原创 2024-04-08 23:01:39 · 955 阅读 · 0 评论 -
端到端单倍型参考基因组揭示了三倍体香芽蕉型香蕉亚基因组的分歧和疾病抵抗力-文献精读-5
三倍体基因组-香蕉原创 2024-04-07 21:28:12 · 1093 阅读 · 0 评论 -
PMAT:使用低覆盖度HiFi测序数据的高效植物线粒体组装工具包-文献精读分享2
一篇关于线粒体组装工具包的文献PMAT:使用低覆盖度HiFi测序数据的高效植物线粒体组装工具包植物的完整线粒体基因组(mitogenomes)是核质互作、植物进化和植物细胞质雄性不育系育种的宝贵资源。然而,由于频繁的重组事件和水平基因转移,完整组装植物线粒体基因组具有挑战性。以前的研究采用Illumina、PacBio和Nanopore测序数据来组装植物线粒体基因组,但组装的完整性差、测序准确度低和高成本限制了样本的采集能力。原创 2024-04-02 15:04:07 · 874 阅读 · 1 评论 -
比较转录组分析揭示了116种山茶属(Camellia)植物的深层系统发育和次生代谢物演化-文献精读分享1
比较转录组,以茶属模式物种进行研究,Comparative transcriptomic analysis unveils the deep phylogeny and secondary metabolite evolution of 116 *Camellia* plants原创 2024-03-31 21:27:15 · 1430 阅读 · 1 评论 -
gffread安装与使用-gffread-0.12.7(bioinfomatics tools-014)
GFF3(General Feature Format version 3)和GTF(Gene Transfer Format)版本2,通常被称为GTF2,是基因组学中用于描述基因和其它特征的文件格式。这两种格式都用于存储有关基因组注释的信息,但它们在结构和用途上有所不同。原创 2024-03-21 21:04:09 · 2676 阅读 · 1 评论 -
seqtk安装与使用-seqtk-1.4(bioinfomatics tools-012)
两款fasta或fastq序列神器-Seqtk和SeqKit!常用生信胶水!原创 2024-03-13 21:05:32 · 2171 阅读 · 0 评论 -
什么是R语言?什么是R包?-R语言001
什么是R语言?什么是R包?R在生物信息学扮演什么角色?原创 2024-03-12 18:57:35 · 1476 阅读 · 1 评论 -
Bowtie2安装与使用-bowtie2-2.5.2(bioinfomatics tools-011)
随着测序速率的增加,对读取比对器的吞吐量要求越来越高。全文分钟索引(full-text minute index)通常用于实现非常快速和内存高效的比对,但这种方法不适合查找较长的、有间隙的比对。Bowtie 2 结合了全文分钟索引的优势和硬件加速的动态规划算法的灵活性与速度,实现了高速度、高灵敏度和高准确性的结合。原创 2024-03-10 23:56:22 · 2642 阅读 · 1 评论 -
diamond安装与使用-diamond-2.1.8(bioinfomatics tools-010)
DIAMOND 是一款用于蛋白质和翻译后DNA搜索的序列比对工具,专为大规模序列数据的高性能分析设计。比BLAST快1w倍!原创 2024-03-09 23:31:14 · 2234 阅读 · 0 评论 -
Hmmer安装与使用-Hmmer-3.3.2(bioinfomatics tools-009)
HMMER是一种基于隐马尔可夫模型(HMM)的深度学习算法,现已成为代替BLAST算法进行基因家族鉴定的有力工具。利用 hmmer 构建隐马尔可夫模型并寻找同源基因。原创 2024-03-08 23:52:37 · 4904 阅读 · 1 评论 -
TransDecoder安装与使用-TransDecoder-v5.7.1(bioinfomatics tools-008)
TransDecoder 去冗余三部曲,这里是和配合trinity使用,可以得到真实的Unigene,为下游PCR或qPCR验证做下铺垫。原创 2024-03-07 21:55:21 · 2300 阅读 · 1 评论 -
cd-hit安装与使用-cd-hit v4.8.1(bioinfomatics tools-005)
CD-HIT (Cluster Database at High Identity with Tolerance) 是一种广泛使用的生物信息学工具,主要用于快速聚类生物序列数据,如蛋白质或核酸序列,以减少数据冗余和简化数据分析。其基本原理涉及比较序列之间的相似性,将高度相似的序列分组到同一个聚类中,从而减少数据集的复杂性。原创 2024-03-03 23:14:57 · 3446 阅读 · 0 评论 -
MAFFT安装及使用-mafft v7.520(bioinfomatics tools-004)
多序列比对是生物信息学的一个重要研究内容,比对结果高度依赖于比对工具的参数设置,包括空位罚分(GOP和GEP)以及替换矩阵。MAFFT多序列比对解决了这个问题。原创 2024-03-02 20:49:52 · 3247 阅读 · 2 评论 -
seqkit安装与使用 v2.5.1(生物信息学工具-003)
SeqKit - 跨平台且极速的FASTA/Q文件操作工具包,生信胶水之一。原创 2024-02-23 23:56:34 · 1575 阅读 · 0 评论 -
fastp安装及使用-fastp v0.23.4(bioinfomatics tools-002)
下一代测序技术产生大量的测序数据,可以用于不同的生物学处理流程如基因组、转录组分析等。但是,不同的流程都需要通过质量控制(Quality Control, QC)以获得高质量、纯净的测序数据,从而使后续处理流程得到的结果更加可靠。--fastp原创 2024-02-22 14:41:27 · 4598 阅读 · 0 评论