生物信息学
文章平均质量分 79
让学习成为一种生活方式
中国医学科学院&北京协和医学院研究生一枚,生物信息学+合成生物学欢迎交流。如切如嗟,如琢如磨!
展开
-
基因组挖掘指导天然药物分子的发现-文献精读34
具有巨大化学多样性的天然产物为药物开发提供了无可比拟的小分子文库,从中诞生了大量的药物或先导化合物。由于众多抗生素药物集中发现于20世纪50年代左右,这一时期被称为天然产物发现的“黄金时代”[153然而,自20世纪后期以来,天然产物来源的药物出现了大幅下降,这一方面是由于小分子化学合成技术的进步和高通量筛选平台的出现,更重要的是,传统的天然产物发现策略导致了大量高丰度化合物的重复出现,而低丰度或不可培养微生物中的资源却难以得到发掘[154。原创 2024-07-25 19:29:39 · 554 阅读 · 0 评论 -
列当科比较寄生基因组-文献精读32
列当科是最大的寄生植物科,包括自养植物和具有各种寄生程度的寄生植物。因此,它是迄今为止研究植物寄生起源和进化的最佳科属。在此,我们提供了三个列当科植物的高质量基因组:自养植物绿春钟萼草(Lindenbergia luchunensis)和全寄生植物埃及列当(Phelipanche aegyptiaca)以及向日葵列当(Orobanche cumana)。将这三个基因组与之前发布的基因组以及其他列当科物种的转录组进行系统基因组学分析,建立了列当科的稳健系统发育框架。原创 2024-07-25 15:55:37 · 892 阅读 · 0 评论 -
核酸电泳相关配制-TAE缓冲液及琼脂糖凝胶-实验操作系列-4
是使溶液具有一定的导电性,以利于DNA分子的迁移,例如,一般电泳缓冲液中应含有0.01-0.04 mol/L的Na+离子,Na+离子的浓度太低时电泳速度变慢;通常使用的琼脂糖浓度在0.7%至2%之间,取决于核酸片段的大小: 大片段(1kb以上):0.7%-1%琼脂糖凝胶 中等片段(500bp-1kb):1%-1.5%琼脂糖凝胶 小片段(100bp-500bp):1.5%-2%琼脂糖凝胶。3. 加入EDTA:称取37.2克EDTA(二钠盐,二水合物,Na2EDTA·2H2O ),加入溶液中。原创 2024-07-23 15:46:24 · 630 阅读 · 0 评论 -
实验室常用抗生素配制--实验操作系列-3
庆大霉素(Gentamycin)、利福平(Rifampicin)、羧苄青霉素钠(Carbenicillin)配置及工作浓度同卡那霉素(Kanamycin)(50mg/ml)。超净台中:0.5g硫酸卡那霉素粉末 + 10mL无菌水充分溶解后经 0.22μm滤膜过滤,分装至1.5mL灭菌离心管中,保存于-20℃。超净台中:1g氨苄青霉素钠盐粉末 + 10mL无菌水充分溶解后经0.22μm滤膜过滤,分装至1.5mL灭菌离心管中,保存于-20℃。母液浓度:100mg/mL,工作浓度100μg/mL。原创 2024-07-23 00:09:37 · 183 阅读 · 0 评论 -
minimap2安装与使用(v 2.28)生物信息学工具26
Minimap2 是一个多功能的序列比对程序,可以将 DNA 或 mRNA 序列与大型参考数据库进行比对。对于约 10kb 的噪声读长序列,minimap2 比主流长读长比对程序(如 BLASR、BWA-MEM、NGMLR 和 GMAP)快几十倍。对于大于 100bp 的 Illumina 短读长,minimap2 的速度是 BWA-MEM 和 Bowtie2 的三倍,并在模拟数据上同样准确。映射长的噪声基因组读长。如果你为不同的数据类型运行 minimap2,可能需要保留使用不同参数生成的多个索引。原创 2024-07-17 00:40:32 · 1139 阅读 · 0 评论 -
挂载硬盘相关操作-linux004
【代码】挂载硬盘相关操作-linux004。原创 2024-07-16 14:56:24 · 90 阅读 · 0 评论 -
过滤非起始密码子终止密码子的序列-linux005
根据基因组、转录组获取了一些蛋白序列,但是存在可变剪切的情况,即一些序列并没有起始密码子或者终止密码子,这时候要过滤去掉这些序列。即,过滤可变剪切,保留唯一序列。原创 2024-07-16 16:25:32 · 267 阅读 · 0 评论 -
StringTie v2.2.3安装与使用-生物信息学工具25
StringTie使用高效的算法从对齐到参考基因组的批量RNA-Seq读取中恢复转录结构并估计其丰度。它以坐标排序的SAM/BAM/CRAM格式输入剪接对齐,并生成一个GTF输出文件,该文件包含组装的转录结构及其估计的表达水平(FPKM/TPM和碱基覆盖值)。和trinity assembly效果等同。均为转录本组装软件,使用一个即可~StringTie:高效的转录组装和RNA-Seq数据定量工具。原创 2024-07-14 19:58:35 · 448 阅读 · 0 评论 -
conda创建、查看、激活、退出、删除环境--linux002
【代码】conda创建、查看、激活、退出、删除环境。原创 2024-07-12 21:54:16 · 564 阅读 · 0 评论 -
枸杞糖基转移酶--文献精读31
lycibarbarspermidines类化合物是一类特殊的苯酰胺类糖苷,其特征是具有多个糖基取代的二咖啡酰亚胺核心,并作为枸杞中的主要生物活性成分。迄今为止,对于包括二咖啡酰亚胺在内的苯酰胺类化合物糖基化的酶基础知之甚少。在此,我们鉴定出五种lycibarbarspermidines类化合物的糖基转移酶,LbUGT1-5,它们是首个苯酰胺型糖基转移酶,并催化二咖啡酰亚胺的区域选择性糖基化,以形成结构多样的lycibarbarspermidines类化合物。原创 2024-07-12 16:43:08 · 1101 阅读 · 0 评论 -
甘蔗基因组--文献精读30
甘蔗是一种具有重要经济和工业价值的作物。然而,由于其高倍性和两个亚基因组之间广泛的重组,栽培甘蔗的超复杂基因组仍未得到解决。在这里,我们为杂交甘蔗品种中蔗1号生成了染色体级、单倍型解析的基因组组装。该组装包含10.4 Gb的基因组序列和68,509个注释基因,这些基因分布在99条原始染色体和15条重组染色体中的两个亚基因组中。RNA-seq数据分析显示,与糖积累相关的基因家族主要从ZZSO亚基因组扩展出来。然而,响应pokkah boeng病易感性的基因主要来自ZZSS亚基因组。原创 2024-07-11 22:27:24 · 452 阅读 · 0 评论 -
模式物种葡萄基因组(T2T)--文献精读29
葡萄是全球最具经济重要性的作物之一。然而,以往版本的葡萄参考基因组通常由成千上万个片段组成,缺失着丝粒和端粒,限制了重复序列、着丝粒和端粒区域的可及性,以及这些区域中重要农艺性状的遗传研究。在此,我们利用PacBio HiFi长读长序列为品种PN40024组装了一个从端粒到端粒(T2T)无间隙的参考基因组。该T2T参考基因组(PN_T2T)比12X.v0版本长69 Mb,且鉴定出更多的9018个基因。我们注释了67%的重复序列、19个着丝粒和36个端粒,并将之前版本的基因注释整合到PN_T2T组装中。原创 2024-07-11 21:08:56 · 605 阅读 · 0 评论 -
Blast安装及使用-Blast+2.14.0(bioinfomatics tools-001)
BLAST一般在国内生物信息学专业教材中数据库和序列比对相关章节,并且众多生物化学和分子生物学教材中基因组与比较基因组学相关内容也已单独成章。通过测序获得基因、甚至基因组序列,也已成为分子生物学实验室的常规实验方法。原创 2024-02-21 21:11:57 · 2997 阅读 · 1 评论 -
gffread安装与使用-gffread-0.12.7(bioinfomatics tools-014)
GFF3(General Feature Format version 3)和GTF(Gene Transfer Format)版本2,通常被称为GTF2,是基因组学中用于描述基因和其它特征的文件格式。这两种格式都用于存储有关基因组注释的信息,但它们在结构和用途上有所不同。原创 2024-03-21 21:04:09 · 2676 阅读 · 1 评论 -
seqkit安装与使用 v2.5.1(生物信息学工具-003)
SeqKit - 跨平台且极速的FASTA/Q文件操作工具包,生信胶水之一。原创 2024-02-23 23:56:34 · 1575 阅读 · 0 评论 -
R迅速切换目录 -R语言002
【代码】R迅速切换目录 -R语言002。原创 2024-07-02 01:02:27 · 233 阅读 · 0 评论 -
GlimmerHMM安装与使用-生信工具24
GlimmerHMM是一种基于广义隐马尔科夫模型(GHMM)的新型基因预测工具。虽然该基因预测工具符合GHMM的总体数学框架,但它还结合了从GeneSplicer程序中改编的剪接位点模型。可变长度的特征状态(例如外显子、内含子、基因间区域)是使用Nth-order插值马尔科夫模型(IMM)实现的,如Delcher等人1999年所描述的,N=8。目前,GlimmerHMM的GHMM结构包括每个相位的内含子、基因间区域和四种类型的外显子(起始外显子、内部外显子、终止外显子和单独外显子),如下图所示。原创 2024-07-02 00:52:25 · 770 阅读 · 0 评论 -
光荚含羞草基因组-文献精读26
光荚含羞草起源于热带美洲,具有独特的叶片运动特征,其运动速度相对较慢。此外,这种植物还具有固氮能力。尽管这些特性引人入胜,但由于缺乏光荚含羞草的基因组资源,相关综合研究一直受阻。原创 2024-07-01 20:14:34 · 883 阅读 · 0 评论 -
五种肉苁蓉属植物叶绿体基因组-文献精读25
肉苁蓉属是列当科的重要属类,具有重要的药用、经济和防治荒漠化的价值。然而,肉苁蓉属的系统发育关系尚不清晰。迄今为止,还没有有效的分子标记能够有效区分报道的肉苁蓉属近缘种类。在本研究中,我们获得并表征了来自中国的四种肉苁蓉属植物的叶绿体基因组,以澄清该属内的系统发育关系,并开发用于物种鉴定的分子标记。原创 2024-07-01 15:39:20 · 1068 阅读 · 0 评论 -
readfq安装与使用(生物信息学工具-023)
一些简单的基准测试结果:将包含 2500 万个 100bp 读数的 FASTQ 转换为 FASTA,FASTX-Toolkit(仅解析 4 行 FASTQ)耗时 325.0 CPU 秒,EMBOSS 的 seqret 耗时 247.8 秒。对于脚本语言的用户,建议直接复制粘贴函数,而不是将 readfq 作为库使用。桂元苗. 面向蛋白互作预测的序列数据特征识别研究[D]. 中国科学技术大学, 2019. DOI:10.27517/d.cnki.gzkju.2019.000074.原创 2024-06-22 00:44:02 · 896 阅读 · 0 评论 -
MEME使用-motif分析(生物信息学工具-24)
在DNA或蛋白的同源序列中,不同位点的保守程度是不一样的,一般来说,对DNA或蛋白质功能和结构影响比较大的位点会比较保守,其它位点则不是很保守。motif最先是通过实验的方法发现的。张国莉,周倩怡,余小奎,等. 基于转录组的大蒜水通道蛋白基因家族的鉴定与分析 [J/OL]. 分子植物育种, 1-26[2024-06-20]. http://101.42.170.182:8085/kcms/detail/46.1068.S.20240614.1749.008.html.原创 2024-06-20 14:15:04 · 2530 阅读 · 0 评论 -
P450Rdb: CYP450数据库--地表最强系列--文献精读24
细胞色素P450酶(P450s)被公认为世界上最具多样性的催化剂,在所有生物界的众多生物代谢和生物合成过程中发挥着至关重要的作用。尽管数据库中有大量的P450基因(超过300,000个),但只有少部分(不到0.2%)经过功能表征。原创 2024-06-15 10:00:11 · 1178 阅读 · 0 评论 -
破布叶(Microcos paniculata)单倍型染色体级别基因组-文献精读22
布渣叶(Microcos paniculata)是一种传统上用作民间药物和制作草药茶的灌木。之前对该物种的研究主要集中在其化学成分和药用价值上。然而,缺乏参考基因组限制了对该物种活性化合物分子机制的研究。在此,我们基于PacBio HiFi和Hi-C数据组装了M. paniculata的单倍型解析染色体级别基因组。组装包含两个单倍体基因组,大小分别为399.43 Mb和393.10 Mb,Contig N50长度分别为43.44 Mb和30.17 Mb。约99.93%的组装序列可以锚定到18条伪染色体。原创 2024-06-13 21:14:10 · 1110 阅读 · 0 评论 -
QUAST安装及使用v5.2.0(Bioinformatics工具-022)
当前的 QUAST 工具包包括通用的基因组组装工具 QUAST,元基因组数据集扩展 MetaQUAST,用于大基因组(如哺乳动物)的扩展 QUAST-LG,以及用于这些工具的交互式可视化工具 Icarus。通过计算各种指标来评估基因组的组装,包括N50,L50,GC含量等contig基本信息。QUAST(Quality Assessment Tool for Genome Assemblies)是基因组质量评估工具,基于python开发,matplotlib绘图。该工具接受多个组装,因此适合比较。原创 2024-06-09 00:53:29 · 577 阅读 · 0 评论 -
Cell-在十字花科植物中一年生和多年生开花行为的互相转化-文献精读21
多年生作物的发展对于可持续农业和粮食安全具有重要潜力。然而,年生性和多年生性之间转化的进化过程尚不清楚。在此,我们利用两种十字花科植物,喜马拉雅须弥芥 和 内华达糖芥,作为多次开花多年生模型,揭示了多次开花多年生植物向二年生和一年生开花行为的转变是由三个密切相关的 MADS-box 基因的剂量决定的连续过程。这些基因表达模式、功能强度和组合的多样化使物种具有采用多种生活史策略的潜力。值得注意的是,我们发现这三个基因中的单个基因就足以将冬一年生或一年生的十字花科植物转变为多次开花的多年生植物。原创 2024-06-08 22:54:36 · 1477 阅读 · 0 评论 -
pESC-HIS是什么,怎么看?-实验操作系列-2
质粒类型:酿酒酵母蛋白表达载体表达水平:高拷贝诱导方法:半乳糖启动子:GAL1和GAL10克隆方法:多克隆位点,限制性内切酶载体大小:6706bp5' 测序引物及序列:3' 测序引物及序列:载体标签:C-Flag,C-Myc载体抗性:氨苄筛选标记:His3备注:利用半乳糖诱导,可以同时使两个基因在酿酒酵母中表达,这个就是双表达载体,可以很好的执行一个功能基因和一个协调辅助蛋白基因的表达,发挥两个蛋白的协同作用,比如伴侣蛋白,协调手性形成蛋白等等。原创 2024-06-06 22:21:30 · 458 阅读 · 0 评论 -
pET-28a(+)是什么,怎么看?-实验操作系列-1
带温度标记的质粒图谱详见下载文件,祝PCR顺利!原创 2024-04-23 10:33:38 · 1832 阅读 · 0 评论 -
PMAT(组装线粒体基因组)安装及使用(Bioinformatics工具-021)
PMAT 是一个高效的组装工具包,用于利用第三代(HiFi/CLR/ONT)测序数据组装植物线粒体基因组。PMAT 还可以用于组装叶绿体基因组或动物线粒体基因组。原创 2024-06-05 21:13:05 · 696 阅读 · 0 评论 -
茶树三维基因组-文献精读19
基于PCA的分析(详见在线补充资料中的材料和方法)显示,100 kb分辨率的Hi-C接触数据中,约有48.87%和51.13%的TGY基因组分别属于841个A和826个B区,包含27,642个和17,593个基因,而A和B区的百分比在染色体间存在差异(图1B;图S1,见在线补充资料)。根据环锚点是否与基因重叠,我们将总环细分为55,568个基因间-基因间环、43,383个基因-基因间环和26,453个基因-基因环,这意味着大多数环通过远距离调节元件(富集在基因间区域)与基因之间的相互作用来调节基因表达。原创 2024-06-04 10:36:04 · 790 阅读 · 0 评论 -
光皮树(光皮梾木)基因组-文献精读18
光皮梾木 W. 是一种木本油料植物,含油量高且具有强大的降血脂效果,使其成为中国药用、园林景观和生态目的的宝贵物种。为了推进这一物种的遗传研究,我们利用PacBio和Hi-C数据创建了光皮梾木的草图基因组组装。基于一个锚定了11条染色体的染色体级组装,估计基因组大小为843.51 Mb。N50 contig大小和N50 scaffold大小分别计算为4.49 Mb和78.00 Mb。此外,注释了30,474个编码蛋白基因。比较基因组学分析显示,光皮梾木在大约12.46百万年前(Mya)与其最近的物种分化。原创 2024-06-03 16:43:32 · 893 阅读 · 0 评论 -
桃金娘T2T基因组-文献精读17
桃金娘(Rhodomyrtus tomentosa)是桃金娘科的重要肉质果树和著名的药用植物,广泛种植于世界热带和亚热带地区。然而,由于缺乏参考基因组,桃金娘的进化和基因组育种研究受到阻碍。在此,我们使用PacBio和ONT长读长测序技术,提出了桃金娘的染色体级无缺口T2T基因组组装。我们组装了大小为470.35 Mb的基因组,contig N50约为43.80 Mb,共有11条拟染色体。在该基因组中注释了33,382个基因和239.31 Mb的重复序列。原创 2024-05-30 22:15:09 · 751 阅读 · 0 评论 -
红花基因组-文献精读27
红花(Carthamus tinctorius)因其种子和花朵而在全球广泛种植。种子中的亚油酸(LA)和花中的水溶性红花黄A(HSYA)是红花可用于工业和药用的关键性状。了解这些性状的遗传控制对于优化红花的品质及其育种至关重要。为了推进这项研究,我们呈现了一种红花品种“川红花1”的染色体级基因组组装,该组装是通过整合Illumina、Oxford Nanopore和Hi-C测序技术实现的。我们获得了1.17 Gb的组装,其contig N50为1.08 Mb,并将所有组装序列分配到12个拟染色体上。原创 2024-05-30 16:44:30 · 1080 阅读 · 0 评论 -
桑树T2T基因组-文献精读16
桑树是全球蚕桑产业的基本组成部分,其对我们的健康和环境的积极影响不可低估。然而,之前报道的桑树参考基因组存在未组装或未定位的序列。在这里,我们报道了桑树种植川桑的端到端无间隙参考基因组的组装和分析,该基因组已成为桑树基因功能研究和遗传改良的重要参考。本研究产生的桑树无间隙参考基因组为我们研究着丝粒的结构和功能提供了前所未有的机会。我们的结果显示,所有桑树的着丝粒区域都共享具有不同拷贝数的保守的着丝粒卫星重复序列。引人注目的是,我们发现川桑是一种具有多中心染色体的物种,也是迄今为止唯一报道的多中心染色体物种。原创 2024-05-30 09:29:52 · 1037 阅读 · 0 评论 -
jellyfish安装及使用(Bioinformatics工具-020)
K是常数,且一般为奇数(避免正反链混淆)。统计所有reads中所出现的k-mer类型及各类型k-mer的深度(或者频率),绘制特定k-mer下不同深度k-mer片段的频数统计图,通常选择K-mer分布最多的峰为主峰,从而得到基因组大小=K-mer总数/K-mer主峰深度值。由于基因组存在杂合位点和重复序列,k-mer曲线往往不会呈现出良好的泊松分布,而是在主峰前后出现其他的峰,如果存在一定杂合度,会导致在主峰对应的横坐标的二分之一处出现杂合峰,而一定的重复度则会在主峰对应的横坐标的整数倍处出现重复峰。原创 2024-05-24 23:29:41 · 880 阅读 · 0 评论 -
BUSCO安装及使用(生物信息学工具-019)
Benchmarking Universal Single-Copy Orthologs (BUSCO)是用于评估基因组组装和注释的完整性的工具。通过与已有单拷贝直系同源数据库的比较,得到有多少比例的数据库能够有比对,比例越高代表基因组完整度越好。基于进化信息的近乎全基因单拷贝直系同源基因内容预期,BUSCO指标是对像N50这样的技术指标的补充。使用需要评估的生物类别所属的数据库(从busco数据库下载)比对,得出比对上数据库的完整性比例的信息。组装的基因组、转录组及注释到的基因对应的氨基酸序列等。原创 2024-05-24 00:35:41 · 1044 阅读 · 0 评论 -
茶树(山茶属)CCoAOMT基因家族的全基因组鉴定、表达分析和蛋白质相互作用分析-全基因组家族分析-文献精读13
咖啡酰辅酶A-O甲基转移酶(CCoAOMT)家族在酚类物质的氧化甲基化中起着至关重要的作用,并参与植物的多种生理过程,包括生长、发育和应对压力的反应。然而,对于茶树中CCoAOMT蛋白成员之间的相互作用了解甚少。原创 2024-05-05 00:12:47 · 1488 阅读 · 0 评论 -
bwa安装及使用v0.7.17(生物信息学工具-018)
BWA是一个用于将DNA序列比对到大型参考基因组(如人类基因组)的软件包。它包含三种算法:BWA-backtrack、BWA-SW和BWA-MEM。第一个算法设计用于 Illumina 测序读取长度最长为100bp,而后两个用于更长序列,范围从70bp到几百万碱基。BWA-MEM和BWA-SW具有类似的特性,如支持长读取和嵌合比对,但通常建议使用BWA-MEM,因为它更快、更准确。对于70-100bp的Illumina读取,BWA-MEM的性能也比BWA-backtrack更好。原创 2024-04-30 21:01:19 · 2548 阅读 · 0 评论