自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 GMAP一款比对工具用于ALLHiC构建等位基因表

GMAP,一款比对工具,可用于ALLHIC过程中构建等位基因表。

2022-10-21 22:37:09 608 1

原创 Minimap2:三代比对工具

Minimap2:李恒大神开发的三代比对工具。

2022-10-15 13:00:29 2391

原创 Seqkit:强大的序列处理工具

序列处理必备神器,组学研究中的强大的胶水功能。

2022-10-14 10:48:15 722

原创 RepeatMasker基因组重复序列检测工具安装及使用

一. RepeatMasker简介:基因组组装完成后,进行基因预测和注释。由于基因组中存在重复序列结构区,特别是高等真核生物,重复序列占了相当大的比例,会影响基因预测的质量,也会带来不必要的资源消耗,因此在基因预测前,首先要检测并屏蔽基因组中的重复序列。不过,也有一些人在注释基因组重复序列结构时,也可能是专注于某些特定研究,例如,某些重复元件可能参与了重要功能,我们期望定位它们的位置,这种情况下需要识别精准。那么,这时候就得使用检测重复序列的工具了,先来学习RepeatMasker。RepeatMasker

2022-06-23 16:56:58 2571 3

原创 BUSCO 评估基因组组装质量和完整性工具使用

BUSCO是Benchmarking Universal Single-Copy Orthologs(通用单拷贝同源基因基准)的缩写,基于基因进化(有参比对)评估基因组组装和注释完整性的开源python软件。其对接结果的评估与 quast 不同,它并不追求基因组拼接的长度,而关注的是是否将一些单拷贝直系同源基因拼接出来。在相近的物种之间总有一些保守的序列,而 BUSCO 就是使用这些保守序列与组装的结果进行比对,鉴定组装的结果是否包含这些序列,包含单条、多条还是部分或者不包含等等情况来给出结果。BUSCO

2022-06-15 11:13:34 4511 2

原创 利用Minia软件对基因组测序二代数据的初步组装

一.Minia简介基因组组装一般分为三个水平,contig, scaffold和chromosomes。contig表示从大规模测序得到的短读(reads)中找到的一致性序列,组装的第一步就是从短片段(pair-end)文库中组装出contig。进一步基于不同长度的大片段(mate-pair)文库,将原本孤立的contig按序前后连接,其中会调整contig方向以及contig可能会存在开口(gap,用N表示),这一步会得到scaffolds, 就相当于super-contigs和meta-contigs。

2022-06-09 19:08:30 962 1

原创 初识BioNano图谱技术

最近看文献,发现有的文章在组装过程中同时依赖了BioNano图谱和Hi-C技术来进行辅助组装,学习一下BioNano技术。BioNano图谱也好,Hi-C也好,都是用来将Scaffold来锚定到染色体上,辅助组装。那么先回顾一下在这两个技术之前所用的方法。1、传统锚定方法传统的染色体锚定方法有基于物理图谱和遗传图谱的两种方式,前者主要是通过序列的重叠关系来确定Scaffolds在染色体上的位置信息,后者主要是利用减数分裂时期的姐妹染色单体联会后的重组率来判断Scaffolds在染色体的排序和方向。在实际操作

2022-06-05 12:05:00 1244

原创 Hi-C测序及测序数据特征

利用Hi-C 技术测序时,首先空间上距离相近的染色质被甲醛分子固定在一起,然后染色体上的序列被特定的限制性内切酶剪切,产生的切割位点通过连接酶连接并进行标记,然后 DNA 分子经纯化、获取被标记位点的序列,最后经二代高通量测序就可以获得标记位点的序列(图 1-5)[1]。通过Hi-C 测序技术可以获得同一染色体上位置相邻较远(如 1 Mb)的测序序列对[2],也可以获得位于不同染色体上的测序序列对。通过 Hi-C 技术测得的测序序列对具有两个基本特性:(1)同一染色体上的测序序列对的交互频率随着距离增加递减

2022-06-01 17:04:50 1284

原创 linux之实体链接与符号链接-ln 命令

链接档(link):就是类似Windows 系统底下的快捷方式!第一个属性为 [ l ](英文L 的小写),例如 [lrwxrwxrwx]。背景知识:在 Linux 底下的链接档有两种,一种是类似 Windows 的快捷方式功能的文件,可以让你快速的链接到目标文件(或目录);另一种则是透过文件系统的 inode 链接来产生新档名,而不是产生新文件!这种称为实体链接 (hard link),又叫做硬链接。首先需要知道linux中文件存储的方式,是文件名和文件内容单独分开存储在硬盘上的。每个文件的文件内容被分配

2022-05-26 20:43:01 242

原创 Hi-C测序简介及文库制备

前一段时间,和导师交流实验进展,导师问我Hi-C的结果大约得多久才出来,我想着Hi-C测序本质上还是二代测序,参考二代测序建库及测序的时间,说得一周吧,同时和公司确定了一下,结果公司说至少得一个月,非常惊讶,咋这么慢,公司说建库很复杂,用时间比较多,中间还有小数据上机测序,评估过程等等。和公司要了一些建库的学习材料,结合网上的一些资料,学习了下Hi-C建库过程,越看发现需要学习的东西越多。一、Hi-C技术简介:染色体是遗传信息的携带者,占据独立的细胞和区域,可它们并不是随机的结构,具有高度的组织性(Lanc

2022-05-25 12:59:11 2446

原创 有趣的孤雌生殖-核内有丝分裂

自然界总有一些物种,特别神奇的存在,孤雌生殖的物种绝对可以占据一席之地,这些物种大部分因为之前看起来对人类不那么重要及技术上的限制,研究大都非常有限。孤雌生殖的独特方式完全不同于经典的遗传学理论,其中配子形成过程又分为了几种不同的类型。今天学习一下,一种特殊的孤雌生殖,这种类型物种体细胞为三倍体,但其两性种群却为二倍体,这种物种比如大理石小龙虾、稻水象甲、长角血蜱,其遗传学方式遵循“核内有丝分裂”来完成,先回顾学习一下其概念及可能起源。核内有丝分裂这种生殖现象是在多倍体动物中发现的,中包括澳洲蝗虫,甚至蜥蜴

2022-05-24 20:53:48 270

原创 比较基因组学之-同源基因概念

最近看文献,有两个词Homologs、 Orthologs的含义总是分不清,查了一下,结果需要学习的东西越查越多。直系同源基因 - Orthologous genes (or orthologs),概论参考链接:https://link.springer.com/referenceworkentry/10.1007/978-3-642-27833-4_1731-3Homologs(同源基因): 来源于共同祖先的相似序列为同源序列,强调shared ancestry,即来自共同祖先的基因或蛋白,甚至性状。但是

2022-05-20 10:53:45 1311

原创 莱姆病的传播媒介生物-肩突硬蜱(Ixodes scapularis)基因组测序

摘要:蜱虫能够传播给人类及动物多种病原微生物。研究人员描述了肩突硬蜱(Ixodes scapularis, Say)的基因组特征,该种蜱虫能够引起莱姆病、粒细胞无形体病、巴贝西虫病和其它疾病。肩突硬蜱具有较大的基因组特征,重复DNA序列,逆转录转座子新谱系,其基因结构模式类似于古代后生动物而不是甲壳类动物。其~57%的基因组scaffolds序列得到了注释,得到20,486个蛋白编码基因及与宿主相互反应的扩张的基因家族。研究人员通过对基因组分析,对蜱虫一些独特的寄生过程进行了研究,包括:寻找宿主、长时间的进

2022-05-20 07:55:08 371

原创 核糖体rRNA分类-功能应用-数据库-Silva

一.分类:原核生物的rRNA分三类:5SrRNA、16SrRNA和23SrRNA。真核生物的rRNA分四类:5SrRNA、5.8SrRNA、18SrRNA和28SrRNA。S为大分子物质在超速离心沉降中的一个物理学单位,可间接反应分子量的大小。原核生物和真核生物的核糖体均由大、小两种亚基组成。二.功能1.细菌或原核生物16S rRNA:细菌核糖体RNA(rRNA)有三种类型:5S rRNA(120bp)、16S rRNA(约1540bp)和23S rRNA(约2900bp)。5S rRNA基因序列较短,包含

2022-05-18 16:27:34 5417

原创 BWA比对及Samtools提取目标序列

今天想看一下自己的序列里面会不会有某细菌基因组存在,主要使用BWA和Samtools:bwa主要用于将低差异度的短序列与参考基因组进行比对。主要包含三种比对算法:backtrack、SW和MEM,第一种只支持短序列比对(<100bp),后两种支持长序列比对(70bp~1M),并支持分割比对(split alignment)。MEM算法是最新的也是官方推荐的。BWA-MEM 是一种新的比对算法,用于将测序 reads 或者组装后 contigs 比对至大型参考基因组,例如人参考基因组。它会自动选择局部比

2022-05-13 21:48:07 4710 2

原创 有趣的孤雌生殖

生殖过程,我们都知道的是有性繁殖,即通过父母本产生生殖细胞(例如精子和卵细胞)结合生成受精卵,再由受精卵发育成为新个体的生殖方式,如下图,是脊椎动物主要的繁殖方式。而在物种进化过程中,一些物种还可以通过孤雌生殖方式(又名单性生殖),在没有雄性遗传贡献的情形下由雌性产生的卵产生后代。随着科学家的不断努力,越来越多的物种被发现这种独特的生殖方式,除了常见的植物及昆虫外,还发生在爬行类(蜥蜴、蛇及大头乌龟)及少部分鱼类中,截止在2014年,在爬行类中发现已经有50多种,鱼类如黑龙江流域的银鲫。更有意思的是,来自我

2022-05-09 21:55:57 339

原创 Hi-C技术辅助组装软件Lachesis安装

LACHESIS这个软件名字起得很好,Lachesis是希腊神话众神之一,负责决定生命之线的长度,但是安装起来,却非常折腾生命,很是麻烦。该软件是由shendurelab开发的用于辅助基因组组装的工具,13年发表在nat bio(https://doi.org/10.1038/nbt.2727)上面,也是非常牛了。github地址:https://github.com/shendurelab/LACHESIS我们看一下它的依赖,真多,还对版本有要求,用conda安吧,发现还没有,简直了。。。其中LACHES

2022-05-07 17:00:20 380

原创 Hic-Pro安装

HiC-Pro的作用是把测序文件输出为标准互作图谱,软件非常灵活,不仅可以处理各种不同建库方式的Hi-C数据,也可以处理capture Hi-C数据。昨天安装Hic-Pro软件安装了一天,又是安装R,又是配置Python包,又试了是Conda,还是出问题,总是找不Python依赖:Can not proceed without the required Python libraries, please install them and re-run如下图:晚上给课题组做生信的老师说了一下情况,老师一会就安好

2022-05-07 10:18:49 993

原创 Linux 系统上安装R及加载R包

因为安装Hic-Pro,需要依赖几个R包,比如ggplot2,又依赖>4.0的R,之前安的3.6,再重新安装一遍最新的吧,记录一下,省去了以后再重复查资料的过程。一、先是官网上选择适合自己服务器的R:https://cran.r-project.org/二、下载并解压wget https://cran.r-project.org/src/base/R-4/R-4.2.0.tar.gztar -zxvf R-4.2.0.tar.gz./configure --with-pcre1make  #

2022-05-06 17:02:09 4426 2

原创 Linux基础:软件安装技巧--conda

微信公众号:猪猪生信生信技能树粉丝,不断更新生树学徒作业,以及R语言和Linux学习笔记配置conda频道#一:官方频道conda config --add channels bioconda conda config --add channels conda-forgeconda config --set show_channel_urls yes#二:清华镜像频道c

2022-05-06 11:32:42 1150

原创 Dfam-转座元件TEs数据库

昨天安装RepeatMasker(http://www.repeatmasker.org/RepeatMasker/)这个软件时,官网上提到了两个数据库,一个是Dfam,一个是RepBase,这两数据库都与RepeatMasker一起使用,通过全基因组搜索来识别与数据库中存在同源的序列进行基因组的重复序列注释。第一次见这两个数据库,只好去学习一下,顺便学习了转座元件(TEs)的概念,见公众号文章。先学习一下DfamDfam (http://www.dfam.org/)是一个较RepBase更“年轻”的真核生

2022-05-05 11:36:07 443

原创 基因预测软件-Augustus安装过程

AUGUSTUS is a program that predicts genes in eukaryotic genomic sequences,一款真核生物基因组基因结构预测软件,因为公司用到了这个软件,第一次做这个工作,先重复人家工作,首先就是安装了。发现这个软件依赖还算不少,网上有朋友列了一下有cmake、bamtools、hitslib、samtools、bcftools、tabx, 如果不是依赖的大部分软件还算熟悉,就等着有网后靠conda安装了,自己手动安吧,也算深入学习一下这个软件

2022-05-02 10:56:46 1325 1

原创 Linux安装软件必学之一make编译

最近几天一直在没网的情况下往服务器上安装软件,针对一些软件,简单的解压一下或者make编译完就可以运行,复杂一点的配置下环境变量也还可以,但有一些软件,依赖比较多时,就连编译过程就要去对编译文件进行一些改动,之前都是靠着点一些经验根据报错信息进行改动,昨天遇见一个软件,Augustus,再编译过程中,遇见下图这个问题,/usr/bin/ld: cannot find -lhts ,第一次遇见,反复修改了下编译文件始终没有解决,昨晚睡觉前拿起《鸟哥的Linux私房菜-基础篇》翻了翻,发现我这个软件基于c语言编

2022-05-01 17:18:49 1894

原创 GeneWise 简介及安装方法

       Genewise是Wise2软件的核心程序,在官网上自我介绍时说自己是 Ensembl的pipeline 程序,有网友提到这是一个非常老的软件,最新版本开发出来也有10多年了,但是目前还是有很多公司用他进行基因组注释,我也只好先安装,过段时间有数据了好重复一下公司给反馈的结果。因为时间的原因,这次只记录安装过程。       Genewise主要用于将蛋白质序列和DNA序列进

2022-04-30 21:36:40 989

原创 基因功能预测工具-HMMER的安装

    最近几天需要集中安装软件,尤其是不需要conda安装的,存在依赖的软件,尽量的自己去配置环境变量,针对个别在安装时报错的软件,简单记录一下,等过段时间有了数据后,会再具体的写一些这些软件的具体使用方法,结果解读。先简单说一下HMMER安装过程吧。    从功能基因研究的角度来讲,相关的搜索,比如从序列数据库中,找同源的序列,或者对一个新的基因功能进行鉴定,使用hmmer比使用blast有着更高的灵敏度以及更高的搜索速度,但其应用远没有bla

2022-04-29 20:29:51 3814

原创 GFF/GTF简介及格式转换

最近做转录组的比对时,在建立索引过程中,遇见一个问题,就是我从ncbi下载的序列文件和gtf文件中,染色体命名规则竟然不一样,但序列文件和gff文件染色体命名规则是一样的,具体来说:序列文件和GFF文件中染色体位置以GWHAMMI开头,可是,gff文件又没办法直接和基因组fasta文件搭配使用,只好将 gff文件转gtf文件了。gff和gtf格式都可以储存基因信息,有很多共同点,存储信息侧重点又不一样,最主要的是不同的软件对于文件格式的要求不同,有时候你找不到需要的格式文件时,就得用另一个格式文件进行转换,

2022-04-27 16:02:17 5892

原创 Hisat2安装及比对

Hisat2和STAR是目前转录组分析过程中用来做比对的两款主要工具,记得有一篇好像是2017年的文章专门比较了几款转录组比对工具对结果的影响,结论中认为两款软件在实际使用过程中对结果影响及耗时区别不大,我认为选一款就可以,之前总是用STAR,今天试一下Hisat2。一、官网下载软件及安装:https://daehwankimlab.github.io/hisat2/在Download页面,可以看到Hisat2非常友好地提供了二进制的程序及Index(比对时的索引文件),省去了后续的一些小麻烦。下载完后un

2022-04-27 15:58:13 8336 1

原创 Trimmomatic对下机数据进行质控

要对下机数据做质控,去接头,去除低质量碱基序列,之前总是用trimmomatic,发现学校服务器上没有这个软件,只好再重新下载、安装,重新学习一下当时用的参数都是啥意思,能不能再优化一下。附:实验室老师用的是另一款质控、剪切一条龙的软件fastp,查了一下fastp, 优点蛮多的,鉴于时间比较紧张,先不比较两者对结果的影响了。一、软件下载及安装  下载地址     http://www.usadellab.org/cms/index.php?page=trimmoma

2022-04-27 15:55:35 1057

原创 集群和节点的概念及pestat 命令

       在更换服务器后,相比以往在医院工作时用的服务器,现在提交命令时需要指定计算节点,为了理解大家在pbs脚本中的一些命令行,又补充学习了一下linux系统的基础知识。集群和节点的概念:集群(cluster)就是一组计算机,它们作为一个整体向用户提供一组网络资源。其中单个的计算机系统就是集群的节点(node)。一个理想的集群是,用户从来不会意识到集群系统底层的节点,在他/她们看来,集群是一个系统,而非多个计算机系统。并且集群系统的管理员可以

2022-04-27 15:51:55 3529

原创 关于人类参考基因组及注释文件,一篇就够了

最近随着课题进展拿到二代测序数据,想要在学校通过VPN连接之前工作单位时的服务器传输数据进行生信分析,传输成功的可能性几乎为零,借着这个原由,也下了决心开始启用现在实验室给我分配的的服务器账号,意味着我在之前单位安装的软件、下载的数据库都需要重新安装、下载(为了更新一下),当然,课题接下来需要用的软件数目和数据库的种类及大小将会成为一个大工程。本想全交给课题组的计算机老师,但两人在沟通两次后,工程量太大,决定两个人一块来整,祈祷宿舍早点能够执行晚11点关门的政策……最先下载的当属人类参考基因组了, 21年前

2022-04-27 15:42:18 1609

利用宏基因组数据组装某物种基因组一组装篇.docx

利用宏基因组数据组装某物种基因组一组装篇.docx

2023-03-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除