生物信息
文章平均质量分 54
zhu_si_tao
这个作者很懒,什么都没留下…
展开
-
生物信息中坐标文件到底是0-based 还是 1-based?
生物信息中坐标文件到底是0-based 还是 1-based?常见的坐标文件0-based1-based常见的坐标文件常见的坐标文件包括BAM,SAM,VCF, GFF, BED,等生物信息文件UCSC参考0-based0起始的坐标系统,表示序列的第一个碱基的坐标是0,这类坐标的区间特点是左闭右开,例如3rd 到7th表示为[3,7)。这类文件包括BAM (SAM), BCFv2, BED和PSL格式的文件。1-based1-based 坐标系统序列的第一个碱基编号为1,在这个坐标系统中,一个原创 2022-02-11 10:22:00 · 1058 阅读 · 0 评论 -
群体遗传学--近交系数
群体遗传学中,经常提到群体间自由交配,但是实际中,群体间经常会发生近亲交配,特别上在植物群体中;因此,为了衡量群体的近交程度,近交系数诞生了。近交群体的近交程度,常用群体的平均近交系数度量。二倍体的平均近交系数是指:从群体中随机抽取一个体携带的两个等位基因是同源的概率。假定二倍体群体中等位基因A和a频率分别为p,q,平均近交系数为F,群体中任何个体携带的一对等位基因必然存在或同源,原创 2017-05-09 16:25:56 · 16347 阅读 · 0 评论 -
群体遗传学--Fst指数
群体遗传学中衡量群体间分化程度的指标有很多种,最常用的就是Fst指数。Fst指数,由F统计量演变而来。F统计量(FIS,FIF,FST)主要有三种。Fst是针对一对等位基因,如果基因座上存在复等位基因,则需要用Gst衡量,基因差异分化系数(gene differentiation coefficient,Gst)。假定有s个地方群体,第k个地方群体相对大小为wk,第k个地方群体原创 2017-05-10 00:08:52 · 38993 阅读 · 4 评论 -
群体遗传学--华伦德效应(Wahlund effect)
群体遗传学中,假定生物由一系列地方群体构成,每个地方群体都符合理想群体的条件,但是不同地方群体中等位基因的频率不同,如果将这些地方群体是为一个整体,那么整体中等位基因的频率等于各地方群体中等位基因频率的平均值;但是按照Hardy-Weinberg法则估算的整个群体中纯合体的频率比各地方群体中的纯合体频率的平均值要低。该现象叫Wahlund's effect 或者隔离断裂效应(isolate bre原创 2017-06-27 15:45:24 · 8251 阅读 · 1 评论 -
Annovar 软件注释流程
第一步:下载Annovar上Annovar官网下载(http://annovar.openbioinformatics.org/en/latest/user-guide/download/),现在要邮件注册后才能下载。邮件注册后会给你最新版软件下载地址,下载后文件为annovar.latest.tar.gz。第二步:安装Annovarlinux系统下用该命令解压转载 2017-07-06 11:15:21 · 3506 阅读 · 0 评论 -
多重假设检验与Bonferroni校正、FDR校正
总结起来就三句话:(1)当同一个数据集有n次(n>=2)假设检验时,要做多重假设检验校正(2)对于Bonferroni校正,是将p-value的cutoff除以n做校正,这样差异基因筛选的p-value cutoff就更小了,从而使得结果更加严谨(3)BH校正是对每个p-value做校正,转换为q-value。q=p*n/rank,其中rank是指p-value从小到大排序后的次序。转载 2017-05-02 12:29:34 · 107743 阅读 · 10 评论 -
群体遗传学---admixture软件快速群体分群
群体遗传学中测的很多个个体,得到了最终的SNP vcf文件,需要将其分成群体,看那几个物种聚在一起,一般使用的软件就是STRUCTURE,但是STREUTURE运行速度极慢,后面frappe软件提升了速度,但是也不是很快;admixture凭借其运算速度,成为了主流的分析软件。admixture 软件一共分为5步:# step 1/USER/zhusitao/Software/vcft原创 2017-08-22 16:18:08 · 15363 阅读 · 6 评论 -
SGE作业基本用法
SGE简介:SGE(Sun Grid Engine),远程调度作业。网格,执行任务的计算资源的集合,用户将网格视作单个计算资源。SGE接受由用户提交的作业,并根据资源管理策略将作业安排在网格内适当的系统上执行,用户一次可以提交数千个作业,而不必考虑它们在何处运行。集群网格包括许多计算资源,SGE帮助我们合理的分配计算资源给用户。 SGE工作原理:SGE依据管理者制定的规则,检测...转载 2016-12-12 09:40:01 · 8491 阅读 · 0 评论 -
群体遗传学--哈温定律
群体遗传学中哈迪-温伯格定律的主要内容是指:在理想状态下,各等位基因的频率和等位基因的基因型频率在遗传中是稳定不变的,即保持着基因平衡。①种群足够大;②种群个体间随机交配;③没有突变;④没有选择;⑤没有迁移;⑥没有遗传漂变数学证明:假定群体数量很大:本次世代雄性三种基因型:AA Aa aa P(AA) = PmP(Aa) = QmP(aa) = Rm雌性原创 2017-05-09 16:11:38 · 5743 阅读 · 1 评论 -
两列样本的差异基因筛选
两列样本数据的差异基因筛选方法:FoldChange法+FDR控制其中,FDR值的计算方法如下:1)对每个基因进行p-value的计算假设观测到基因A对应的reads数为x,已知在一个大文库中,每个基因的表达量只占所有基因表达量的一小部分,在这种情况下,p(x)的分布服从泊松分布。已知样本一中唯一比对到基因组的总reads数为N1,样本二中唯一比对到基因组的总reads数为N2,样转载 2017-05-02 12:28:18 · 10617 阅读 · 1 评论 -
windows下Python matplotlib的安装
背景:利用Python画图,就需要用到matplotlib包,windows下安装的Python-2.7版本。依赖的包:1. numpy :http://sourceforge.net/projects/numpy/files/NumPy/1.8.1/;下载其中的numpy-1.8.2-win32-superpack-python2.7;2. scipy:http://sourcefo原创 2016-12-07 10:43:08 · 961 阅读 · 0 评论 -
python 执行系统命令的方法
Python中与Linux交互的主要是os模块,subprocess模块和cammands模块. 1.os.system() # 仅仅在一个子终端运行系统命令,而不能获取命令执行后的返回信息;若在命令行下执行就返回结果至屏幕。 example: 2.os.popen() #能执行命令也能返回结果,结果以文件的形式返回,要读取可以使用文件的方法,f.readl原创 2016-12-22 10:05:19 · 536 阅读 · 0 评论 -
linux查找神器---find
Linux 查找命令是Linux系统中最重要和最常用的命令之一。查找用于根据与参数匹配的文件指定的条件来搜索和查找文件和目录列表的命令。查找可以在各种条件下使用,您可以通过权限,用户,组,文件类型,日期,大小等可能的条件查找文件。 第一部分:查找名称查找文件的基本查找命令第二部分:根据他们的权限查找文件第三部分:基于所有者和组的搜索文件第四部分:根据日期和时间查找文件和目录第五部分原创 2017-04-18 12:38:06 · 554 阅读 · 0 评论 -
R studio常用命令行操作
R 语言的著名的开发应用Rstudio常用的命令行命令:1. 读取和改变目录dir():列出当前目录下的文件,相当于Linux下 ls 命令;getwd():显示当前目录,相当于Linux下 pwd 命令;setwd():改变目录,相当于Linux下的 cd 命令;2.对象管理ls() :列出当前R环境的所有对象;rm(objector 1):删除特定的对象;rm (l原创 2017-05-01 21:07:01 · 6932 阅读 · 0 评论 -
生物信息实用数据库与论坛
生物信息借助计算机的力量,发展的越来越快,生物数据指数级的增长,带来了大量数据库和论坛的诞生;本文介绍一些可用的数据库和生物信息论坛:一.实用论坛:提问解决困难的好地方1. SEQanswers http://seqanswers.com/2. BioStars https://www.biostars.org/3. https://stackoverflow.com/原创 2017-05-02 15:55:25 · 1376 阅读 · 0 评论 -
SOAP 比对解释
SOAP2是SOAP的升级版本,提高了短序列比对的运行速度和精度,同时SOAP2的一个重要改进是支持不同长度的读长。使用步骤:1.用2bwt-builder对fa文件建立索引使用方法:2bwt-builder <sequence file>2.将reads与序列进行比对SE:/Soap/soap2.21release/soap –a <reads_a> -D ...转载 2017-05-03 11:19:07 · 3970 阅读 · 2 评论 -
群体遗传学瓶颈效应bottleneck effect
瓶颈是指生物世代交替的过程中,大群体发生奔溃crash,导致群体内个体数目和遗传变异严重丢失。由于群体经历了瓶颈作用,再扩展到原来大小时,群体中等位基因的频率发生波动,这种效应称为瓶颈效应bottleneck effect。群体经历瓶颈后可能快速重新扩张到原来群体的个体数目,但是群体遗传变异水平不可能恢复大原来的水平,直到通过基因突变或基因流,才能恢复到原来群体的遗传变异水平。当一个群体发生瓶颈效转载 2017-05-03 11:46:22 · 28439 阅读 · 0 评论 -
Blat The BLAST-Like Alignment Tool
blat database query [-ooc=11.ooc] output.psl where: database and query are each either a .fa , .nib or .2bit file, or a list these files one file name per line.转载 2016-11-09 10:42:10 · 1427 阅读 · 0 评论