自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (1)
  • 收藏
  • 关注

原创 群体进化,群体结构分析之STRUCTURE分析三款软件比较

STRUCTURE分析三款软件比较三篇高引用文章2005-STRUCTURE【1】 把选k值写的很清楚 2020/5/16 引用13119这篇文章发表的时候二代测序还没兴起,ssr等的标记数量有限,计算机的性能也有限,是一个即有windows版又有linux版的软件因为其开发时的应用场景,这个软件在几千以内的标记时运行还是可以接受的,但是现在动辄几百万标记的全基因组重测序的动植物数据来说,时间消耗是非常巨大的这篇文章的正文详细讨论了最优k值的选择的问题,感觉这个还是很有用的最优

2020-05-16 22:54:37 5591 2

原创 二代测序群体进化-GWAS分析及案例解析

群体进化-gwas分析群体进化基础分析PCA分析原理PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密...

2020-03-07 10:58:55 10336 4

原创 二代测序基础知识

二代测序基础知识二代测序基础概念(这个是与二代测序相关每个部门都要掌握的)FQ数据格式高通量测序(如Illumina HiSeqTM/MiseqTM)得到的原始图像数据文件经CASAVA碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称之为 Raw Data或Raw Reads,结果以 FASTQ (简称为fq)文件格式存储,其中包含测序...

2020-02-27 14:23:32 36198 1

原创 linux间免密登录

生成公钥ssh-keygen -t rsa不改名字生成authorized_keys ##将对方要连接的计算机的公钥放入id_rsa ## 私钥id_rsa.pub ## 公钥known_hosts ## 已知的主机公钥清单注意:.ssh目录的权限必须是700.ssh/authorized_keys文件权限必须是600上述操作必须在两个要连接的电脑或者集群中都进行操作...

2021-07-27 10:17:36 144

原创 从fastq到群体结构分析软件及使用方法

比对分析bwabwa mem -t 6 -k 32 -M -R "@RG\tID:saample\tLB:sample\tSM:sample" fa fq_R1.fq.gz fq_R2.fq.gz |samtools view -b -S ->sample.bam# bwa index进行基因组建index排序,因为后续处理都需要按照基因组顺序进行排序samtools sort bam > out.bam进行捕获数据的提取和统计samtools view -@

2020-06-28 21:12:21 1726

原创 perl排序算法实现之选择排序,内插排序,归并排序

实现#!/usr/bin/perluse strict;use warnings;## 生成100以内的10000个随机数my @arr;for(my $i=0;$i<10000;$i++){ my $num=int(rand(100)); push @arr,$num;}## 不同方法排序,并记录时间my $time1 = time;my @sort1 = &sort_selected(@arr);my $time2 = time;my @sort

2020-06-15 22:13:21 520

原创 群体变异数据vcf文件过滤概念及使用方法

标记过滤指标概念miss 缺失率,即标记缺失的比例 一般过滤0.1或者0.2;对于简化基因组的也有进行0.5的过滤的,看具体需求了maf 最小等位基因频率 一般过滤0.05或者0.01DP 深度,reads支持数 这个要根据具体测序的情况最好过滤到4,7,10以上,然后对于深度高于平均深度3-5倍的,尽量也进行过滤,因为大概率是重复区域的情况GQ 基因型质量值 一般gatk过滤30,samtools过滤20AD ref,alt基因型情况 如果是动植物这种germline的变异一般要求比例不要太失

2020-05-19 20:12:28 14262 2

原创 二代测序(NGS)常用数据格式

fa基因组文件,记录每条染色体或者contig的序列信息samtools faidx 后面跟fa文件,可以对其进行建立fai文件及基因的索引文件>1 dna:chromosome chromosome:AGPv4:1:1:307041717:1 REFTTTTCGACAAAAATGGGGTTGTGTGGCCATTGATCATCGACCAGAGGCTCATACACCTCACCCCACATATGTTTCCTTGCCATAGATCACATTCTTGGATTTCTGGTGGAGACCATTTCT

2020-05-09 10:12:27 8260 1

原创 Python 学习笔记-基础数据结构介绍

Python 学习笔记-1写在最前面,因为组内小伙伴要走,生信团队由原来的7个人,慢慢的变的只有我一个人了,需要紧急突击下python,因为有python的流程要交接维护python 基本情况代码块的结构使用缩进进行区分,这下倒是不用担心忘记末尾的结束标志“;”了;但是引入了一个小问题,更改复杂代码时,结构调整的问题面向对象编程,强调代码的复用行和跨脚本的调用丰富的资源库是个保障...

2020-05-01 15:57:12 265

原创 perl语言入门学习

perl语言入门学习简介Perl 是 Practical Extraction and Report Language 的缩写,动物代表骆驼标志创始人:拉里·沃尔(Larry Wall),1987年12月18日发表借用了C,esd,awk,shell脚本以及其他编程语言的特性最最要的是集成了正则表达以及极其灵活的哈希的使用,巨大的第三方代码库CPAN现在使用的perl为perl5的版...

2020-04-25 21:18:43 1024

admixture,软件下载

最近打开admixture的下载页面有问题,这个是我之前下载的,只是为了回答一个问题,所以进行上传,并不是我写的哈,64位,linux的

2020-05-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除