生信分析
文章平均质量分 58
周欣5518
中科院微生物学博士
展开
-
R安装
Linux下的R安装首先看Linux的系统如果是ubuntu系统可以用sudo apt-get install r-base,如果是Centos系统则可以用yum install r-base来安装。 具体编译方式为# configure是 收 集 系 统 信 息 , 生 成Makefile的 过 程# --enable-R-shlib 需 要 设 置 , 使 得 其 他 程 序 包 括Rst...原创 2018-05-18 08:57:16 · 411 阅读 · 0 评论 -
批量获取并保存文件名字Linux
在linux系统中某个盘内有很多文件,当需要提取这些文件的名字时,如果想得到当前目录下,包括子目录中的相关文件时,可以用find命令,然后生成文本。例如:我要找到并保存所有的fastq文件,只需要执行以下命令就大功告成find . -type f -name "*.fastq" > doc.txtless doc.txt...原创 2018-06-08 15:28:10 · 5265 阅读 · 0 评论 -
根据序列ID提取fasta序列
根据序列ID快速抽提fasta序列在进行完序列比对以及,在微生物多样性分析中经常要根据物种信息抽提特定ID的fasta格式的序列文件。传统方法大家肯定是一个个ID去查找,复制,粘贴。这种方法虽然很精确但是效率实在是太低了。如果能用几行命令解决不仅简单高效,而且还能一劳永逸,妈妈再也不用担心我花几天时间在查找序列上了。下面就正式教大家,怎么把两个文件名字不一样的文件中特定想要的序列文件一一匹配并提取...原创 2018-06-15 14:42:23 · 28190 阅读 · 1 评论 -
vim 文本编辑器的使用
在Linux中如何使用vim编辑文本文件vim a.txt按住Enter键进入vim程序界面后,可以查看文件a.txt的内容。若a.txt文件不存在,则文件内的内容是空的。此时的vim程序界面属于正常模式下不能输入字符,可对文件内内容进行浏览或者编辑。 正常模式下不能输入字符,可对文件内容进行浏览或编辑。对文件进行浏览的常用方法:按方向键、字母hjk1HL或滚动鼠标滚轮可以控制光...原创 2018-07-28 12:34:26 · 347 阅读 · 0 评论 -
用在线网站快速构建RaxML系统发育树
今天将给大家介绍一种更为专业的建树方法--用RaxML构建系统发育树。RAxML详细使用介绍:构建进化树的方法常见有:Distance methods (距离法)UPGMA (unweighted pair group method with arithmetic means) Fitch-Margoliash Neighbor-joiningDiscrete cha...原创 2018-09-12 15:40:29 · 24090 阅读 · 3 评论 -
iTOL快速绘制颜值最高的进化树!
[TOC]iTOL简介大家在看高分文章时,总会惊叹于,为什么人家能做出那么好看而且高大上的系统发育树,而且好看的图也能直接提升文章的档次,冲击高分文章。人家的树不管是从配色还是各种注释信息都让人无可挑剔,而你每次花了半个月时间做的进化树不是被老板嫌弃配色丑,就是太单调,没有各种辅助的注释信息。然后你默默捧起别人的文章学习时发现他们绝大部分都是用iTOL这个在线工具来进行的系统发育树...原创 2018-09-29 10:44:55 · 21267 阅读 · 7 评论 -
从宏基因组序列中提取16S序列
实际构建系统发育树中,由于全基因组太大,我们没法对其所有基因进行对齐以及系统发育树的构建,这时候我们可以提取基因组中的一些分子标记基因及保守基因进行系统发育树的构建。 我们用REAGO对shutgun 测序数据中的进行16S序列进行抽提,比如做完质控后的双端fasta序列,那么我们就可以把其对应的16S序列从宏基因组数据中提取出来用于物种鉴定以及系统发育树的构建。优点:从宏基因组中提取...原创 2018-10-23 09:59:15 · 9218 阅读 · 0 评论 -
真菌和细菌高通量测序引物选择
最常用的真菌ITS1区引物细菌内生菌测序引物 进行巢式PCR引物选择及反应条件 一些引物选择相关文献: The fungal primers ITS5-1737-F (5′-GGA AGT AAA AGT CGT AAC AAG G-3′) and ITS2-2043-R (5′-GCT GCG TTC TTC ATC GAT ...原创 2018-11-01 10:06:25 · 16037 阅读 · 1 评论 -
一代测序序列数据批量聚类处理
首先我们将所有一代测序的序列文件都保存在同一个文件夹下,然后用cat命令合并成一个fasta文件。在每条序列第一行插入>for file in .fas; do sed -i “s/>./file” ; done将序列第一和第二行合并awk ‘{tmp=0}’ C1.fasvsearch —cluster_size all_fungi.fa \ —id 0....原创 2018-11-01 10:12:12 · 2168 阅读 · 1 评论 -
Vsearch免费替代收费版的usearch
本文首先发布于“宏基因组”公众号原创。作者:舟行天下编辑:metagenome前言用usearch,這个usearch在序列搜索、聚类、去重、去嵌合体等序列操作有非常重要的作用。它由大神Robert Edgar开发,详情见文章:扩增子分析神器USEARCH简介usearch这个软件的安装以及使用都非常方便,简直就是扩增子测序分析的神器!进入官网USEARCH我们可以看到作...原创 2018-11-02 09:45:34 · 3298 阅读 · 1 评论 -
三代Pacbio进行细菌16S全长测序
做扩增子测序你一定纠结过我到底测细菌的哪个区呢,V3+V4,或者V4+V5?细菌的16S全长一共有V1-V9九个区不管选一个区还是两个区,我们在进行物种注释时都无法将其准确注释到物种水平而仅仅是属水平。这也与目前最为广泛所有的Illumina技术特点有关,尽管其不断发展可以扩大其测序的通量,但其进行测序反应时必须让每个DNA站立结合在Flow cell 上的每个Index上,如果每个DNA长度太长...原创 2018-05-30 14:14:18 · 9901 阅读 · 0 评论 -
网络分析的基本性质
节点 (node):生态网络中的物种连接 (link):用于展示物种之间的联系,也叫边(edge)度(degree):某节点连接其它节点的个数路径(path):从一个节点到达另一个节点所需要通过的所有 节点平均路径长度(Average path length):网络中任意两个节点之间的距离的平均值。其反映网络中各个节点间的分离程度。现实网络通常具有“小世界(Small-world)”特性。聚集系数...原创 2018-06-06 10:21:27 · 5142 阅读 · 0 评论 -
生物多样性概念
1.生物多样性物种多样性是群落生物组成结构的重要指标,它不仅可以反映群落组织化水平,而且可以通过结构与功能的关系间接反映群落功能的特征。生物群落多样性研究始于本世纪初叶,当时的工作主要集中于群落中物种面积关系的探讨和物种多度关系的研究。1943年,Williams在研究鳞翅目昆虫物种多样性时,首次提出了”多样性指数”的概念,之后大量有关群落物种多样性的概念、原理、及测度方法的论文和专著被发表,形成...转载 2018-06-06 09:20:07 · 12213 阅读 · 0 评论 -
快速做韦恩图
快速做韦恩图怎么快速高效的进行韦恩图分析呢, 这里推荐使用两个在线的网站进行分析:网站1:Venny 2.1在这个网站上标准的有四个list,你可以把你不同分组的OTU样品的OTU ID分别放在这四个不同list中,该网站就会直接给出你所需要的维恩图了,是不是特别方便。但其缺点是做多只能做四组的韦恩图。网站1:http://bioinfogp.cnb.csic.es/tools/venny/ind...原创 2018-05-18 15:23:15 · 12271 阅读 · 0 评论 -
β多样性算法
距离方法名称方法特征Bray_curtis考虑物种有无和物种丰度, 不考虑各物种之间的进化关系或关联信息。 Bray_curtis 和bray_curtis_faith是标准化的曼哈顿距离; 而bray_curtis_magurran是定量的sorensen距离Abund_jaccardJaccard距离只考虑物种有无, 而abund_jaccard添加了物种丰度Manhattan/Euclide...转载 2018-05-06 14:16:23 · 12386 阅读 · 1 评论 -
NMDS非度量多维尺度分析
NMDS非度量多维尺度分析简介 非度量多维尺度法是一种将多维空间的研究对象(样本或变量)简化到低维空间进行定位、分析和归类,同时又保留对象间原始关系的数据分析方法。适用于无法获得研究对象间精确的相似性或相异性数据,仅能得到他们之间等级关系数据的情形。其基本特征是将对象间的相似性或相异性数据看成点间距离的单调函数,在保持原始数据次序关系的基础上,用新的相同次序的数据列替换原始数据进行度量型多维尺度...原创 2018-05-11 18:26:04 · 32255 阅读 · 3 评论 -
MicroPIT挑选进行宏基因组测序分析
microPITA基于大量微生物多样性的数据,根据不同指标筛选出代表性样本,开展宏基因组研究,关于microPITA的介绍如下:另:microPITA分析需要您提供otu taxa table,并告知分组情况即可;microPITA 支持2种数据格式:pcl和biom文件。Biom文件大家都很熟悉,主要来介绍一下pcl文件:默认的格式如上图所示:1. 第一行为样品的ID。2. 之后样品的相关信息,...原创 2018-05-30 14:21:55 · 3083 阅读 · 0 评论 -
AI 绘图学习
#### 1.位图和矢量图#### 2.DPI#### 3.RGB颜色模式和CMYK模式电子设备都是三原色原理合成的CMYK:是印刷专用模式,青色,品红色,黄色,黑色插图用于电子用RGB,用于纸质用CMYK常见的矢量格式:AI,EPS,CDR,PDFHSB颜色模式:基于人眼感受能力的色彩调节模式#### 4. 锚点对任何对象都是先选后改铅笔工具:平滑度设为70~80%钢笔工具:每点一次增加一个锚点...原创 2018-05-18 08:39:26 · 2648 阅读 · 0 评论 -
宏基因组分析流程
分析步骤宏基因组Illumina Hiseq PE150/250 测序fastx 进行原始序列统计 ==平台==Seqprep 和Sickle进行质控后数据统计,基于原始测序数据,使用相应软件对其进行数据质控,剪切掉数据中的低质量及含N的reads,获得后续分析需要的高质量序列。BWA去宿主后数据统计,去除宿主污染: Plants, Solanum_lycopersicumMultiple_Meg...原创 2018-05-21 15:01:20 · 16739 阅读 · 0 评论 -
服务器构建系统发育树
首先要用在线的MAFFT进行AlignmentMAFFT网址复制粘贴所有的fasta序列到文本框中UPPERCASE / lowercase: 选择 Same as input Direction of nucleotide sequences: Help 选择 Adjust direction according to the first sequence (accurate enough ...原创 2018-05-16 11:20:49 · 6472 阅读 · 0 评论 -
WinSCP-服务器与本地电脑互传文件
大家用本地Windows系统登录服务器后,有时需要在服务器与本地之间传输一些文件,如果大家不想用命令行进行传输,可以下载一个WinSCP软件进行传输,该软件使用非常方便能随时实现文件的快速传输。WinSCP的下载地址下载完成后直接点击下载文件进行安装按图标提示,直到安装完成然后在主机名位置填上服务器的IP地址,端口22,你的用户名以及密码,这样就可以在本地windows登陆服务器实现文件的互传了。...原创 2018-05-16 15:45:41 · 4442 阅读 · 0 评论 -
用Pyhton批量改名FASTA文件
比如我们有个fasta格式的序列文件,里面的序列命名格式是点分隔的形式,MI.M03555.0272.001.FLD0001.WWMV01.20, 而我们真正想要的名字是WWMV01.20,那么在处理时我们只需要识别每一条序列中的第二个点就行,然后把第二个点前面,>符号后面的文字都删掉。>MI.M03555.0272.001.FLD0001.WWMV01.20AATACGTAGGGT...原创 2018-06-11 11:15:03 · 6745 阅读 · 0 评论 -
用RDA进行微生物环境因子分析
本文首先发布于“宏基因组”公众号原创。作者:舟行天下编辑:metagenome前言在进行微生物多样性分析时,大家一定会做α,Β多样性分析。α多样品通俗来讲就是样本内的物种多样性。Β多样性是指在地区尺度上,物种组成沿着某个梯度方向从一个群落到另一个群落的变化率。即沿着某一环境梯度,物种替代的速率、物种周转率等。排序的过程是将样品或微生物物种排列在一定的空间, 使得排序轴能够...原创 2018-11-02 09:48:36 · 34114 阅读 · 7 评论