2020年12月_穆易青

12月 11月 10月 09月 08月 07月 02月

原创 2020.12.30丨随机读取reads使用ncbi在线工具比对nt数据库

背景：最近有个项目，客户让比对到人的参考基因组，比对率却只有70%左右.为了搞清楚测序数据有没有被污染，我们需要随机读取一些reads，放到nt数据库去比对。之前都是一条一条提交，这种批量提取和提交都会遇到一些问题，因此，写这篇文章进行一个统计。比对流程：随机提取序列→fastq转换fasta→提交序列→统计结果 step.1 随机提取序列使用工具：seqtk 安装方式：conda install seqtk 使用代码： seqtk sample -s 100 Carisma_contro

2020-12-30 16:52:54 2211

原创 2020.12.25丨CRISPResso2安装教程

一个月前接到一个项目，说是做关于CRISPR的编辑效率个性化分析。本来这个分析以前是没有做过的，不过客户发了参考文献。里面流程和命令行都非常清楚，再加上读研期间CRISPR的项目“中道崩殂”，让我对CRiSPR的技术有些执念，便下决心接下来试试。整个测序分析使用的工具就是CRISPResso，，下面介绍最快捷的安装方式。首先，CRISPResso只支持python2.X，不支持3.X你需要下载Anaconda或者miniconda，以Miniconda为例：安装环境： Linux 64-bi

2020-12-25 15:12:52 3615 6

原创 2020.12.19丨根据差异基因ID匹配注释文本脚本

上周遇到一个比较麻烦的项目。物种是一种酵母菌，参考基因组是组装的，并没有像样的gtf文件，使用genemark-ES生成注释文件后，需要对差异基因进行注释。本来之前有一个脚本能够很流畅地处理这个步骤。然而，由于genemark-ES自动生成的geneID在perl脚本中存在bug，个人对perl又不是很熟悉，因此重新写了一个脚本，用于差异基因与注释文本的匹配注释，下面直接上脚本。import csvgenome_file = open('C:/Users/bbplayer/Downloads/ge

2020-12-19 15:17:31 600 1

原创 2020.12.13【读书笔记】丨生物信息学与功能基因组学（第三章双序列比对全局与局部算法）

全局序列比对：Needleman-Wunsch算法该算法的结果是最优化的，但并不是所有可能的比对情况都需要被评估。执行一个穷尽的双序列比对算法需要太多计算资源算法三步骤 step1：设置一个矩阵在二维矩阵中比较两条序列 X,Y轴分别为第一条，第二条序列两条一致的序列的最佳比对可简单地用从左上角到右下角的对角线表示错配仍然在对角线上，但评分会变低空位在这个矩阵中用水平或垂直路径表示 step2：给矩阵打分创建打分矩阵

2020-12-13 23:14:53 1960

原创 2020.12.10【读书笔记】丨Survey二代数据质控

为什么进行Survey 分析？ Survey方案通过质控、 NT 比对，获得高质量的 clean data ，为后续分析奠定良好基础。基因组 Survey 基于小片段文库的低深度测序数据（ 50X 左右通过 K mer 分析，有效的评估基因组大小、 GC 含量、杂合度以及重复序列的含量等信息；全面了解某一物种基因组特征的有效方法；为后续的全基因组 de novo 测序的组装策略的制定提供理论依据。基因组的复杂程度预估 1.普通基因组的定义？单倍

2020-12-10 16:58:28 1457

原创 2020.12.10【读书笔记】丨基因组De novo 产品介绍

基因组De novo 简介基因组定义：基因组就是物种所含有的一套遗传物质单倍体细胞核、细胞器所含的全部 DNA 分子），包括全套基因和间隔序列。基因组观察维度基因组测序基因组测序（ Genome Sequencing）利用测序技术对物种的体内的所有 DNA 分子进行测序，获取碱基组成明确出基因的结构信息，外显子及内含子区域、启动子位置，以及基因的排列顺序及功能。基因组测序技术二代测序：基于 BGI 平台的边合成边测序；三代测序：基

2020-12-10 15:23:56 1328

原创 2020.09.30【RNA-seq流程】丨转录组生信分析全流程

RNA-Seq生信分析全流程摘要第一部分step.1 下载数据step.2 数据质控第二部分step.3序列比对step.4 计算基因表达量step.5 插入片段长度检验step.6 基因表达量从count值转换为FPKM值使用基因组注释，通过R工具包GenomicFeatures获得exon length求reads 总数第三部分step.7 进行各样品分析样品间相关性分析各样品FPKM箱线图各样品FPKM密度分布对比图step.8 差异表达分析step.9 差异基因功能注释获取差异基因注释信息比对基因组

2020-12-10 10:03:17 14746

转载 2020.12.10丨cufflinks 简介及使用说明

一. 简介Cufflinks下主要包含cufflinks,cuffmerge,cuffcompare和cuffdiff等几支主要的程序。主要用于基因表达量的计算和差异表达基因的寻找。Cufflinks程序主要根据Tophat的比对结果，依托或不依托于参考基因组的GTF注释文件，计算出(各个gene的)isoform的FPKM值，并给出trascripts.gtf注释结果(组装出转录组)。注意：1. fragment的长度的估测，若为pair-end测序，则cufflinks自己会有一套算法，

2020-12-10 10:01:53 2286 1

原创 2020.12.03丨全长转录组之基因和转录本鉴定

折叠转录本分析目的：基于基因组比对结果，将相似的多转录本折叠成单个转录本（去冗余） PacBio分析软件： TAMA：https://github.com/GenomeRIK/tama TAMA简介 TAMA（T ranscriptome A nnotation by M odular A lgorithms 是一款设计用于处理 Iso Seq 数据和其他长 reads 转录本数据，该软件 2019 年在预印本在线期刊（ bioRxiv ）发表。 Illuminati

2020-12-03 16:06:23 4806

原创 2020.12.02丨使用dfast工具进行细菌基因组注释

接到一个项目，需要对一个2代细菌全基因组数据进行组装和注释，网上给到了2个软件，Prokka和dfast。我优先安装下载的Prokka，无奈在环境配置上一直没有处理好，查过一些问题后发现可能需要对perl降低版本到5.22，另一个是对Bioperl的安装配置。弄了两天感觉时间成本比较高，转过来尝试使用dfast，虽然过程中也出现不少问题，但最终还是完成了注释过程。接下来就进行一个梳理。使用软件：dfast 安装方式：源码下载：DFAST-core (nig.ac.jp) conda安装：cond

2020-12-02 11:27:01 2013

admixture_linux-1.3.0.zip

admixture早期版本，目前官网已经停止维护，需要进行全基因组关联分析的小伙伴们可以取用。该软件主要用于分析群体结构

2020-10-27

固态硬盘选购一览表.xlsx

定义：俗称固态硬盘，固态硬盘是用固态电子存储芯片阵列而制成的硬盘，因为台湾英语里把固体电容称之为Solid而得名。分类：SSD由控制单元和存储单元（FLASH芯片、DRAM芯片）组成。内含三星、金士顿、西部数据3个品牌常用固态硬盘信息整理

2020-08-28

7.17丨服务器性价比调研表.xlsx

这是一个对虚拟云主流市场调研的一份结果汇总，代表了2020.7时期的各大厂商性能价格比较。包括阿里云、腾讯云、华为云、亚马逊四家虚拟云服务以及和物理服务器在性能，价格方面的比较。

2020-08-05

基因ID转name工作台.xlsx

基因ID转name工作台.xlsx，可以将基因I转化为基因name，使用EXCEL处理，上手快速，很适合收藏一份

2020-02-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人