NGS
ZHEFXC
这个作者很懒,什么都没留下…
展开
-
使用preseq计算文库复杂度以及估计加测量
在评估下机数据的时候,如果发现数据去重复之后无法达到目标覆盖度,那么就需要进一步加测。然而,有些文库复杂度很低,即使加测很多数据也无法得到更多的有效信息。那么如何评估文库复杂度,判断是否有加测的必要呢?使用preseq软件可以实现根据现有测序数据评估已测序数据的复杂度,以及整个文库的复杂度。其中子命令c_curve可以方便的计算现有测序数据中总测序量(total reads)与 有效数据量(...原创 2019-09-19 09:04:14 · 1244 阅读 · 0 评论 -
BWT 算法和序列比对的基本实现
昨天晚上和今天抽空实现了Burrows Wheleer Tansform,并且尝试利用BWT,将短序列比对到长序列中。BWT的核心我觉得是要理解两个原则:1. F序列的每个元素是下标对应的L元素的后一位。2. 排序后,F中第一个A和L中第一个A是同一个A。(排序不改变相对位置),公共前缀不改变排序位置。mapping 过程实现的非常基础,只能全序列不对,不能有gap。#!/us...原创 2019-09-28 15:05:04 · 2447 阅读 · 0 评论 -
解析 pumbed的xml
meta分析中需要调研大量文献, pubmed数据库是主要来源,但是pubmed导出的文本文件,可读性非常差,并且考虑到需要对文献进行筛选和标记,xlsx是个很好的选择.下面代码是把xml转化为xlsx#!/usr/bin/env python3'''解析 pubmed 导出的xml文件,并且转换成xlsx格式'''import sysimport xml.et...原创 2019-10-11 15:04:09 · 1172 阅读 · 1 评论