生物信息
文章平均质量分 52
主要介绍常用的生物信息学数据库和工具
一穷二白到年薪百万
程序员
展开
-
【单细胞】Scanpy 如何生成一个AnnData对象
【代码】【单细胞】Scanpy 如何生成一个AnnData对象。原创 2024-06-04 10:11:18 · 202 阅读 · 0 评论 -
什么是基因表达谱分析及其相关概念
L1000 技术是整合网络细胞印记库项目(Library of Integrated Network Based Cellular Signatures, LINCS)中使用的低成本基因表达谱测定技术。其考虑基因表达之间的相关性,将需要测量的基因目大幅减小,从而达到控制成本的目的.L1000 技术是挑选 978 个标志基因进行测量,进一步通过构建模型外推出其他基因的表达量。实验数据表明这些标志基因的表达可以代表全基因组 80%的信息。原创 2023-11-15 16:13:06 · 961 阅读 · 0 评论 -
【单细胞】Scanpy进行数据归一化
将数据归一化到mean=0,var=1。如果某个基因没有任何方差,也会被保留,如果设置了zero_center=True,那么会设置为0 ,未来会设置为NaN。否则会丢掉这个基因。原创 2023-02-03 16:04:01 · 379 阅读 · 0 评论 -
【单细胞】Scanpy进行高可变基因的筛选
取出高可变基因,默认使用log的数据,当使用flavor=seurat_v3的时候,采用count data。flavor参数可以选择是使用Seurat,Cell ranger还是seurat v3的算法。Seurat and Cellranger中,使用的是dispersion-based方法,获得归一化的方差。先对基因按照表达量平均值进行分bin,然后计算落在每个bin的基因的离散度(dispersion)的均值和SD,最终获得归一化的dispersion。转载 2023-02-03 15:48:59 · 971 阅读 · 0 评论 -
【单细胞】sc.pp.normalize_per_cell和sc.pp.normalize_total()函数
sc.pp.normalize_per_cell()和sc.pp.normalize_total()功能是一致的。在最新的Scanpy中sc.pp.normalize_total()替代了sc.pp.normalize_per_cell(),具体的情况见参考文献【2】。原创 2023-02-03 15:16:53 · 894 阅读 · 0 评论 -
【单细胞】Python单细胞分析数据结构AnnData
[1][2]Python单细胞分析数据结构——AnnData[3]scanpy 单细胞分析包图文详解 01 | 深入理解 AnnData 数据结构[4]Scanpy(一)AnnData数据结构与一些API用法介绍原创 2023-02-03 10:29:34 · 250 阅读 · 0 评论 -
【单细胞】使用Scanpy进行单细胞数据预处理
【代码】【单细胞数据预处理】使用Scanpy进行单细胞数据预处理。原创 2023-02-03 09:59:27 · 611 阅读 · 0 评论 -
【机器学习】单细胞-ZINB loss(零膨胀负二项分布)
单细胞RNA测序(single-cell RNA-seq,scRNA-seq)数据是非常有特点的数据,具有很高的稀疏性(high sparsity),具体表现为0非常多(zero inflation)。对于数据的分布给出合理的假设是非常关键的工作,是下游分析的基础。显然对于scRNA-seq的reads count数据,最常用的正态分布是不合理的。首先正态分布描述的是连续型数据,而reads count数据是离散的;其次reads count数据的取值只能为非负整数。转载 2023-01-07 20:07:23 · 3734 阅读 · 0 评论 -
基因调控网络及其模型
[1]基因调控网络 (Gene Regulatory Network) 01原创 2022-11-28 10:01:14 · 382 阅读 · 0 评论 -
【药物数据库】DGIdb挖掘可成药基因组
DGIdb数据库(Drug-Gene Interaction database)。它是一个用于挖掘现有资源,产生关于突变基因如何在治疗上被靶向或者优先用于药物开发的假设。它提供了针对一个药物-基因相互作用和潜在“可成药”基因汇编搜索基因列表的一个界面。它可以很好的帮助科学家解释药物基因组学(“Druggable Genome”)的GWAS研究中发现的结果。...转载 2022-08-31 21:08:45 · 1002 阅读 · 0 评论 -
【药物数据库】 Cmap数据库
[1]药物研发利器:基因表达谱数据库 cmap原创 2022-08-12 15:16:51 · 1419 阅读 · 0 评论 -
【Python实现】解析Drugbank文件中的XML
在做Drugbank数据处理时,发现的一个能够解决我问题的开源代码:项目地址以及Test文件,都在: 但是直接上手处理xml格式的文件,对于xml数据的组织形式不熟悉的同志来讲很头疼,并不能够随心所欲的提取自己想提取的各种关联信息。在样例二中我提供一种能够方便提取数据的方法。2 样例二:xml转json格式 首先将xml数据转换成json格式(python的字典格式)的文件,这种处理方式不仅会减小整个drugbank 数据的大小,而且能够很方便的打开文件并且观察定位自己需要的信息,从而快速编写原创 2022-04-06 15:47:08 · 4292 阅读 · 19 评论 -
【Python实现】Smith-Waterman算法快速计算序列相似性
目录1 SW算法介绍2 ssw_aligner环境配置3 项目安装地址4 项目实例4.1Benchmark script:4.2 Input should be DNA type5 参考文献1 SW算法介绍 Smith-Waterman 算法是由 Temple F. Smith 和 Michael S. Waterman 两人在 1981 年提出来的,是 Needleman-Wunsch 算法的改良版,通过算法的比对,能获取到局部最优解。具体的算法这里不做过多解释,详见参考文献[1]。本文关注的主要问原创 2022-04-06 11:22:35 · 2759 阅读 · 0 评论 -
ETCM | 中医药数据库的介绍与使用——中医药百科全书数据库
文章目录简介首页参考文献简介 ETCM是中国中医科学院2018年上线的一个中药综合资源数据库,论文发表于生物信息学顶级学术期刊核酸研究(NucleicAcid Research)。ETCM汇集了402味草药、3959个中药复方、7284种中药化学成分、2266种药物靶标以及4323种相关疾病的信息。其中草药包含产地、药味(酸、苦、甘、辛、咸)、药性(寒、热、温、凉、平)、归经(肺经、肝经等)、适应症、所含成分、质量控制标准等信息;复方包含名称、剂型、组成、适用症、所含成分等信息;成分包含化合物的分子式原创 2021-12-20 11:19:43 · 8371 阅读 · 0 评论 -
Uniport数据库介绍与使用
Uniprot (Universal Protein )是包含蛋白质序列,功能信息,研究论文索引的蛋白质数据库,整合了包括EBI( European Bioinformatics Institute),SIB(the Swiss Institute of Bioinformatics),PIR(Protein Information Resource)三大数据库的资源。EBI( European Bioinformatics Institute):欧洲生物信息学研究所(EMBL-EBI)是欧洲生命科原创 2021-12-05 15:42:26 · 4580 阅读 · 0 评论 -
PyCTD | Python连接CTD数据库查询、下载和处理数据
文章目录1 PyCTD介绍1 PyCTD介绍原创 2021-11-17 15:52:01 · 2050 阅读 · 0 评论 -
CTD数据库(Comparative Toxicogenomics Database)介绍与使用
CTD数据库(Comparative Toxicogenomics Database)整合大量化学物质、基因、功能表型和疾病之间相互作用数据,为疾病相关环境暴露因素及药物潜在作用机制研究提供极大便利,自于2004年发布以来一直是广受好评。该数据库目前更新至2021年版本,总计超过4664万上述相互作用数据,包括超过230万种化学物质、46689个基因、4340个表型和7212种疾病信息。 CTD数据库主要有六大功能: 1. 查询和疾病相关的基因; 2. 查询和疾病相关的化学物质;原创 2021-11-12 15:35:36 · 18483 阅读 · 3 评论