注:速览一包含了十篇文献,主要以PubTator为核心文献,展开到与之相关的文献,快速了解相关工作情况。
1、tmVar: a text mining approach for extracting sequence variants in biomedical literature
《Bioinformatics》2013
tmVar(Text Mining Variants)工具:一个用于从生物医学文献中提取序列变异信息的文本挖掘方法。tmVar的开发是为了应对后基因组时代对复杂疾病序列变异分析和解释的需求,以及协助创建与疾病相关的突变数据库 。tmVar工具基于条件随机场(Conditional Random Field, CRF)模型构建。
Figure. 系统概述,包括三个主要部分:预处理(标记化),突变识别(CRF)和后处理(正则表达式模式)
2、tmVar 3.0: an improved variant concept recognition and normalization tool
《Bioinformatics》2022
https://github.com/ncbi/tmVar3
tmVar 3.0 is tmVar的三代改进版。识别更广泛的变体相关实体(例如等位基因和拷贝数变体),并将属于同一基因组序列位置的不同变体组合在一起,以提高准确性。此外,还提供了先进的变异标准化选项。
可识别的变异类型如下:
3、PubTator: a web-based text mining tool for assisting biocuration
《Nucleic Acids Research》2013
之前推文有介绍:https://mp.weixin.qq.com/s/JQj6SWUbmWJFWTSNRVxQAg
4、PubTator central: automated concept annotation for biomedical full text articles
《Nucleic Acids Research》2019
PubTator Central (PTC) 是一个用于查看和检索生物医学全文文章中生物概念注释的网络服务。初代PubTator的各方位补强版。
Figure. PTC processing pipeline. PubMed abstracts and PMC-TM full text articles are annotated by multiple concept taggers (A), conflicts/overlapping annotations handled by the disambiguation module (B) and results stored in the database (C).
5、PubTator 3.0: an AI-powered literature resource for unlocking biomedical knowledge
《Nucleic Acids Research》2024
之前推文有介绍:https://mp.weixin.qq.com/s/_VxrIopL324KmkJ-BdHB3g
6、DNorm: disease name normalization with pairwise learning to rank
《Bioinformatics》2013
source code: http//www.ncbi.nlm.nih.gov/CBBresearch/Lu/Demo/DNorm
DNorm,首个用于生物医学文本中疾病名称标准化的机器学习方法。该方法使用NCBI疾病语料库和MEDIC词汇表,结合了MeSH®和OMIM两个数据库。DNorm基于成对学习排序(pairwise learning to rank, pLTR),这是一个在信息检索中用于解决大型优化问题的技术。
pipeline:
7、NCBI disease corpus: A resource for disease name recognition and concept normalization
《Journal of Biomedical Informatics》2014
NCBI疾病语料库,一个由793篇PubMed摘要组成的集合,这些摘要在提及和概念层面上都经过了完全标注,作为生物医学自然语言处理社区的研究资源。
公开获取:http://www.ncbi.nlm.nih.gov/CBBresearch/Dogan/DISEASE/
8、GNormPlus: An Integrative Approach for Tagging Genes,Gene Families, and Protein Domains
《BioMed Research International》2015
GNormPlus,一个端到端的开源系统,用于检测生物医学文本中的基因提及和标识符。研究团队创建了一个新的包含694篇PubMed文章的语料库,手动注释了基因名称及其标识符,以及对基因名称消歧有用的相关概念,如基因家族和蛋白质域。GNormPlus 集成了几种先进的文本挖掘技术,包括 GenNorm、SR4GN、Ab3P 和 SimConcept,用于提高性能。
9、Text Mining Genotype-Phenotype Relationships from Biomedical Literature for Database Curation and Precision Medicine
《PLOS Computational Biology》2016
文章提出了一种高性能的机器学习方法,用于自动化地从生物医学文献中提取疾病-基因变异三元组(triplets)。
主要贡献:
(1)开发了一个新颖的框架,用于从文本中提取完整的疾病-基因-变异三元组信息;
(2)提出了一种基于全局上下文的文本挖掘方法来挖掘基因关联;
(3)在十种常见疾病上测试了我们的方法,并使用所有相关的 PubMed 数据;
(4)开发了一个包含 430 个疾病-基因-变异三元组及其对应的 PMID 的新人工注释语料库。
Fig 1. An example showing the complexity of mining triplet information from a PubMed abstract.
Fig 2. Overview of the proposed approach.
10、AIONER: all-in-one scheme-based biomedical named entity recognition using deep learning
《Bioinformatics》2023