生物医学文献文本挖掘语料库、模型及工具速览一

图片

注:速览一包含了十篇文献,主要以PubTator为核心文献,展开到与之相关的文献,快速了解相关工作情况。

1、tmVar: a text mining approach for extracting sequence variants in biomedical literature

《Bioinformatics》2013

tmVar(Text Mining Variants)工具:一个用于从生物医学文献中提取序列变异信息的文本挖掘方法。tmVar的开发是为了应对后基因组时代对复杂疾病序列变异分析和解释的需求,以及协助创建与疾病相关的突变数据库 。tmVar工具基于条件随机场(Conditional Random Field, CRF)模型构建。

图片

Figure. 系统概述,包括三个主要部分:预处理(标记化),突变识别(CRF)和后处理(正则表达式模式)

2、tmVar 3.0: an improved variant concept recognition and normalization tool

《Bioinformatics》2022

https://github.com/ncbi/tmVar3

tmVar 3.0 is tmVar的三代改进版。识别更广泛的变体相关实体(例如等位基因和拷贝数变体),并将属于同一基因组序列位置的不同变体组合在一起,以提高准确性。此外,还提供了先进的变异标准化选项。

可识别的变异类型如下:

图片

3、PubTator: a web-based text mining tool for assisting biocuration

《Nucleic Acids Research》2013

之前推文有介绍:https://mp.weixin.qq.com/s/JQj6SWUbmWJFWTSNRVxQAg

4、PubTator central: automated concept annotation for biomedical full text articles

《Nucleic Acids Research》2019

PubTator Central (PTC) 是一个用于查看和检索生物医学全文文章中生物概念注释的网络服务。初代PubTator的各方位补强版。

图片

Figure. PTC processing pipeline. PubMed abstracts and PMC-TM full text articles are annotated by multiple concept taggers (A), conflicts/overlapping annotations handled by the disambiguation module (B) and results stored in the database (C).

图片

5、PubTator 3.0: an AI-powered literature resource for unlocking biomedical knowledge

《Nucleic Acids Research》2024

之前推文有介绍:https://mp.weixin.qq.com/s/_VxrIopL324KmkJ-BdHB3g

6、DNorm: disease name normalization with pairwise learning to rank

《Bioinformatics》2013

source code: http//www.ncbi.nlm.nih.gov/CBBresearch/Lu/Demo/DNorm

DNorm,首个用于生物医学文本中疾病名称标准化的机器学习方法。该方法使用NCBI疾病语料库和MEDIC词汇表,结合了MeSH®和OMIM两个数据库。DNorm基于成对学习排序(pairwise learning to rank, pLTR),这是一个在信息检索中用于解决大型优化问题的技术。

pipeline:

图片

7、NCBI disease corpus: A resource for disease name recognition and concept normalization

《Journal of Biomedical Informatics》2014

NCBI疾病语料库,一个由793篇PubMed摘要组成的集合,这些摘要在提及和概念层面上都经过了完全标注,作为生物医学自然语言处理社区的研究资源。

公开获取:http://www.ncbi.nlm.nih.gov/CBBresearch/Dogan/DISEASE/

8、GNormPlus: An Integrative Approach for Tagging Genes,Gene Families, and Protein Domains

《BioMed Research International》2015

GNormPlus,一个端到端的开源系统,用于检测生物医学文本中的基因提及和标识符。研究团队创建了一个新的包含694篇PubMed文章的语料库,手动注释了基因名称及其标识符,以及对基因名称消歧有用的相关概念,如基因家族和蛋白质域。GNormPlus 集成了几种先进的文本挖掘技术,包括 GenNorm、SR4GN、Ab3P 和 SimConcept,用于提高性能。

图片

9、Text Mining Genotype-Phenotype Relationships from Biomedical Literature for Database Curation and Precision Medicine

《PLOS Computational Biology》2016

文章提出了一种高性能的机器学习方法,用于自动化地从生物医学文献中提取疾病-基因变异三元组(triplets)。

主要贡献:

(1)开发了一个新颖的框架,用于从文本中提取完整的疾病-基因-变异三元组信息;

(2)提出了一种基于全局上下文的文本挖掘方法来挖掘基因关联;

(3)在十种常见疾病上测试了我们的方法,并使用所有相关的 PubMed 数据;

(4)开发了一个包含 430 个疾病-基因-变异三元组及其对应的 PMID 的新人工注释语料库。

图片

Fig 1. An example showing the complexity of mining triplet information from a PubMed abstract.

图片

Fig 2. Overview of the proposed approach.

10、AIONER: all-in-one scheme-based biomedical named entity recognition using deep learning

《Bioinformatics》2023

之前推文有介绍过:https://mp.weixin.qq.com/s/Sc8AQ0f4MAzI9G95W81Hgg

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值