生物医学文献文本挖掘语料库、模型及工具速览一

坦帕湾的海盗

已于 2024-08-16 11:04:22 修改

阅读量1.3k

点赞数 21

分类专栏：生物医学&人工智能文本挖掘文章标签：人工智能数据挖掘

于 2024-08-14 14:47:17 首次发布

本文链接：https://blog.csdn.net/weixin_53028400/article/details/141190816

版权

生物医学&人工智能同时被 2 个专栏收录

8 篇文章

订阅专栏

文本挖掘

7 篇文章

订阅专栏

注：速览一包含了十篇文献，主要以PubTator为核心文献，展开到与之相关的文献，快速了解相关工作情况。

1、tmVar: a text mining approach for extracting sequence variants in biomedical literature

《Bioinformatics》2013

tmVar（Text Mining Variants）工具：一个用于从生物医学文献中提取序列变异信息的文本挖掘方法。tmVar的开发是为了应对后基因组时代对复杂疾病序列变异分析和解释的需求，以及协助创建与疾病相关的突变数据库。tmVar工具基于条件随机场（Conditional Random Field, CRF）模型构建。

Figure. 系统概述，包括三个主要部分：预处理（标记化），突变识别（CRF）和后处理（正则表达式模式）

2、tmVar 3.0: an improved variant concept recognition and normalization tool

《Bioinformatics》2022

https://github.com/ncbi/tmVar3

tmVar 3.0 is tmVar的三代改进版。识别更广泛的变体相关实体（例如等位基因和拷贝数变体），并将属于同一基因组序列位置的不同变体组合在一起，以提高准确性。此外，还提供了先进的变异标准化选项。

可识别的变异类型如下：

3、PubTator: a web-based text mining tool for assisting biocuration

《Nucleic Acids Research》2013

之前推文有介绍：https://mp.weixin.qq.com/s/JQj6SWUbmWJFWTSNRVxQAg

4、PubTator central: automated concept annotation for biomedical full text articles

《Nucleic Acids Research》2019

PubTator Central (PTC) 是一个用于查看和检索生物医学全文文章中生物概念注释的网络服务。初代PubTator的各方位补强版。

Figure. PTC processing pipeline. PubMed abstracts and PMC-TM full text articles are annotated by multiple concept taggers (A), conflicts/overlapping annotations handled by the disambiguation module (B) and results stored in the database (C).

5、PubTator 3.0: an AI-powered literature resource for unlocking biomedical knowledge

《Nucleic Acids Research》2024

之前推文有介绍：https://mp.weixin.qq.com/s/_VxrIopL324KmkJ-BdHB3g

6、DNorm: disease name normalization with pairwise learning to rank

《Bioinformatics》2013

source code: http//www.ncbi.nlm.nih.gov/CBBresearch/Lu/Demo/DNorm

DNorm，首个用于生物医学文本中疾病名称标准化的机器学习方法。该方法使用NCBI疾病语料库和MEDIC词汇表，结合了MeSH®和OMIM两个数据库。DNorm基于成对学习排序（pairwise learning to rank, pLTR），这是一个在信息检索中用于解决大型优化问题的技术。

pipeline:

7、NCBI disease corpus: A resource for disease name recognition and concept normalization

《Journal of Biomedical Informatics》2014

NCBI疾病语料库，一个由793篇PubMed摘要组成的集合，这些摘要在提及和概念层面上都经过了完全标注，作为生物医学自然语言处理社区的研究资源。

公开获取：http://www.ncbi.nlm.nih.gov/CBBresearch/Dogan/DISEASE/

8、GNormPlus: An Integrative Approach for Tagging Genes,Gene Families, and Protein Domains

《BioMed Research International》2015

GNormPlus，一个端到端的开源系统，用于检测生物医学文本中的基因提及和标识符。研究团队创建了一个新的包含694篇PubMed文章的语料库，手动注释了基因名称及其标识符，以及对基因名称消歧有用的相关概念，如基因家族和蛋白质域。GNormPlus 集成了几种先进的文本挖掘技术，包括 GenNorm、SR4GN、Ab3P 和 SimConcept，用于提高性能。