自然语言处理
文章平均质量分 78
一不小心误入此门
Sun_Sherry(停更)
这个作者很懒,什么都没留下…
展开
-
NLP: SBERT介绍及sentence-transformers库的使用
bi-encoder是一种独立编码方式,即输入的两个文本会被分别编码为独立的向量,然后通过计算这两个向量的相似度来判断文本之间的关系。Sentence-BERT(简写SBERT)模型是BERT模型最有趣的变体之一,通过扩展预训练的BERT模型来获得固定长度的句子特征,主要用于句子对分类、计算两个句子之间的相似度任务。三元组网络架构的SBERT模型的任务计算出一个特征,使锚定句和正向句之间的相似度高,锚定句和负向句之间的相似度低。在SBERT中,通过汇聚所有标记的特征来计算整个句子的特征。原创 2024-10-09 21:00:00 · 2621 阅读 · 0 评论 -
NLP:BERT的介绍并使用该模型计算文本相似度
Transformer中的位置编码用于为输入序列中的每个词提供位置信息,以弥补模型中缺少顺序感的缺陷,使模型能够捕捉词汇的相对顺序和位置信息。Transformer中的编码器的作用是提取原句中的特征值。一个编码器的输出作为下一个编码器的输入。原创 2024-09-28 20:04:39 · 1199 阅读 · 0 评论 -
NLP:命名实体识别及案例(Bert微调)
这里使用NER任务中常用的数据集:CoNLL-2003,该数据集最早由 CoNLL(Conference on Computational Natural Language Learning)共享任务发布,广泛应用于自然语言处理中的 NER 任务。该数据集中训练集共14041条,验证集共3250条,测试集共3453。"id": "0",tokens表示文本中的单词。所有的tokens组合起来就是句子的原始文本。NER任务中需要为数据集中的每个单词都会被标注相关的标签。chunk_tags表示短语块标签。原创 2024-09-22 19:19:26 · 1300 阅读 · 0 评论 -
NLP:微调BERT进行文本分类
本篇博客的重点在于BERT的使用。transformers包版本:4.44.2。原创 2024-09-13 21:01:10 · 1157 阅读 · 0 评论 -
Gensim:问题汇总
问题描述:使用LineSentence()方法读取分词后的的文件时,由于文件保存时用的是"ANSI"编码,导致在读文件并训练word2vec时报UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xc4 in position 0: invalid continuation byte.具体如下:from gensim.models import Word2Vec,word2vecimport multiprocessingsentences=li原创 2022-03-18 11:40:50 · 654 阅读 · 0 评论 -
pyhanlp包的安装
1. Windows下安装pyhanlppip install pyhanlp:报错内容如下error: Microsoft Visual C++ 14.0 or greater is required. Get it with “Microsoft C++ Build Tools”: https://visualstudio.microsoft.com/visual-cpp-build-tools/原创 2021-09-30 11:03:35 · 972 阅读 · 0 评论
分享