![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 83
Maann
这个作者很懒,什么都没留下…
展开
-
实战中,BERT如何处理篇章级长文本?
如果考虑性能、只能使用一个Pooling的话,就使用Max-Pooling,因为捕获的特征很稀疏、Max-Pooling会保留突出的特征,Mean-Pooling会将特征打平。通过统计,该任务与主题相关的句子,不到总字数的60%,40%的时间都是在浪费在这些"糟粕"上,同时这些冗余文本也会带来一些噪声,不利于模型的学习。压缩法的宗旨是选取“精华”,去除“糟粕”。转载 2024-02-21 10:08:07 · 625 阅读 · 0 评论 -
基于 chinese-roberta-wwm-ext 微调训练中文命名实体识别任务
是基于RoBERTa架构下开发,其中wwm代表,即对整个词进行掩码处理,通过这种方式,模型能够更好地理解上下文和语义关联,提高中文文本处理的准确性和效果。与原始的BERT模型相比,在训练数据规模和训练步数上做了一些调整,以进一步提升模型的性能和鲁棒性。并且在大规模无监督语料库上进行了预训练,使其具备强大的语言理解和生成能力。它能够广泛应用于各种自然语言处理任务,如文本分类、命名实体识别、情感分析等。我们可以使用这个模型作为基础,在不同的任务上进行微调和迁移学习,以实现更准确、高效的中文文本处理。进到。转载 2024-02-19 14:21:21 · 916 阅读 · 0 评论 -
bert+crf可以做NER,那么为什么还有bert+bi-lstm+crf ?
但由于BERT本身就是all-attention,就是全局的Attention,不存在说哪个token谁离我远,我就注意不到了(BERT原来较LSTM吹的,也是这一点,attention全局建模)。因为对于序列标注问题,假设已经知道前面一个token标签为B-Location, 则下一个token标签大概率是I-Location,而不是O, 这样的问题下,CRF对于前后有依赖(也就是题主说的surrounding predictions),全局的概率转移建模估计更加的合理。关于加上BiLSTM有没有用?转载 2023-08-02 11:31:07 · 425 阅读 · 0 评论 -
nltk分句、分词
使用 nltk 遇到错误from nltk.tokenize import sent_tokenize1.Resource punkt not found.Please use the NLTK Downloader to obtain the resource:原创 2022-02-22 18:17:41 · 1358 阅读 · 0 评论 -
英文段落分句
做nlp的时候,我们数据往往是一篇文章或者一大段文字,在进行其他处理之前,你需要先对文章进行切割或者处理(去除多余字符、特殊符号,分句和分词),或者是分句以句子级别为最小单位进行后续处理。那么如何进行分句呢?比如有下面一段文本:First, it takes time to accomplish a task —— the earlier you begin,the more likely you will reach your goal earlier. Otherwise you call neve原创 2022-02-22 18:02:10 · 426 阅读 · 0 评论 -
NLP关键词提取方法总结及实现
NLP关键词提取方法总结及实现一、关键词提取概述目录 一、关键词提取概述 关键词是能够表达文档中心内容的词语,常用于计算机系统标引论文内容特征、信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支,是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作。 从算法的角度来看,关键词提取算法主要有两类:无监督关键词提取方法和有监督关键词提取方法。 1、无监督关键词提取方法 不需要人工标注的语料,利用某些方法发现文本中比较重要的词作为关键词,进行关键词提取。该方转载 2021-01-22 14:08:32 · 3533 阅读 · 0 评论 -
【推荐架构day8】美团推荐算法的实践篇
转自:https://blog.csdn.net/Ture010Love/article/details/104547139前言推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不采用一定的手段,用户很难从如此多的信息流中找到对自己有价值的信息。解决信息过载有几种手段:一种是搜索,当用户有了明确的信息需求意图后,将意图转换为几个简短的词转载 2020-11-25 17:15:01 · 790 阅读 · 0 评论 -
NLP数据增强技术
集合啦,NLP数据增强技术!超全资源汇总:https://mp.weixin.qq.com/s/I-yeHQopTFdNk67Ir_iWiA中文EDA实现https://github.com/zhanlaoban/eda_nlp_for_Chinese原创 2020-07-24 09:50:15 · 157 阅读 · 0 评论