![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 85
伪_装
The data determines the upper limit of accuracy and the model determines the lower limit of accuracy.
数据决定精度上限,模型决定精度下限。
展开
-
使用PaddleNLP UIE模型提取上市公司PDF公告关键信息
本项目将演示如何通过PDFPlumber库和PaddleNLP UIE模型,抽取公告中的相关信息。本次任务的PDF内容是破产清算的相关公告,目标是获取受理时间,受理法院,相关公司等内容,作为市场分析的关键数据。原创 2024-02-17 19:04:29 · 1284 阅读 · 0 评论 -
基于BERT模型实现文本相似度计算
在我们的实验中,使用主流的预训练模型BERT,我们成功地实现了文本相似度计算任务。该任务的核心目标是通过BERT模型对输入的两段文本进行处理,并判断它们之间是否具有相似性。BERT模型的双向编码器架构使其能够全面理解文本中的语义关系,而不仅仅是单向的传统模型。通过BERT进行文本相似度计算,我们能够在处理复杂的语境和多义词时取得良好的性能。BERT通过训练过程中的遮蔽语言模型和下一句预测等任务,学习到了丰富的语义表示,这使得它在文本相似度任务中表现出色。原创 2024-01-30 16:09:29 · 2087 阅读 · 2 评论 -
基于BiLSTM-CRF对清华语料文本进行分类
本实验使用BiLSTM-CRF对文本进行分类,最终分类结果达到97%,分类效果较好。LSTM是一种能够对序列数据进行建模的循环神经网络,能够捕捉输入文本的上下文信息。而双向LSTM则是同时考虑正向和反向的上下文信息,进一步提高了模型的上下文信息捕捉能力。RF(Conditional Random Field)是一种无向图模型,能够对序列标注结果进行后验推断,从而更好地处理序列标注问题。在文本分类中,可以将每个单词的特征作为节点,利用CRF进行动态规划解码,找出最优的分类结果。原创 2024-01-30 15:51:46 · 1400 阅读 · 0 评论 -
基于ERNIE3.0模型对小红书评论进行句子级情感分析
本文将基于ERNIE 3.0中文预训练模型对小红书热评进行句子级别情感分析,实现对评论内容输入的文本和输出的每个句子进行对比的情感判断,判断他们具有积极、消极两种情感中的一种。对小红书热门笔记评论进行爬取评论,将得到的评论内容进行预处理、标注(2分类标注和3分类标注)、预处理、分割数据集、导入数据集、加载模型、分词、训练等工作,最后对其模型效果进行测试。原创 2024-01-25 14:25:09 · 1894 阅读 · 1 评论 -
基于SKEP模型和ERNIE模型在情感分析任务上的对比
本文利用千言数据集中ChnSentiCorp酒店评价数据集分别对模型ERNIE_SKEP和模型ERNIE3.0对情感分析任务中的效果进行对比,研究哪种预训练模型的效果更好,最终得到结论:ERNIE3.0模型的效果比ERNIE_SKEP的效果更好,但两者的差别均不是很大。原创 2024-01-21 14:03:12 · 1321 阅读 · 0 评论 -
PaddleNLP评论观点抽取和属性级情感分析
本项目提出了一种细粒度的情感分析能力,对于给定的文本,首先会抽取该文本中的评论观点,然后分析不同观点的情感极性。原创 2024-01-20 13:07:23 · 1395 阅读 · 0 评论 -
情感分析Baseline快速实现
句子级情感分析(NLPCC14-SC,ChnSentiCorp);目标级情感分析(SE-ABSA16_PHNS,SE-ABSA16_CAME);以及观点抽取(COTE-BD,COTE-DP,COTE-MFW)。原创 2024-01-19 15:16:09 · 958 阅读 · 0 评论 -
IMDB电影评论的情感分析——paddle
自然语言是人类传递信息的一种载体,同时它也能表达人类交流时的一种情感。一段对话或者一句评论都能蕴含着丰富的感情色彩:比如高兴、快乐、喜欢、讨厌、忧伤等等。原创 2024-01-18 19:45:10 · 2006 阅读 · 0 评论 -
BiLSTM-CRF的中文命名实体识别
这段代码定义了一个函数load_data(),用于读取存储在文件'../data_target_pkl/renminddata.pkl'中的数据。这段代码的目的是读取并加载pickle文件中的数据,并在main()函数中测试load_data()函数的正确性。NERDataset类是一个自定义的用于存储命名体识别数据的类,继承自torch.utils.data.Dataset。NERLSTM_CRF类是一个自定义的继承自torch.nn.Module的类,用于实现LSTM_CRF模型的前向传播和训练过程。原创 2023-11-29 20:40:18 · 486 阅读 · 0 评论 -
基于深度学习的文本分类
通过构建更复杂的深度学习模型可以提高分类的准确性,即分别基于TextCNN、TextRNN和TextRCNN三种算法实现中文文本分类。原创 2023-11-22 17:54:20 · 307 阅读 · 0 评论 -
FastText模型文本分类
FastText模型文本分类原创 2023-11-20 22:03:04 · 53 阅读 · 0 评论 -
基于N-gram的新闻文本预测
本项目案例使用N-gram语言模型对新闻数据进行训练,在测试阶段,让该模型对句子的不完整部分进行预测,并给出准确率。原创 2023-11-20 21:50:24 · 226 阅读 · 0 评论 -
关键词提取
关键词提取使用的是人民网的粤经济新闻数据,分别实现基于TF-IDF、TextRank和Word2vec词聚类的关键词提取算法。该数据集共包含558个文本文件,每个文件的内容均为标题和摘要。原创 2023-11-16 19:52:41 · 382 阅读 · 2 评论 -
文本离散表示
理解独热编码的原理,掌握词袋模型的实现方法,词频-逆文本频率的实现方法。原创 2023-11-14 22:34:37 · 35 阅读 · 0 评论