天池-NLP文本分类挑战赛（1）

An_ich

已于 2023-11-14 21:04:33 修改

阅读量89

点赞数

文章标签：自然语言处理分类人工智能机器学习算法 python nlp

于 2023-11-13 23:40:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_62891098/article/details/134388457

版权

NLP介绍

Stanford CS 224N | Natural Language Processing with Deep Learning

CS224U: Natural Language Understanding - Spring 2023

GitHub - graykode/nlp-roadmap: ROADMAP(Mind Map) and KEYWORD for students those who have interest in learning NLP

NLP实现方法

1、传统机器学习方法：预处理、特征工程、模型

2、深度学习方法：预处理、模型

文本分类的流程

文本预处理、特征提取、文本表示和分类器

特征提取、文本表示将文本处理成模型能识别的形式

1、lower，转大小写

2、punctuation，剔除标点符号

3、tokenization，分词

4、stop words，去除停用词

5、lemmatize，替换通用单词/去除时态

6、将文本转化为向量

7、进行截取或填充

预训练词向量：可以使用现有的预训练模型对语料进行训练，常见的词向量包括：fasttext、word2vec、glove和bert

TFIDF

N-gram：

语言模型，利用滑动窗口的思想统计出现相同字符的频率

Countvectorizer：

将文本进行编码并进行统计

稀疏

向量维度取决于非重复次数

TFIDF公式：

$W_{x,y}=tf_{x,y}*log(N/df_x)$

TF:词频

tf=(某一文档中某一单词出现的次数/该文档中的总词数)

1、进一步筛选单词出现次数

2、只统计单词出现的次数，没有前后关系

IDF：逆文本频率

log(N/df_x)=log（语料库总文档数/包含该词文档的个数）

IF*IDF

当单词次数出现越少时权重越小

当单词出现在不同文档的次数越高，权重越小，用来排除每个文档都使用的无意义词

可以屏蔽每个文档中都使用的套词，留下具有每个文档特点的词

词向量

词向量可以将含义相同的单词映射到含义相同的稠密空间

基础：可以使用字典查表

高阶：使用LSTM或者transformer进行预测

在映射后不容易区分单词的重要性，可以通过衔接LTSM/transformer来确定单词的重要性

Fasttext：

由单词维度转化为句子维度时，对ngram窗口内的单词使用平均池化（mean-pooling）

1、速度快、不要求GPU

2、快速迭代，工业入门方案

在分类的时候采用mean-pooling，在检索的时候可以使用max-pooling目的为得到单词中的最大值

TextCNN:

使用卷积的感受野来代替ngram的作用

TextCNN+FC

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
天池-NLP文本分类挑战赛（1）

1、传统机器学习方法：预处理、特征工程、模型2、深度学习方法：预处理、模型。
复制链接

扫一扫

An_ich CSDN认证博客专家 CSDN认证企业博客

码龄3年

28: 原创

51万+: 周排名

4万+: 总排名

1万+: 访问

: 等级

540: 积分

170: 粉丝

245: 获赞

15: 评论

208: 收藏

私信

关注

热门文章

分类专栏

最新评论

Docker
2301_82243070: 文章构思巧妙，结构紧凑，既有深度又有广度，读后让人受益匪浅，确实是一篇值得一读的佳作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Docker
An_ich: 图崩了不想传了感兴趣的可以留言我看到的话给你PDF
pytorch基础(九)-正则化
CSDN-Ada助手: 非常感谢您的持续创作，这篇关于pytorch正则化的博客内容非常有深度，对读者来说是一次很好的学习机会。下一步，我建议您可以考虑写一些实际应用场景下的pytorch技巧，或者分享一些自己在实际项目中的经验和教训。期待您更多精彩的内容，谢谢！
pytorch基础(七)-学习率
CSDN-Ada助手: 恭喜作者发布了第18篇博客！学习率是一个非常重要的主题，感谢作者分享关于pytorch基础的知识。希望作者能够继续坚持创作，不断分享更多深入的内容，比如模型优化、调参技巧等方面的知识，让读者们能够更全面地了解深度学习。期待作者的下一篇博客！
pytorch基础(八)-TensorBoard
CSDN-Ada助手: 恭喜您写了第19篇博客！标题“pytorch基础(八)-TensorBoard”听起来非常有趣。您的博客内容一直很有深度和实用性，我真的很期待能够阅读您的最新一篇博文。考虑到您对TensorBoard的了解，我想了解更多关于如何使用它来优化深度学习模型的方法。希望您能在下一篇博客中分享一些关于TensorBoard的高级技巧和实践经验。再次感谢您的努力，期待您的下一篇创作！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。