NLP学习-Task 1-赛题理解笔记

最新推荐文章于 2024-09-18 23:17:20 发布

xc194

最新推荐文章于 2024-09-18 23:17:20 发布

阅读量130

点赞数

文章标签：自然语言处理

本文链接：https://blog.csdn.net/xc194/article/details/107470829

版权

天池链接：https://tianchi.aliyun.com/competition/entrance/531810/introduction
https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.6.6406111aIKCSLV&postId=118252

内容主要来自：Datawhale_Github

简介：新闻文本理解，赛题数据理解，解题思路
赛题名称：零基础入门NLP之新闻文本分类
目标：预处理，模型构建，模型训练。对新闻文本分类（字符识别）。
赛题数据：按照字符级别进行匿名处理的新闻文本数据，14个类。
构成部分：训练集（20w样本），测试集A（5w样本），测试集B（5w样本）
数据标签：label 0-13，text
评测指标：类别 f1_score 的均值
数据读取：使用 Pandas 库读取
解题思路：文本分类，需要根据每句的字符进行分类。难点是数据匿名化，不能直接使用中文分词等操作，需要建模。

a）思路1：TF-IDF + 机器学习分类器
直接使用TF-IDF对文本提取特征，使用分类器进行分类。分类器可以使用SVM、LR、或者XGBoost。
TF-IDF是一种统计方法，评估一个关键词对数据集的重要程度。TF指关键词在文本种出现的次数或者次数占总词数的比例；IDF指逆向文档频率，包含某个词的文档越少，IDF值越大，说明该词区分能力越强。TF-IDF=TF * IDF，值越大，表示关键词对文本越重要。可以在Sklearn中调用TFIDFVectorizer库实现TF-IDF算法。
机器学习分类器：
SVM：支持向量机，划分超平面，使其对训练样本的局部扰动鲁棒性最好，最大化间隔。
LR：逻辑回归，sigmoid函数。
XGBoost：（原理还没看明白，占位待编辑）
一个参考链接：https://blog.csdn.net/v_JULY_v/article/details/81410574
一个参考视频：https://www.greedyai.com/course/150

b）思路2：FastText
FastText是入门级的词向量，利用Facebook提供的FastText工具，可以快速构建出分类器。

c）思路3：WordVec + 深度学习分类器
WordVec是进阶的词向量，并且通过深度学习分类。深度学习分类的网络结构可以选择TextCNN、TextRNN或BiLSTM。

d）思路4：Bert词向量
Bert是高配版词向量，具有强大的建模学习能力。

总结：之前没有接触过NLP，对这方面的网络和研究方法没有了解，目前只是粗略看了下这些方法的原理，还不是特别明白，在后面具体实践中希望能够加深理解吧。