NLP学习-Task 1-赛题理解笔记

天池链接:https://tianchi.aliyun.com/competition/entrance/531810/introduction
https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.6.6406111aIKCSLV&postId=118252

内容主要来自:Datawhale_Github

  1. 简介:新闻文本理解,赛题数据理解,解题思路

  2. 赛题名称:零基础入门NLP之新闻文本分类
    目标:预处理,模型构建,模型训练。对新闻文本分类(字符识别)。

  3. 赛题数据:按照字符级别进行匿名处理的新闻文本数据,14个类。
    构成部分:训练集(20w样本),测试集A(5w样本),测试集B(5w样本)
    数据标签:label 0-13,text

  4. 评测指标:类别 f1_score 的均值

  5. 数据读取:使用 Pandas 库读取

  6. 解题思路:文本分类,需要根据每句的字符进行分类。难点是数据匿名化,不能直接使用中文分词等操作,需要建模。

a)思路1:TF-IDF + 机器学习分类器
直接使用TF-IDF对文本提取特征,使用分类器进行分类。分类器可以使用SVM、LR、或者XGBoost。
TF-IDF是一种统计方法,评估一个关键词对数据集的重要程度。TF指关键词在文本种出现的次数或者次数占总词数的比例;IDF指逆向文档频率,包含某个词的文档越少,IDF值越大,说明该词区分能力越强。TF-IDF=TF * IDF,值越大,表示关键词对文本越重要。可以在Sklearn中调用TFIDFVectorizer库实现TF-IDF算法。
机器学习分类器:
SVM:支持向量机,划分超平面,使其对训练样本的局部扰动鲁棒性最好,最大化间隔。
LR:逻辑回归,sigmoid函数。
XGBoost:(原理还没看明白,占位待编辑)
一个参考链接:https://blog.csdn.net/v_JULY_v/article/details/81410574
一个参考视频:https://www.greedyai.com/course/150

b)思路2:FastText
FastText是入门级的词向量,利用Facebook提供的FastText工具,可以快速构建出分类器。

c)思路3:WordVec + 深度学习分类器
WordVec是进阶的词向量,并且通过深度学习分类。深度学习分类的网络结构可以选择TextCNN、TextRNN或BiLSTM。

d)思路4:Bert词向量
Bert是高配版词向量,具有强大的建模学习能力。

总结:之前没有接触过NLP,对这方面的网络和研究方法没有了解,目前只是粗略看了下这些方法的原理,还不是特别明白,在后面具体实践中希望能够加深理解吧。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值