天池链接:https://tianchi.aliyun.com/competition/entrance/531810/introduction
https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.6.6406111aIKCSLV&postId=118252
内容主要来自:Datawhale_Github
-
简介:新闻文本理解,赛题数据理解,解题思路
-
赛题名称:零基础入门NLP之新闻文本分类
目标:预处理,模型构建,模型训练。对新闻文本分类(字符识别)。 -
赛题数据:按照字符级别进行匿名处理的新闻文本数据,14个类。
构成部分:训练集(20w样本),测试集A(5w样本),测试集B(5w样本)
数据标签:label 0-13,text -
评测指标:类别 f1_score 的均值
-
数据读取:使用 Pandas 库读取
-
解题思路:文本分类,需要根据每句的字符进行分类。难点是数据匿名化,不能直接使用中文分词等操作,需要建模。
a)思路1:TF-IDF + 机器学习分类器
直接使用TF-IDF对文本提取特征,使用分类器进行分类。分类器可以使用SVM、LR、或者XGBoost。
TF-IDF是一种统计方法,评估一个关键词对数据集的重要程度。TF指关键词在文本种出现的次数或者次数占总词数的比例;IDF指逆向文档频率,包含某个词的文档越少,IDF值越大,说明该词区分能力越强。TF-IDF=TF * IDF,值越大,表示关键词对文本越重要。可以在Sklearn中调用TFIDFVectorizer库实现TF-IDF算法。
机器学习分类器:
SVM:支持向量机,划分超平面,使其对训练样本的局部扰动鲁棒性最好,最大化间隔。
LR:逻辑回归,sigmoid函数。
XGBoost:(原理还没看明白,占位待编辑)
一个参考链接:https://blog.csdn.net/v_JULY_v/article/details/81410574
一个参考视频:https://www.greedyai.com/course/150
b)思路2:FastText
FastText是入门级的词向量,利用Facebook提供的FastText工具,可以快速构建出分类器。
c)思路3:WordVec + 深度学习分类器
WordVec是进阶的词向量,并且通过深度学习分类。深度学习分类的网络结构可以选择TextCNN、TextRNN或BiLSTM。
d)思路4:Bert词向量
Bert是高配版词向量,具有强大的建模学习能力。
总结:之前没有接触过NLP,对这方面的网络和研究方法没有了解,目前只是粗略看了下这些方法的原理,还不是特别明白,在后面具体实践中希望能够加深理解吧。