赛题
赛题名称:零基础入门NLP之新闻文本分类
赛题任务:赛题以自然语言处理为背景,对新闻文本进行分类。
比赛链接
学习目标
去博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片
.
- 理解背景,理解数据
- 比赛报名,数据下载,理解解题思路
解题思路
主要是文本特征提取和文本分类两个任务,可用多种思路组合完成。
- 尝试思路:
TF-IDF + 机器学习分类器
直接使用TF-IDF对文本提取特征,并使用分类器进行分类。在分类器的选择上,可以使用SVM、LR、或者XGBoost。
所遇问题
-数据量大,不能直接将text分列处理
-没有对python基础类型和相应操作的概念,不会处理得到的词list成bow词袋
AttributeError Traceback