赛题介绍
- 赛题名称:零基础入门NLP之新闻文本分类
- 个人目标:通过组队学习,个人完成一次有关NLP的入门赛,加深对文本处理有关的理解。
- 赛题任务:完成对新闻文本的分类,本质上是一个字符识别的问题。
数据下载介绍
数据下载链接:零基础入门NLP之新闻分类
一共有3个.csv文件,分别是:train_set.csv、test_a.csv、test_a_sample_submit.csv
数据读取:train_df = pd.read_csv('data/train_set.csv', sep='\t')
,文件的路径按自己的实际来
数据是由标签和新闻内容组成的。标签一共有14个,0-13,对应关系:
{'科技': 0, '股票': 1, '体育': 2, '娱乐': 3, '时政': 4, '社会': 5, '教育': 6, '财经': 7, '家居': 8, '游戏': 9, '房产': 10, '时尚': 11, '彩票': 12, &