天池NLP新闻文本分类学习赛心得-Task1

最新推荐文章于 2023-05-18 10:31:58 发布

宿者朽命

最新推荐文章于 2023-05-18 10:31:58 发布

阅读量232

点赞数

分类专栏： NLP学习心得

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46281427/article/details/107498350

版权

NLP学习心得专栏收录该内容

6 篇文章 0 订阅

订阅专栏

天池NLP新闻文本分类学习赛心得-Task1

赛题链接：https://tianchi.aliyun.com/competition/entrance/531810/introduction

赛题数据类似于这样：
心得1

官方将文本数据进行匿名化，防止人为标注数据，我认为这是个蛮好的决策，感觉我大概率需要以一种模糊的状态去对待它，由于样本量大，所占内存也大，用正常的pd.read_csv()方法读取稍微费时，假象以下，每次需要花半分钟读取数据，难受嘛？我是挺难受的。
心得2
心得3

所以我在第一次读取的时候就把他转存为.pkl，这样之后跑起代码来，也不会因为数据无法读取或者耗时太长而苦恼了。

回归正题，NLP归根结底还是一个分类问题，跟普通物体分类而言，多了个语义和语境的区别，要搞懂的这些很难在这较短促的时间内搞定，所以用着别人的模型，做个快乐的调参侠吧。

这次新闻文本分类，总共有14 种标签：
心得4
在数据集中标签的对应的关系如下：{‘科技’: 0, ‘股票’: 1, ‘体育’: 2, ‘娱乐’: 3, ‘时政’: 4, ‘社会’: 5, ‘教育’: 6, ‘财经’: 7, ‘家居’: 8, ‘游戏’: 9, ‘房产’: 10, ‘时尚’: 11, ‘彩票’: 12, ‘星座’: 13}

根据各种分类器完成对匿名字符进行特征提取并生成分类模型，对预测集进行预测分类，我个人还是蛮喜欢和一起组队学习的队友们进行交流，可以加快自己的学习迭代能力，找到更加合适模型。

用机器学习中Tf-idf的方法稍微训练了训练集文本分类模型，由测试集分出来的验证集进行验证，f1分数为 0.83，有点理解NLP的分类思想了。
心得5

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
天池NLP新闻文本分类学习赛心得-Task1

天池NLP新闻文本分类学习赛心得-Task1赛题链接：https://tianchi.aliyun.com/competition/entrance/531810/introduction赛题数据类似于这样：官方将文本数据进行匿名化，防止人为标注数据，我认为这是个蛮好的决策，感觉我大概率需要以一种模糊的状态去对待它，由于样本量大，所占内存也大，用正常的pd.read_csv()方法读取稍微费时，假象以下，每次需要花半分钟读取数据，难受嘛？我是挺难受的。所以我在第一次读取的时候就把他转存为.pk
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。