NLP
Ray.L
这个作者很懒,什么都没留下…
展开
-
NLP实践(新闻文本分类)-数据读取与数据分析
数据读取与数据分析读取数据数据分析句子长度分析新闻类别分类字符分布统计统计出现频率最多的字符数据分析结论总结读取数据赛题数据虽然是文本数据,每个新闻是不定长的,但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。import pandas as pdtrain_df = pd.read_csv('train_set.csv', sep='\t', nrows=100)#这里的read_csv由三部分组成,第一个为路径,第二个为分割符,第三个为读取行数(这里训练集比较大,因此原创 2020-07-22 09:32:53 · 1226 阅读 · 0 评论 -
NLP实践(新闻文本分类)-赛题理解及思路
赛题理解及赛题思路赛题理解数据获取赛题思路赛题理解数据获取这次比赛是天池NLP入门级的比赛,操作和往常一样。先报名,再拿数据。注意一下标准。赛题思路由于赛题给出的数据是匿名化的,因此我们无法使用分词等操作提取关键词来简单预测,我们可以使用的是对文本提取特征的分类器或者是深度学习分类器,综合我们有如下思路:思路1:TF-IDF + 机器学习分类器:直接使用TF-IDF对文本提取特征,并使用分类器进行分类。在分类器的选择上,可以使用SVM、LR、或者XGBoost。思路2:FastTe原创 2020-07-20 22:16:20 · 725 阅读 · 0 评论