零基础入门NLP-Task4基于深度学习的文本分类1

最新推荐文章于 2020-08-04 23:06:38 发布

布丁咩咩

最新推荐文章于 2020-08-04 23:06:38 发布

阅读量128

点赞数

分类专栏：零基础入门NLP新闻文本分类

本文链接：https://blog.csdn.net/zcy0108/article/details/107622150

版权

零基础入门NLP新闻文本分类专栏收录该内容

6 篇文章 0 订阅

订阅专栏

介绍

Fast Text
Fast Text是一种典型的深度学习词向量的表示方法，它非常简单通过Embedding层将单词映射到稠密空间，然后将句子中所有的单词在Embedding空间中进行平均，进而完成分类操作。
在这里插入图片描述
首先进行fast text的安装
方法一：电脑在本地的cmd输入
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple fasttext
方法二：
参考：https://blog.csdn.net/qq_17814041/article/details/80041189
分类模型：

import pandas as pd
from sklearn.metrics import f1_score
# 转换为FastText需要的格式
train_df = pd.read_csv('../input/train_set.csv', sep='\t', nrows=15000)
train_df['label_ft'] = '__label__' + train_df['label'].astype(str)
train_df[['text','label_ft']].iloc[:-5000].to_csv('train.csv', index=None, header=None, sep='\t')
import fasttext
model = fasttext.train_supervised('train.csv', lr=1.0, wordNgrams=2,
 verbose=2, minCount=1, epoch=25, loss="hs")
val_pred = [model.predict(x)[0][0].split('__')[-1] for x in train_df.iloc[-5000:]['text']]
print(f1_score(train_df['label'].values[-5000:].astype(str), val_pred, average='macro'))
#0.82

十折交叉验证划分数据集

label2id = {}
for i in range(total):
	 label = str(all_labels[i])
	 if label not in label2id:
		 label2id[label] = [i]
 	else:
		 label2id[label].append(i)