自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 Datawhale零基础入门NLP赛事 - Task5 基于深度学习的文本分类2-1Word2Vec

使用gensim训练word2vecgensim简介1.1 GensimGensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法, 支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。1.2 基本概念1.2.1 语料(Corpus):一组原始文本的集合,用于无监督地训练文本主题的隐层结构。语料中不需要人工标注的附加信息。在Gens

2020-07-31 23:25:43 185

原创 零基础入门NLP赛事-Task2数据读取与数据分析

学习目标 ·学习使用Pandas读取赛题数据 ·分析赛题数据的分布规律1.数据读取 import pandas as pd train_df = pd.read_csv('./train_set.csv',sep='\t',nrows=100) train_df.head(15)使用pandas库中的read_csv函数读取文本数据,.head(15)输出前15行。第一列:新闻类别 第二列:新闻的字符2.句子长度分析在读取完成数据集后,我们还可以对数据集进行数据分析的操作。虽然对于非

2020-07-22 23:16:57 108

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除