零基础入门NLP新闻文本分类
布丁咩咩
这个作者很懒,什么都没留下…
展开
-
零基础入门NLP-Task6 基于深度学习的文本分类3
Transformer 原理我们重点关注编码部分。他们结构完全相同,但是并不共享参数,每一个编码器都可以拆解成两部分。在对输入序列做词的向量化之后,它们首先流过一个self-attention层,该层帮助编码器在它编码单词的时候能够看到输入序列中的其他单词。self-attention的输出流向一个前向网络(Feed Forward Neural Network),每个输入位置对应的前向网络是独立互不干扰的。最后将输出传入下一个编码器。这里能看到Transformer的一个关键特性,每个位置的词仅仅原创 2020-08-04 20:24:40 · 229 阅读 · 0 评论 -
零基础入门NLP-TASK5基于深度学习的文本分类2
TextCNN#模型搭建self.filter_sizes = [2, 3, 4] # n-gram windowself.out_channel = 100self.convs = nn.ModuleList([nn.Conv2d(1, self.out_channel, (filter_size, input_size), bias=True)for filter_size in self.filter_sizes])#前向传播pooled_outputs = []for i in原创 2020-07-31 23:05:27 · 118 阅读 · 0 评论 -
零基础入门NLP-Task4基于深度学习的文本分类1
介绍Fast TextFast Text是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。首先进行fast text的安装方法一:电脑在本地的cmd输入pip install -i https://pypi.tuna.tsinghua.edu.cn/simple fasttext方法二:参考:https://blog.csdn.net/qq_17814041/article原创 2020-07-27 23:10:42 · 135 阅读 · 0 评论 -
零基础入门NLP-TASK3基于机器学习的文本分类
在处理自然语言问题时,需要将文字处理为计算机可以理解的语言,由于文本长度不定,因此需要进行词嵌入(Word Embedding)。词嵌入将不定长的文本转换到定长的空间内,是文本分类的第一步。常见词嵌入方法:one-hot这里的One-hot与数据挖掘任务中的操作是一致的,即将每一个单词使用一个离散的向量表示。具体将每个字/词编码一个索引,然后根据索引进行赋值。One-hot表示方法的例子如下:句子1:我 爱 北 京 天 安 门句子2:我 喜 欢 上 海首先对所有句子的字进行索引,即将每个字确定一原创 2020-07-25 22:36:21 · 112 阅读 · 0 评论 -
零基础入门NLP-Task2数据读取与数据分析
数据读取数据的每一列都是以\t为分割的字符import pandas as pddata=pd.read_csv('train_set.csv',sep='\t')data.head()数据可视化与分析新闻长度分析train_df['text_len']=train_df['text'].apply(lambda x: len(x.split(' ')))print(train_df['text_len'].describe())每条新闻平均由907个字符构成,最短的长度为2,最长原创 2020-07-22 22:28:09 · 232 阅读 · 0 评论 -
零基础入门NLP赛事-Task1赛事理解
赛题名称:零基础入门NLP新闻文本分类赛题数据赛题的数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。为了防止选手人工表注测试集的情况,官方将比赛数据的文本按照字符级别进行了匿名处理:{‘科技’: 0, ‘股票’: 1, ‘体育’: 2, ‘娱乐’: 3, ‘时政’: 4, ‘社会’: 5原创 2020-07-21 19:40:28 · 151 阅读 · 0 评论