nlp
ywangjiyl
这个作者很懒,什么都没留下…
展开
-
Task5 基于深度学习的文本分类2
基于TextCNN、TextRNN的文本表示TextCNN模型搭建self.filter_sizes = [2, 3, 4] # n-gram windowself.out_channel = 100self.convs = nn.ModuleList([nn.Conv2d(1, self.out_channel, (filter_size, input_size), bias=True) for filter_size in self.filter_sizes...原创 2020-08-04 18:46:54 · 112 阅读 · 0 评论 -
Task4 基于深度学习的文本分类1
深度学习也可以用于文本表示,还可以将其映射到一个低纬空间。其中比较典型的例子有:FastText、Word2Vec和Bert。FastTextFastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。所以FastText是一个三层的神经网络,输入层、隐含层和输出层。FastText在文本分类任务上,是优于TF-IDF的:FastText用单词的Embedding叠加获得原创 2020-07-28 09:36:57 · 122 阅读 · 0 评论 -
Task3 基于机器学习的文本分类
基于机器学习的文本分类在本章我们将开始使用机器学习模型来解决文本分类。机器学习发展比较广,且包括多个分支,本章侧重使用传统机器学习,从下一章开始是基于深度学习的文本分类。学习目标学会TF-IDF的原理和使用使用sklearn的机器学习模型完成文本分类机器学习模型机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类对经验进行归纳的过程,机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。机器学习有很多种分支,对于学习者来说应该原创 2020-07-23 20:01:10 · 264 阅读 · 0 评论 -
Task02:数据读取与数据分析
学习目标• 学习使用Pandas读取赛题数据。• 分析赛题数据的分布规律。使用Pandas读取数据Pandas内置了CSV的数据读取接口,所以很容易读取CSV文件,并且形成一个 DataFrame 格式的对象import pandas as pdtrain_df = pd.read_csv('./train_set.csv',sep='\t',nrows=100)第一个参数是文件名,第二个参数是:确定分隔符如果不是想一次性读取所有数据,可以加上 nrows=100,这里是读取前100行内原创 2020-07-22 23:13:13 · 159 阅读 · 0 评论 -
零基础入门NLP之新闻文本分类- Task1 赛题理解
本章将会对新闻文本分类进行赛题讲解,对赛题数据进行说明,并给出解题思路。赛题理解赛题名称:零基础入门NLP之新闻文本分类赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家原创 2020-07-21 18:31:23 · 174 阅读 · 0 评论