NLP
weixin_46729859
这个作者很懒,什么都没留下…
展开
-
零基础⼊⻔NLP- 新闻⽂本分类Task6 基于深度学习的⽂本分类3
Bert Pretrain 预训练过程使用了Google基于Tensorflow发布的BERT源代码。首先从原始文件中创建训练数据,下面建立了基于空格的分词器。 class WhitespaceTokenizer(object): """WhitespaceTokenizer with vocab.""" def __init__(self, vocab_file): self.vocab = load_vocab(vocab_file) self.inv_v原创 2020-08-04 14:23:06 · 119 阅读 · 0 评论 -
零基础⼊⻔NLP- 新闻⽂本分类Task5 基于深度学习的⽂本分类2
求近义词和类比词 使用预训练的词向量 import torch import torchtext.vocab as vocab print(torch.__version__) vocab.pretrained_aliases.keys() 1.0.0 dict_keys(['charngram.100d', 'fasttext.en.300d', 'fasttext.simple.300d', 'glove.42B.300d', 'glove.840B.300d', 'glove.twitter.2原创 2020-07-29 16:29:05 · 150 阅读 · 0 评论 -
零基础⼊⻔NLP- 新闻⽂本分类Task4 基于深度学习的⽂本分类1
FastText FastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。 所以FastText是一个三层的神经网络,输入层、隐含层和输出层。 下图是使用keras实现的FastText网络结构: from __future__ import unicode_literals from keras.models import Sequential from keras.lay原创 2020-07-28 16:15:55 · 201 阅读 · 0 评论 -
零基础⼊⻔NLP- 新闻⽂本分类Task3基于机器学习的文本分类
文本表示方法 1.One-hot 我:[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] 爱:[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0] … 海:[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1] 2.Bag of Words 每个文档的字/词可以使用其他出现次数来进行表示。 from sklearn.feature_extraction.text import CountVectorizer corpus = [ 'This is the firs原创 2020-07-27 17:21:20 · 90 阅读 · 0 评论 -
零基础⼊⻔NLP- 新闻⽂本分类Task1 赛题理解
赛题理解 赛题名称:零基础入门NLP之新闻文本分类 赛题链接:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.6.6406111aIKCSLV&postId=118252 赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。 赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。 学习目标¶ 理解赛题背景与赛题数据原创 2020-07-21 21:29:52 · 122 阅读 · 0 评论