自然语言处理
浮汐
这个作者很懒,什么都没留下…
展开
-
百度情感分析API批量调用
直接贴代码叭,只要申请了个人百度账号并且改代码内对应的参数就可以直接实现# -*- coding: utf-8 -*-import jsonimport requestsimport pandas as pdimport timepd.set_option('display.max_columns', None)pd.set_option('display.max_rows', None)def get_sentiment_result(text): """ 利用情感倾向原创 2020-11-26 17:02:02 · 1412 阅读 · 3 评论 -
新闻文本分类 - Task6 基于深度学习的文本分类3
基于深度学习的文本分类文本表示Part4Transformer原理Transformer是在"Attention is All You Need"中提出的,模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。他们结构完全相同,但是并不共享参数,每一个编码器都可以拆解成两部分。在对输入序列做词的向量化之后,它们首先流过一个self-attention层,该层帮助编码器在它编码单词的时候能够看到输入序列中的其他单词。self-a原创 2020-08-04 23:48:24 · 723 阅读 · 0 评论 -
新闻文本分类 - Task5 基于深度学习的文本分类2
学习目标学习Word2Vec的使用和基础原理学习使用TextCNN、TextRNN进行文本表示学习使用HAN网络结构完成文本分类文本表示方法 Part3词向量本节通过word2vec学习词向量。word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,我们选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。因此,word2vec模型可以方便地从新增语料中学习到新增词的向量表达,是一种高效的在线学习算法(online learning)原创 2020-08-02 11:52:37 · 234 阅读 · 0 评论 -
新闻文本分类 - Task4 基于深度学习的文本分类1
学习目标学习FastText的使用和基础原理学会使用验证集进行调参文本表示方法 Part2FastTextFastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。所以FastText是一个三层的神经网络,输入层、隐含层和输出层。下图是使用keras实现的FastText网络结构:FastText在文本分类任务上,是优于TF-IDF的:FastText用原创 2020-07-27 21:55:48 · 340 阅读 · 0 评论 -
新闻文本分类 - Task3 基于机器学习的文本分类
学习目标学会TF-IDF的原理和使用使用sklearn的机器学习模型完成文本分类文本表示方法 Part1在机器学习算法的训练过程中,假设给定NNN个样本,每个样本有MMM个特征,这样组成了N×MN×MN×M的样本矩阵,然后完成算法的训练和预测。同样的在计算机视觉中可以将图片的像素看作特征,每张图片看作hight×width×3的特征图,一个三维的矩阵来进入计算机进行计算。但是在自然语言领域,上述方法却不可行:文本是不定长度的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入(Word原创 2020-07-25 21:02:25 · 326 阅读 · 0 评论 -
新闻文本分类 - Task2 数据读取与数据分析
数据读取赛题数据虽然是文本数据,每个新闻是不定长的,但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。import pandas as pdtrain_df = pd.read_csv('../data/train_set.csv', sep='\t', nrows=100)这里的read_csv由三部分构成:读取的文件路径,这里需要根据改成你本地的路径,可以使用相对路径或绝对路径;分隔符sep,为每列分割的字符,设置为\t即可;读取行数nrows,为此原创 2020-07-22 22:16:10 · 579 阅读 · 0 评论 -
新闻文本分类 - Task1 赛题理解
赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。为了预防选手人工标注测试集的情况,我们将比赛数据的文本按照字符级别..原创 2020-07-21 20:38:17 · 242 阅读 · 0 评论 -
安装gensima (Word2vec)
处理词袋模型pip install gensim原节点太慢使用镜像:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple gensim原创 2020-02-07 15:10:05 · 253 阅读 · 0 评论 -
word2vec(二) 基于Hierarchical Softmax的模型
word2vec有两种改进方法,一种是基于Hierarchical Softmax的,另一种是基于Negative Sampling的。本文关注于基于Hierarchical Softmax的改进方法,在下一篇讨论基于Negative Sampling的改进方法。1. 基于Hierarchical Softmax的模型概述我们先回顾下传统的神经网络词向量语言模型,里面一般有三层,输入层(词向量...原创 2020-02-21 00:05:30 · 159 阅读 · 0 评论 -
word2vec(一) CBOW与Skip-Gram模型基础
1. 词向量词向量就是用来将语言中的词进行数学化的一种方式,顾名思义,词向量 就是把一个词表示成一个向量。这样做的初衷就是机器只认识0 1 符号。所以,词向量是自然语言到机器语言的转换。Word2Vec其实就是通过学习文本来用词向量的方式表征词的语义信息,即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。Embedding其实就是一个映射,将单词从原先所属的空间映射到新的多维空间中,也...原创 2020-02-20 21:36:55 · 2238 阅读 · 0 评论