- 博客(10)
- 问答 (1)
- 收藏
- 关注
原创 文本张量的表示方法
·什么是文本张量表示: ·讲一段文本使用张量进行表示,其中一般将词汇表示成向量,称作词向量,再由各个词向量按顺序组成矩阵形成文本表示。·举个栗子["人生", "该","如何","起头"]==># 每个词对应矩阵中一个向量[[1.32, 4.32, 0.32, 5.2][3.1, 5.43, 0.34, 3.2][3.21, 5.32, 2, 4.32][2.54, 7.32, 5.12, 9.54]]...
2022-03-07 17:36:11 889
原创 文本处理的基本方法
·精确模式分词: ·试图将句子最精确地切开,适合文本分析。import jiebacontent = "工信部女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"jieba.cut(content, cut_all=False)# cut_all默认值为False#将返回一个生成器对象·输出结果<generator object Tokenizer.cut at 0x000002999E9BD740>#若需直接返回列表内容,使用j...
2021-11-20 16:17:26 1965
原创 Word2Vec对新闻进行分类
词表征·词表征就是如何用向量的方式来表示一个词的特征,让计算机能够对词进行处理,常用的两种词表征的方法:·词袋模型:一个词也可以理解为是一篇最简单的文档,所以它可以用词袋来表示他的特征,这个时候的词袋就是一个独热编码。独热编码举例:·词向量模型:词向量:又叫词嵌入,这种方法可以解决词袋模型的稀核心思想是:每一个词映射到一个多维空间中,成为空间中的一个向量,一般这个多维空间的维数不会太高,在几百个的量级,这几百维的特征向量是稠密的,向量中的每一个成员都是非零的。由于词向量由几.
2021-11-15 19:46:09 3452 8
原创 文本预处理
·文本预处理及其作用: ·文本预料在输送给模型前一半需要一系列的预处理工作,才能符合模型输入的要求,如:将文本转化成模型需要的张量,规范张量的尺寸等,而且科学的文本预处理环节将有效指导模型超参数的选择,提升模型的评估指标。·文本预处理中包含的主要环节: ·文本处理的基本方法 ·文本张量表示方法 ·文本语料的数据分析 ·文本特征处理 ·数据增强方法·文本处理的基本方法 ...
2021-10-28 21:32:38 953
原创 自然语言处理入门
什么是自然语言处理·自然语言处理(Natural Language Processing,简称NLP)是计算机科学与语言学中关注于计算机与人类语言间转换的领域自然语言处理的发展简史 1950年:计算机科学之父图灵在论文中提出“机器可以思考吗”这一划时代的问题,从此促成了人类语言学与计算机科学的交融 1957-1970年:自然语言处理领域开始形成“两大阵营”,基于规则和基于统计。 1994-1999:基于统计的方法逐渐取得胜利,概率计算开始引入...
2021-10-28 21:12:40 1404
原创 使用Pytorch构建一个分类器(CIFAR10模型)
分类器任务和数据介绍·构建一个将不同图像进行分类的神经网络分类器,对输入的的图片进行判别并完成分类。·本案例采用CIFAR10数据集作为原始图片数据·CIFAR10数据集介绍:数据集中每张图片的尺寸是3*32*32,代表彩色3通道·CIFAR10数据集共有10种不同的分类,分别是"airplane","automobile","bird","cat","deer","dog","frog","horse","ship","truck".·CIFAR10数据集的样例如下图所示.
2021-10-27 21:21:24 2436 2
原创 使用Pytorch构建一个神经网络
关于torch.nn·使用Pytorch来构建神经网络,主要的工具都在torch.nn包中·nn依赖于autograd来定义模型,并对其自动求导构建神经网络的典型流程·定义一个拥有可学习参数的神经网络·遍历训练数据集·处理输入数据使其流经神经网络·计算损失值...
2021-10-24 00:56:29 4968 1
原创 用TFIDF词袋模型进行新闻分类
词袋 不关注词的先后顺序---词袋模型(bow--一元模型) bag of words二元模型n-gram# 创建输出目录 保存训练好的模型import os#对文件和目录进行操作output_dir = u'output'if not os.path.exists(output_dir): os.mkdir(output_dir)加载数据import numpy as np#一个数据分析处理数据的常见的库,它提供的数据结构比 Python 自身的更高效im...
2021-10-23 00:13:16 2041 2
原创 Pytorch中的aytograd
·在整个Pytorch框架中,所有的神经网络本质上都是一个autograd package(自动求导工具包) ·autograd package提供了一个对Tensors上所有的操作进行自动微分的功能。·关于torch.Tensor·torch.Tensor是整个package中的核心类,如果将属性.requires_grad设置为True,它将追踪在这个类上定义的所有操作。当代码要进行反向传播的时候,直接调用.backward()就可以自动计算所有的梯度。在...
2021-10-22 23:55:22 145
原创 Pytorch基本操作
·Tensors张量:张量的概念类似于Numpy中的ndarray数据机构,最大的区别在于Tensor可以利用GPU的加速功能。·我们使用Pytorch的时候,常规步骤是先将torch引用进来,如下所示:from __future__ import print_functionimport torch·创建矩阵的操作·创建一个没有初始化的矩阵x = torch.empty(5, 3)print(x)·输出结果tensor([[8.9082e-39, 6.9796e-3
2021-10-22 02:09:54 2289 8
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人