自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 零基础⼊⻔NLP- 新闻⽂本分类Task6 基于深度学习的⽂本分类3

Bert Pretrain预训练过程使用了Google基于Tensorflow发布的BERT源代码。首先从原始文件中创建训练数据,下面建立了基于空格的分词器。class WhitespaceTokenizer(object): """WhitespaceTokenizer with vocab.""" def __init__(self, vocab_file): self.vocab = load_vocab(vocab_file) self.inv_v

2020-08-04 14:23:06 119

原创 零基础⼊⻔NLP- 新闻⽂本分类Task5 基于深度学习的⽂本分类2

求近义词和类比词使用预训练的词向量import torchimport torchtext.vocab as vocabprint(torch.__version__)vocab.pretrained_aliases.keys()1.0.0dict_keys(['charngram.100d', 'fasttext.en.300d', 'fasttext.simple.300d', 'glove.42B.300d', 'glove.840B.300d', 'glove.twitter.2

2020-07-29 16:29:05 150

原创 零基础⼊⻔NLP- 新闻⽂本分类Task4 基于深度学习的⽂本分类1

FastTextFastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。所以FastText是一个三层的神经网络,输入层、隐含层和输出层。下图是使用keras实现的FastText网络结构:from __future__ import unicode_literalsfrom keras.models import Sequentialfrom keras.lay

2020-07-28 16:15:55 201

原创 零基础⼊⻔NLP- 新闻⽂本分类Task3基于机器学习的文本分类

文本表示方法1.One-hot我:[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]爱:[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]…海:[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1]2.Bag of Words每个文档的字/词可以使用其他出现次数来进行表示。from sklearn.feature_extraction.text import CountVectorizercorpus = [ 'This is the firs

2020-07-27 17:21:20 90

原创 零基础⼊⻔NLP- 新闻⽂本分类Task2数据读取与数据分析

数据读取import pandas as pd#train_df=pd.read_csv('./train_set.csv',sep='\t',nrows=100)train_df=pd.read_csv('./train_set.csv',sep='\t')分隔符sep,为每列分割的字符,设置为\t即可;读取行数nrows,为每次读取文件的函数,是数值类型(数据集太大,先设置100)。train_df.head() label

2020-07-22 14:08:15 121

原创 零基础⼊⻔NLP- 新闻⽂本分类Task1 赛题理解

赛题理解赛题名称:零基础入门NLP之新闻文本分类赛题链接:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.6.6406111aIKCSLV&postId=118252赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。学习目标¶理解赛题背景与赛题数据

2020-07-21 21:29:52 122

转载 计算机视觉基础-图像处理-Haar特征描述算子-人脸检测

Haar-like特征最早是由Papageorgiou等应用于人脸表示,在2001年,Viola和Jones两位大牛发表了经典的《Rapid Object Detection using a Boosted Cascade of Simple Features》和《Robust Real-Time Face Detection》,在AdaBoost算法的基础上,使用Haar-like小波特征和积分图方法进行人脸检测,他俩不是最早使用提出小波特征的,但是他们设计了针对人脸检测更有效的特征,并对AdaBoost

2020-07-02 20:56:06 274

转载 计算机视觉基础-图像处理-LBP特征描述算子-人脸检测

计算机视觉基础-图像处理-LBP特征描述算子-人脸检测2.1 简介  LBP指局部二值模式(Local Binary Pattern),是一种用来描述图像局部特征的算子,具有灰度不变性和旋转不变性等显著优点。LBP常应用于人脸识别和目标检测中,在OpenCV中有使用LBP特征进行人脸识别的接口,也有用LBP特征训练目标检测分类器的方法,OpenCV实现了LBP特征的计算,但没有提供一个单独的计算LBP特征的接口。也就是说OpenCV中使用了LBP算法,但是没有提供函数接口。2.2 学习目标了解人脸

2020-06-28 17:50:07 226

转载 计算机视觉基础-图像处理- Harris特征点检测器-兴趣点检测

Harris特征点检测器-兴趣点检测1.1 简介在图像处理领域中,特征点又被称为兴趣点或者角点,它通常具有旋转不变性和光照不变性和视角不变性等优点,是图像的重要特征之一,常被应用到目标匹配、目标跟踪、三维重建等应用中。点特征主要指图像中的明显点,如突出的角点、边缘端点、极值点等等,用于点特征提取的算子称为兴趣点提取(检测)算子,常用的有Harris角点检测、FAST特征检测、SIFT特征检测及SURF特征检测。本次任务学习较为常用而且较为基础的Harris角点检测算法,它的思想以及数学理论能够很好地帮

2020-06-23 21:25:47 218

原创 PyTorch基础(一)

1 基本数据Tensor1.1 Tensor数据类型Tensor即张量,是pytorch中基本的操作对象,可以看作是包含单一数据类型元素的多维矩阵。数据类型CPU TensorGPU Tensor32位浮点torch.FloatTensortorch.cuda.FloatTensor64位浮点torch.DoubleTensortorch.cuda.DoubleTensor16位半精度浮点N/Atorch.cuda.halfTensor8位无符号整型

2020-06-19 23:04:14 123

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除