自定义博客皮肤

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

The PaddlePaddle-based training of the model for Chinese word vector

Background IntroductionThis article provides an introduction to the training of the model for Chinese word vector. Compared to the reference tutorial...

2018-04-26 13:58:51

阅读数 337

评论数 0

Python 中文文本分词(包含标点的移除)

背景信息本文为构建中文词向量的前期准备,主要实现中文文本的分词工作,并且在分词过程中移除了标点符号、英文字符、数字等干扰项,从而可以得到较为纯净的分词后的中文语料。详细代码import jieba import jieba.analyse import jieba.posseg as pseg i...

2018-04-10 20:21:38

阅读数 6522

评论数 6

Python从文本构建词典

背景信息本文实现基于输入英文文本的词典构建功能,构建的词典的key为文本中出现的单词,对应的value按如下规律取值:输入文本中词频最大的词对应的value取值为0,词频次最大的取值为1,依次类推,词频最低的词的value的取值为(字典的长度-1)。本文主要是为之后词向量训练做准备工作。说明:如果...

2018-04-09 19:53:16

阅读数 2089

评论数 0

Python文本词频统计

背景信息本文实现英文文本词频统计,功能与Mapreduce中的wordcount是类似的。本文主要是为之后词向量训练做准备工作。本地实现词频统计函数,输入一个文本文件,最终以dict的形式返回词频统计信息。说明:如果输入为英文文本,则可以直接处理;如果是中文文本,则需要先进行分词等预处理工作。详细...

2018-04-09 18:59:35

阅读数 2048

评论数 0

Python中Numpy数组的归一化处理

背景介绍在对机器学习的数据进行预处理时,往往都需要归一化,从而避免因特征值范围不同而造成学习结果偏差。本节给出Python中将Numpy数组实现(0,1)归一化的代码,其它种类的归一化再遇到时再进行补充。所谓(0,1)归一化,就是通过遍历feature vector里的每一个特征值的数据,将Max...

2018-04-05 22:35:48

阅读数 10711

评论数 0

在PaddlePaddle框架下通过两层全连接网络实现IRIS数据分类

背景信息IRIS数据集是机器学习入门中最常用的数据集之一,但PaddlePaddle官方文档中并没有给出对该数据集分类的示例,因此本文进行了尝试,并通过两层全连接网络最终实现了该数据集的分类。数据集说明下载的数据集中类别标签是字符串,为方便使用将其替换为0、1、2,如下所示,前四列为特征值,最后一...

2018-04-04 18:38:03

阅读数 351

评论数 0

Python读取IRIS数据集并转换为PaddlePaddle中使用的reader

背景信息IRIS数据集是机器学习领域常用的一种数据集,但是PaddlePaddle预置数据集中并未包含,因此本文实现了使用Python读取下载的iris数据集文本文件并将其转换为reader的代码。代码实现# 引入所需包 import numpy as np import random#读取数据函...

2018-04-04 12:16:25

阅读数 505

评论数 0

Python机器学习数据预处理:读取txt数据文件并切分为训练和测试数据集

背景信息在使用Python进行机器学习时,经常需要自己完成数据的预处理,本节主要实现对txt文本数据的读取,该文本满足如下要求:每行为一条样本数据,包括特征值与标签,标签在最后样本数据的特征值之间以及标签之间使用,分割文本末尾无空行(在人为编辑过程中很容易在末尾加入空行,要检查并删除)本文先给出实...

2018-04-04 11:53:21

阅读数 4582

评论数 0

Gitbook中有序列表不能正常显示的解决办法

问题描述在使用GitBook Editor编辑文档时,在使用有序列表时,发现无法正常显示,出现序号重复、缩进不正常等情况。如下截图所示:原因分析在Markdown语法中,需要通过空行来表示段落,对于有语法标记的段落常常容易忽略该要求,从而造成相应语法不能正常显示的问题。解决办法检查有序列表前后是否...

2018-04-03 16:35:29

阅读数 824

评论数 0

Markdown中如何使用缩进

诉求在使用Markdown(gitbook)进行文档编辑时,为使文档排版美观,往往需要进行缩进,如果在列表中,若某个列表项包含多个段落时,希望后面的段落与带标号的段落保持首字对其;或者在列表项中包含表格时,希望表格整体进行缩进。方法在Markdown中可以通过两种符号来进行缩进:可用使用4个空格或...

2018-04-03 16:16:43

阅读数 12517

评论数 0

mnist数据集读取并保存为Numpy数组

背景信息MNIST数据集简介MNIST数据集是从 NIST 的Special Database 3(SD-3)和Special Database 1(SD-1)构建而来。由于SD-3是由美国人口调查局的员工进行标注,SD-1是由美国高中生进行标注,因此SD-3比SD-1更干净也更容易识别。Yann...

2018-04-02 10:16:08

阅读数 1401

评论数 0

Caffe100数据集使用

背景信息Caffe100数据集包含100小类,每小类包含600个图像,其中有500个训练图像和100个测试图像。100类被分组为20个大类。每个图像带有1个小类的“fine”标签和1个大类“coarse”标签。该数据集作为机器学习的最常用的数据集之一,有必要详细了解下其结构,但由于下载后的文件是二...

2018-04-01 17:16:50

阅读数 156

评论数 0

提示
确定要删除当前文章?
取消 删除