自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

知更鸟的博客

机器学习、自然语言处理、深度学习、云计算

  • 博客(20)
  • 收藏
  • 关注

原创 基于Kubernetes、Docker的机器学习微服务系统设计——完整版

 内容提要1 概述2 系统介绍2.1 功能全览2.2 核心功能3 系统架构3.1 云化架构图3.2 架构说明4 云化部署4.1 部署图4.2 部署说明4.3 部署实例5 设计实现5.1 RESTful微服务框架5.1.1 微服务框架图5.1.2 微服务框架实现5.2 中文分词微服务5.2.1 设计模式5.2.2 代码实现5.2.3 请求JSON5.2.3 响应JSON5.3 预处理微服务5.3.1...

2018-11-10 14:31:33 4971 1

原创 基于Kubernetes、Docker的机器学习微服务系统设计系列——(十)数据可视化

 内容提要数据可视化可视化演示数据可视化  应用访问界面如图所示:应用服务UI界面包括:微服务配置、分类任务配置;微服务资源监控,动态显示;数据集分析图、分类对比图;综合对比、参数调优等。可视化演示  分类任务运行效果如图所示,如未显示请点击图片显示。分类任务运行动图(JE-MP)  上图选择JE分词和MP特征选择。下图选择RS分词和CHI特征选择,效果如下,如未显...

2018-11-10 12:19:06 1160

原创 基于Kubernetes、Docker的机器学习微服务系统设计系列——(九)应用服务

 内容提要1 分类任务1.1 分类任务类图1.2 数据结构1.3 调度状态转移2 资源监控2.1 资源监控类图2.2 部分代码实现3 应用WEB部署  本文的应用服务是指机器学习任务的应用,主要涉及任务的调度、状态机、和微服务发现,微服务访问以及微服务资源的监控。1 分类任务1.1 分类任务类图  分类任务类图如图所示:分类任务类图1.2 数据结构  分类任务类图如图所示:分类...

2018-11-10 12:08:12 1316

原创 基于Kubernetes、Docker的机器学习微服务系统设计系列——(八)部署配置

 内容提要Docker镜像制作K8S RC创建K8S Service创建  本篇主要介绍Docker镜像的制作、RC和Service的创建。Docker镜像制作  下面以segment微服务为例描述Docker镜像制作过程。微服务配置文件config.properties内容:#restful API configlisten.ip=0.0.0.0listen.port=8081...

2018-11-10 11:42:44 930

原创 基于Kubernetes、Docker的机器学习微服务系统设计系列——(七)分类器微服务

 内容提要分类器类图部分代码实现请求JSON响应JSONDEBUG信息  分类器微服务主要实现如下分类选择算法:k-Nearest Neighbor(kNN)、Naïve Bayes(NB)、Support Vector Machine(SVM)、Normalized Vector(NLV)。分类器类图  分类器服务主要类图如下图所示:分类器服务主要类图部分代码实现文本分类-训练器抽...

2018-11-10 11:18:20 560

原创 基于Kubernetes、Docker的机器学习微服务系统设计系列——(六)特征选择微服务

 内容提要特征选择类图部分实现代码请求JSON响应JSON  特征选择微服务主要实现如下特征选择算法:Document Frequency(DF)、Information Gain(IG)、(χ2)Chi-Square Test(CHI)、Mutual Information(MI)、Matrix Projection(MP)。特征选择类图  特征选择类图如图所示:图 特征选择微服务类图...

2018-11-10 11:03:59 525

原创 基于Kubernetes、Docker的机器学习微服务系统设计系列——(五)预处理微服务

 内容提要实现代码请求JSON响应JSON  文本分类任务的预处理阶段一般包括中文分词。这里中文分词单提出来,预处理阶段的主要任务是停用词去除、索引词典的构建、词文档矩阵化。实现代码预处理Action实现类package com.robin.pretreatment.action;import com.robin.loader.MircoServiceAction;import co...

2018-11-09 22:39:42 311

原创 基于Kubernetes、Docker的机器学习微服务系统设计系列——(四)中文分词微服务

 内容提要设计模式代码实现JSON格式  中文分词微服务包括分词方法有:RobinSeg(RS)、IKAnalyzer(IK)、JEAnalysis(JE)、MmSeg4j(MS)、PaoDing(PD)、SmallSeg4j(SS)。其中RS分词实现见我的文章:知更鸟中文分词RS设计实现 ,其他分词方法都采用发布的jar包进行封装装。设计模式  主要涉及外观模式、适配器模式、工厂模式和单例...

2018-11-09 22:03:08 412

原创 基于Kubernetes、Docker的机器学习微服务系统设计系列——(三)RESTful微服务框架

 内容提要微服务框架图微服务框架实现  基于Kubernetes的机器学习微服务系统设计——(1)概念与构想  为了微服务的接口交互统一,本系统采用统一的框架模式。采用Jersey软件框架,Jersey 是开源的RESTful框架, 实现了JAX-RS (JSR 311 & JSR 339) 规范。微服务框架图  RESTful框架实现流程如图所示:RESTful框架实现流程...

2018-11-09 21:52:04 854

原创 基于Kubernetes、Docker的机器学习微服务系统设计系列——(二)架构与部署

 内容提要1 概述2 系统介绍2.1 功能全览2.2 核心功能3 系统架构3.1 云架构图3.2 架构说明4 云化部署4.1 部署图4.2 部署说明4.3 部署实例5 详细设计5.1 RESTful微服务框架5.1.1 微服务框架图5.1.2 微服务框架实现5.2 中文分词微服务5.3 预处理微服务5.4 特征选择微服务6 系统运行7 分析总结1 概述  本篇主要介绍基于Kubernetes、...

2018-11-08 21:48:49 2804

原创 基于Kubernetes、Docker的机器学习微服务系统设计系列——(一)概念与构想

内容提要欢迎页面语料分析语料处理英文支持特征选择文本分类——工作空间配置文本分类——单一分类测试文本分类——分类器速度对比文本分类——分类算法对比文本分类——特征选择对比文本分类——NLV参数调优文本分类——kNN参数调优文本分类——SVM参数调优总结说明  本文档介绍笔者自己开发的自然语言处理——文本处理实验平台的系统功能及UI设计。笔者前期所做大量实验都是基于本工具平台。欢迎页面语料分...

2018-11-08 08:56:21 1132 1

原创 文本分类——快速kNN设计实现

内容提要介绍普通kNN实现快速kNN实现实验对比分析总结介绍  文本分类——常见分类模型  kNN分类模型的主要思想:通过给定一个未标注文档d,分类系统在训练集中查找与它距离最接近的k篇相邻(相似或相同)标注文档,然后根据这k篇邻近文档的分类标注来确定文档d的类别。普通kNN实现  一般常规的kNN计算新输入文档与训练集中样本之间的距离,都是新输入文档与每一训练集样本计算相似度。数据结构...

2018-11-07 18:56:21 5119

原创 文本分类——NLV算法研究与实现

内容提要1 引言2 NLV算法理论2.1 训练模型2.2 分类模型3 NLV算法实现3.1 算法描述4 实验及性能评估4.1 实验设计4.1.1 实验环境4.1.2 数据集4.1.3 实验目标4.1.4 关于预处理4.2 实验说明4.3 实验结果4.3.1 选参前提实验4.3.2 NLV分类实验4.3.3 分类对比实验5 分析总结1 引言  分类器的分类效率是衡量分类器性能的一项重要指标。为了...

2018-11-07 15:22:13 5908 1

原创 特征选择——Matrix Projection算法研究与实现

内容提要引言MP特征选择思想MP特征选择算法MP特征选择分析实验结果分析总结引言  一般选择文本的词组作为分类器输入向量的特征语义单元,而作为单词或词语的词组,在任何一种语言中都有数万或数十万个。另外,对于Web文本检索应用来说,互联网每天可能都会产生各种各样的新词汇。这样文本分类问题就面临着特征向量的维数灾难问题。有许多理由要求必须将特征的数量减少到尽可能的小,其中时间和空间复杂度就是很重要...

2018-11-07 00:13:58 1882

原创 文本分类——算法性能评估

内容提要数据集英文语料中文语料评估指标召回率与准确率F1-评测值微平均与宏平均混淆矩阵  优秀的文本分类模型必须经得住真实数据集的验证,因而分类器必须在通用的数据集上进行测试。用于文本分类的数据集一般称为语料库。  语料库指经科学取样和加工的大规模电子文本库。借助计算机分析工具,研究者可开展相关的语言理论及应用研究。语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为...

2018-11-06 20:04:08 11499 3

原创 文本分类——常见分类模型

内容提要基于规则的模型基于概率的模型基于几何的模型基于统计的模型  文本分类方法模型主要分为两个大类,一类是基于规则的分类模型;另一类是基于概率统计的模型。基于规则的模型  基于规则的分类模型相对简单,易于实现。它在特定领域的分类往往能够取得较好的效果。相对于其它分类模型来说,基于规则的分类模型的优点就是时间复杂度低、运算速度快。在基于规则的分类模型中,使用许多条规则来表述类别。类别规则可以...

2018-11-06 17:37:56 34675 1

原创 文本分类——特征选择概述

内容提要特征选择概述常见模型文档频率(DF)卡方校验(CHI)信息增益(IG)互信息(MI)特征选择概述  在向量空间模型中,文本可以选择字、词组、短语、甚至“概念”等多种元素表示。这些元素用来表征文本的性质,区别文本的属性,因此这些元素可以被称为文本的特征。在文本数据集上一般含有数万甚至数十万个不同的词组,如此庞大的词组构成的向量规模惊人,计算机运算非常困难。进行特征选择,对文本分类具有重要...

2018-11-06 15:33:36 11834

原创 中文分词——知更鸟分词(RS)设计与实现

内容提要分词概述算法分类常见项目知更鸟分词实现算法描述数据结构代码实现运行结果分词概述  英文文本的处理相对简单,每一个单词之间有空格或标点符号隔开。如果不考虑短语,仅以单词作为唯一的语义单元的话,处理英文单词切分相对简单,只需要分类多有单词,去除标点符号。中文自然语言处理首先要解决的难题就是中文分词技术。  中文分词(Chinese Word Segmentation) 指的是将一个汉字序...

2018-11-05 23:56:06 1576

原创 自然语言处理——文本分类概述

内容提要分类概述分类流程数据采集爬虫技术页面处理文本预处理英文处理中文处理停用词去除文本表示特征选择分类概述  分类(Classification)是指自动对数据进行标注。人们在日常生活中通过经验划分类别。但是要依据一些规则手工地对互联网上的每一个页面进行分类,是不可能的。因此,基于计算机的高效自动分类技术成为人们解决互联网应用难题的迫切需求。与分类技术类似的是聚类,聚类不是将数据匹配到预先定...

2018-11-05 19:50:59 27639

原创 自然语言处理——文本分类平台功能及UI设计

目录1. 我的博客测试1.1 我的博客次标题我的博客测试1. 我的博客测试信息检索作为互联网应用的重要组成部分,1.1 我的博客次标题 &a

2018-11-04 21:04:58 2336 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除