ML
文章平均质量分 91
阿尔法旺旺
爱生活,爱技术,大道至简
展开
-
MLOps 概述,定义和架构
摘要 所有工业机器学习(ML)项目的最终目标是开发ML产品并迅速投入生产。然而,自动化和操作化是一项极具挑战性的工作,ML产品和许多ML工作者努力也未能实现其期望目标。机器学习操作的范例(MLOps)解决了这个问题。MLOps包括几个方面,例如最佳实践、概念集和开发文化。然而,MLOps仍然是一个模糊的术语,其结果导致研究人员和专业人士的意见不明确。为了解决这一差距,我们进行了混合方法研究,包括文献综述,工具审查和专家访谈。基于这些调查中,我们提供了必要的原则、组件和角色,以及相关的架构和工作流。.....翻译 2022-07-17 21:31:24 · 2089 阅读 · 0 评论 -
工业人工智能系统框架、关键技术、典型应用与发展趋势
对于近年来国内外人工智能的发展状况有很多报告,其中包括国家智库层面和企业民间层面的,评价体系也各有不同,因此也只是一个侧面反应。针对1990—2019年中美德英日韩等六国,对比产业核心技术专利数量,中国在产业人工智能方面前进步伐较大,如图1所示。浙江大学顾国达等构建了一个系统全面的人工智能评价指标体系,涵盖人工智能的环境支撑力、知识创造力、产业竞争力3个主要评价领域,2个具体指标,既可从整体掌握经济体人工智能的综合实力,又可从多维度对人工智能的发展成效进行国际比较和动态追踪。利用2010—2018年人工智能转载 2022-07-09 21:49:51 · 1339 阅读 · 0 评论 -
模型算法的测试方法
模型蜕变测试1.蜕变测试概述常规软件应用程序的测试存在测试断言,这表示可以通过测试人员或测试机制(例如自动测试)针对预期值验证软件应用程序的输出是否符合事实。但是在模型算法测试中,由于时间和人力等的限制,缺乏由模型算法测试确定的测试断言。此时需要某种不休赖于测试断言的测试,这就是蜕变测试出现的背景。蜕变测试(MetamorphicTesting,MT)是利用模型算法内含属性的测试方法,其思想是假设以某种方式修改了那些与属性相关的输入,则可以在给定原始输入和输出的情况下预测新的输出。依据被...原创 2021-08-11 14:33:56 · 5320 阅读 · 1 评论 -
模型算法评估与测试
在机器学习应用中,一般会采用在线和离线两套数据和环境进行,离线开发进行训练,然后在线提供服务。在离线评估时,我们使用训练样本和测试样本来训练和评估机器学习模型算法,以使模型算法的偏差和方差尽可能小。在进行在线评估时,除了验证在线部署的正确性,还要从业务的角度来评估模型。此外,还要关注在线模型算法的指标,保障在线服务的稳定性。模型算法的评估指标1、回归模型的评估指标1) 平均绝对误差平均绝对误差( Mean Absolute Eror, MAE )又称为平均绝对离差,是所有单个观测值与算.原创 2021-08-01 12:42:56 · 1651 阅读 · 0 评论 -
模型部署工程技术
概述为了将训练好的模型部署、上线, 首先需要确认训练模型与接入的应用服务所使用的编程语言是否一致, 其次考虑模型应用于产品服务的方式。在调试模型时,大多使用PyCharm、Spyder工具中的控制台来输出训练结果,或者使用Jupyter NoteBook进行交互。将模型部署于产品常用的方式有两种-----基于 HTTP服务或基于预测标型标记语言(Predictive ModelMarkup Language, PMML )。其中,基于HTTP服务是指在生产环境中部署Python环境以及Python的机器原创 2021-07-18 07:51:48 · 1067 阅读 · 1 评论 -
数据与建模工程技术
数据存储机器学习的整个流程几乎都会产生数据。除了数据采集阶段的原始数据,还有加工后的中间数据、训练好的模型等。除了传统的关系型数据库,各种各样的NoSQL数据库(如列式数数据库、K-V数据库、文档型数据库、全文搜索引擎、图数据库等)系统也应用广泛。关系型数据库(如PostgreSQL)适用于存储元数据(文件路径、标签、用户行为等)。除了支持SQL,它对非结构化JSON格式也支持良好。 列式数据库是以列相关存储架构方式进行数据存储的数据库,主要适合批量数据的处理和即时查询。基于列式数据库的列存...原创 2021-07-17 09:44:12 · 251 阅读 · 0 评论 -
模型评估平台
对模型进行评估的平台通常需要支持任务调度、指标分析、可视化、报告管理、用户管理、日志管理、邮件管理等功能。平台需求分析以金融风控场景中的用户信用资质评估为例,在通过一系列数据分析建模,得到一个用户信用资质的模型。对于此类模型的评估,主要考虑以下几点:模型评估的样本收集。模型产品种类多,训练是基于多种数据源和数据流量进行的。模型评估首先要解决样本收集问题。样本收集功能较独立,所以应将其解耦,以便后续模块接入。 样本数据的特征计算。有了样本,需要特征工程处理,将数据转化为特征,此过程需要接入特征计原创 2021-07-14 08:36:12 · 834 阅读 · 1 评论 -
AI中台,你该知道的
**导读:**随着“数据中台”的提出和成功实践,各企业纷纷在“大中台,小前台”的共识下启动了自己的中台化进程,以数据中台、技术中台、业务中台为代表的一系列技术,极大增强了业务的敏捷性,提高了组织效能。同时随着智能技术的发展,AI应用在业务研发中的占比逐渐升高,但AI模型训练的复杂性导致其开发慢、效率低,严重影响了业务的灵活性。针对这种情况,能否基于中台化思想对业务中AI研发工作进行专门支持,提供...转载 2020-02-01 21:19:56 · 1566 阅读 · 0 评论 -
OCR技术简介.md
光学字符识别(Optical Character Recognition, OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别,并以文本的形式返回。OCR的应用场景根据识别场景,可大致将OCR分为识别特定场景的专用OCR和识别多种场景的通用OCR。比如现今方兴未艾的证件识别和车牌识别就是专用OCR的典型实例。通用OCR可以用于更复杂的场景,也...转载 2018-09-26 22:06:28 · 5318 阅读 · 0 评论 -
Tensorflow一些小技巧
Tensorflow使用中的一些小技巧Tensorflow 高阶API架构图总结出来有如下几个方面:用Eager模式搭建原型用Datasets处理数据用Feature Columns提取特征用Keras搭建模型借用Canned Estimators用SavedModel打包模型模型函数用Tensorflow Serving发布模型LayersHead下面我们依次来介...原创 2018-10-12 13:51:33 · 1018 阅读 · 0 评论 -
聚类算法
常见聚类算法小结参考:https://blog.csdn.net/abcjennifer/article/details/8170687?utm_source=blogxgwz1https://www.zhihu.com/search?q=聚类算法&type=content1、K-MeansK-Means(k-平均或k-均值)可以称的上是知名度最高的一种聚类算法,它常出现在许多有关...转载 2018-10-26 10:28:32 · 1830 阅读 · 0 评论 -
推荐系统
推荐系统概要一、推荐系统的本质推荐系统在本质上是一个信息检索的系统。它和搜索最大的区别是,搜索是主动式的,根据关键词和引擎参数、搜索引擎召回、机器学习排序,决定给你看到的是哪些内容。而我们看到的推荐系统,在大多数情况下是没有主动输入的(有时会有一些简单的反馈动作),是被动出现的。推荐系统是利用上下文,根据当前用户所处的环境,根据信息的特点来决定给你推荐什么内容和商品。而推荐系统的目标是什么,...原创 2018-10-30 18:47:42 · 703 阅读 · 0 评论 -
目标检测资源收集汇总
目标检测资源收集汇总今年以来读过的object detection资源列表如下:41、从R-CNN到RFBNet,深度目标检测5年纵览,文章+代码让你从入门到精通https://mp.weixin.qq.com/s/56bcjzUDm7V0oDknAk0Azw46、【学界】ECCV-2018最佼佼者的目标检测算法https://mp.weixin.qq.com/s/FzP7cEasXBg...原创 2018-11-27 22:31:48 · 521 阅读 · 0 评论 -
DataScience Process Analysis
数据科学工作流解析假如您正在开始一个新的数据科学项目(可以是对一个数据集的简短分析,也可以是复杂的多年合作项目)。您应该如何组织你的工作流程呢?你把数据和代码放在哪里?你使用什么工具?为什么使用它们?一般来说,在首先进入数据工作之前,您应该考虑什么?在软件工程行业中,这些问题具有一些众所周知的答案。尽管每家软件公司都有其独特的特点和喜好,但大多数软件公司的核心流程都基于相同的既定原则,实践和工具...翻译 2018-12-11 13:55:52 · 510 阅读 · 0 评论 -
L1和L2正则再回顾与小结
L1和L2正则回顾与思考衡量一个向量的大小,在机器学习领域通常用范数来衡量。形式上,$ L^p$ 范数定义如下:∣∣x∣∣p=(∑i∣xi∣p)1p||x||_p=(∑_i|x_i|^p)^{\frac 1 p}∣∣x∣∣p=(∑i∣xi∣p)p1L0范数是指向量中非0的元素的个数。L1范数是指向量中各个元素绝对值之和,也叫为“稀疏规则算子”(Lasso Regularizatio...原创 2019-01-23 22:34:00 · 956 阅读 · 0 评论 -
深度学习的高性能计算技术(Horovod 分布式)
深度学习的高性能计算技术介绍在过去几年中,神经网络已被证明是解决各种问题的极其有效的工具,并且在规模和计算要求方面迅速增长。 2012年,用于图像识别的超级卷积网络在物体识别方面取得了巨大进步,花了一周时间用两个GPU,拥有6000万个参数。 2016年,研究人员在语言建模方面取得了突破,该网络拥有超过10亿个参数,在32个GPU上训练了三个星期。在百度研究所的硅谷AI实验室内,2014年我们...翻译 2019-04-14 21:29:30 · 3848 阅读 · 0 评论 -
读《Hands-On Transfer Learning with Python》小试锋芒之释放迁移学习的洪荒之力
本章的主要内容 The need for transfer learning Building Convolutional Neural Network (CNN) models from scratch:Building a basic CNN modelImproving our CNN model with regularizationImproving our CNN mod...原创 2019-05-12 21:46:55 · 825 阅读 · 0 评论 -
【干货】图解TensorFlow架构与设计-深度学习世界
转载:【干货】图解TensorFlow架构与设计-深度学习世界TensorFlow是什么?TensorFlow基于数据流图,用于大规模分布式数值计算的开源框架。节点表示某种抽象的计算,边表示节点之间相互联系的张量。计算图实例TensorFlow支持各种异构的平台,支持多CPU/GPU,服务器,移动设备,具有良好的跨平台的特性;TensorFlow架构灵活,能够支持各种网络模型,...转载 2017-05-01 20:26:01 · 2562 阅读 · 0 评论 -
TensorFlow运作方式入门
转载自:http://www.tensorfly.cn/tfdoc/tutorials/mnist_tf.html 教程使用的文件 文件 目的 mnist.py 构建一个完全连接(fully connected)的MINST模型所需的代码。 fully_connected_f转载 2017-02-04 09:48:15 · 709 阅读 · 0 评论 -
小白学《神经网络与深度学习》笔记之四-深度学习的常用方法(3)
1.7 循环神经网络 1.7.1 什么是RNN 首先,RNN是两种神经网络的缩写,一种是递归神经网络(Recursive Neural Network),一种是循环神经网络(Recurrent Neural Network),这里主要讨论第二种及其变种。 循环神经网络是指一个随着时间推移,重复发生的结构。例如,有一个序列X=[‘H’,’E’,’L’,’L’], 该序列被送到一个神转载 2016-12-11 21:00:35 · 1263 阅读 · 0 评论 -
小白学《神经网络与深度学习》笔记之四-深度学习的常用方法(1)
2006年以来,机器学习领域突破性发展,不仅依赖于云计算、Hadoop框架的大数据的并行处理能力,还依赖于算法,该算法就是深度学习。它抽象模拟了人脑神经元传递信息和链接的方式。 1.1、模拟大脑的学习和重构 从单词“easy”到“Easy”的学习过程举例,引入自动编码器(AutoEncoder)的思想。昨天的学习单词“easy”是编码,今天的“Easy”还原出来是解码。 1.1.原创 2016-12-08 21:38:54 · 799 阅读 · 0 评论 -
小白学《神经网络与深度学习》笔记之四-深度学习的常用方法(2)
1.4 解决概率分布问题:限制波尔兹曼机 1.4.2 能量模型(接上期) 前面提到的”杰弗里.hinton”教授,2006年提出的DBN(Deep Belief Network),成为了深度学习的主要框架,而这个框架引入了生成模型(注意是生成模型,而非判别模型)。它可以直接自动的从训练集里提取所需要的特征,这解决了人工提取的考虑不周的因素,且对于神经网络权重做了非常重要的初始化。转载 2016-12-09 21:42:28 · 4995 阅读 · 0 评论 -
小白学《神经网络与深度学习》笔记之一-计算机的潜意识:浅谈神经网络-从神经元到深度学习
转载:http://www.cnblogs.com/subconscious/p/5058741.html 神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向--深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法,同时也可以更好地帮助你理解深度学习技术。 本文以一种简单的,循序的方式讲解神经网络。适合对神经网络了解不多的同学。本文对阅读没有一定的前提要求,但是懂一些转载 2016-12-15 21:35:51 · 3699 阅读 · 0 评论 -
Caffe源码解析6:Neuron_Layer
转载自:http://home.cnblogs.com/louyihang-loves-baiyan/ NeuronLayer,顾名思义这里就是指神经元,激活函数的相应层。我们知道在blob进入激活函数之前和之后他的size是不会变的,而且激活值也就是输出 \(y\) 只依赖于相应的输入 \(x\)。在Caffe里面所有的layer的实现都放在src文件夹下的layer文件夹中,基本上很多文章里转载 2017-01-03 19:32:08 · 427 阅读 · 0 评论 -
Caffe源码解析7:Pooling_Layer
转载自:http://home.cnblogs.com/louyihang-loves-baiyan/ Pooling 层一般在网络中是跟在Conv卷积层之后,做采样操作,其实是为了进一步缩小feature map,同时也能增大神经元的视野。在Caffe中,pooling层属于vision_layer的一部分,其相关的定义也在pooling_layer.hpp的头文件中,pooling_laye转载 2017-01-03 19:36:44 · 599 阅读 · 0 评论 -
Caffe源码解析8: Net
Net在Caffe中代表一个完整的CNN模型,它包含若干个Layer实例。前面看到的各类prototxt的经典网络结构如LeNet、AlexNet等都是Caffe代码实现的一个Net对象。 1、Net基本用法 #include 在main()中添加 std::string proto("deploy.prototxt");Netfloat> nn(proto, caffe::原创 2017-01-03 19:48:40 · 1945 阅读 · 0 评论 -
Caffe源码解析5:Conv_Layer
转载自:http://home.cnblogs.com/louyihang-loves-baiyan/ 这里主要讨论一下ConvolutionLayer相关的Layer: BaseConvolutionLayer ConvolutionLaye DeconvolutionLayer CuDNNConvolutionLayer Im2colLayer转载 2016-12-31 21:55:20 · 409 阅读 · 0 评论 -
Caffe源码解析4: Data_layer
转载自:http://home.cnblogs.com/louyihang-loves-baiyan/ data_layer应该是网络的最底层,主要是将数据送给blob进入到net中,在data_layer中存在多个跟data_layer相关的类 BaseDataLayer BasePrefetchingDataLayer DataLayer DummyDataL转载 2016-12-31 21:33:51 · 443 阅读 · 0 评论 -
Caffe源码解析3:Layer
转载自:http://home.cnblogs.com/louyihang-loves-baiyan/ layer这个类可以说是里面的一个基本类了,深度网络呢就是一层一层的layer,相互之间通过blob传输数据连接起来。首先layer必须要实现一个forward function,前递函数当然功能可以自己定义啦,在forward中呢他会从input也就是Layer的bottom(对了caffe转载 2016-12-30 22:00:28 · 1141 阅读 · 0 评论 -
Caffe源码解析9: Caffe模型
一个完整的深度学习系统最核心的两个方面是数据和模型。 一个深度学习模型通常由三部分参数组成: 可学习参数(Learnable Parameter),又称可训练参数、神经网络权重系数、权重,其数值由模型初始化参数、误差反向传播过程控制,一般不可人工干预。 结构参数(Archetecture Parameter),包括卷积层/全连接层/下采样层数目、卷积核数目、卷积核大小等描述网络结构原创 2017-01-03 21:17:28 · 678 阅读 · 0 评论 -
小白学《神经网络与深度学习》笔记之二-利用稀疏编码器找图像的基本单位(1)MatLab实现SparseAutoEncoder
前言 学完稀疏自编码器,参考http://deeplearning.stanford.edu/wiki/index.php/UFLDL%E6%95%99%E7%A8%8B中的Exercise:Sparse Autoencoder 使用MatLab完成练习要求。这个例子所要实现的内容大概如下:从给定的数据文件IMAGES.mat(这是一个512*512*10的三维数组,里面存了10张图片,每张图转载 2016-12-18 20:56:08 · 2518 阅读 · 0 评论 -
深度学习框架Caffe源码解析(概览)
转自:http://www.leiphone.com/news/201612/oZUj5d437bpSl5wc.html Caffe总体架构 Caffe框架主要有五个组件,Blob,Solver,Net,Layer,Proto,其结构图如下图1所示。Solver负责深度网络的训练,每个Solver中包含一个训练网络对象和一个测试网络对象。每个网络则由若干个Layer构成。每个Layer的输转载 2016-12-28 20:19:39 · 675 阅读 · 0 评论 -
Caffe源码解析2:SyncedMem
参考自:http://home.cnblogs.com/louyihang-loves-baiyan/ 根据前面一章对Blob的分析,我们看到blob.hpp中封装了#include "caffe/syncedmem.hpp",看到SyncedMem就知道,是在做内存同步的操作。这类个类的代码比较少,但是作用是非常明显的。文件对应着syncedmem.hpp和syncedmem.cpp 首先是转载 2016-12-30 20:30:35 · 373 阅读 · 0 评论 -
TensorFlow使用基础(Basic Usage)
转载自:http://www.tensorfly.cn/tfdoc/get_started/basic_usage.html 基本使用 TensorFlow的基本概念 使用图 (graph) 来表示计算任务. 在会话(Session) 的上下文 (context) 中执行图. 使用张量(tensor) 表示数据. 通过 变量 (Variable) 维护状态.转载 2017-01-07 20:39:44 · 452 阅读 · 0 评论 -
TensorFlow之MNIST机器学习入门
MNIST机器学习入门 转载自:http://www.tensorfly.cn/tfdoc/tutorials/mnist_beginners.html 这个教程的目标读者是对机器学习和TensorFlow都不太了解的新手。如果你已经了解MNIST和softmax回归(softmax regression)的相关知识,你可以阅读这个快速上手教程。 当我们开始学习编程的时候,第一件事往往是学习转载 2017-01-08 21:35:10 · 3241 阅读 · 0 评论 -
【读书笔记】scikit-learn Cookbook
2.2.1:中心趋势度量 中位数(median)、均值(mean)、众数(出现频率最高的数)、中列数(数据集最大值和最小值的平均) 众数:单峰的、双峰、多峰的。。 对于适度倾斜的单峰数值,有下面经验关系: mean-mode=3*(mean-median) 2.2.2: 度量数据散布 极差(max()-min())、四分位数、四分位数极原创 2016-06-03 20:46:08 · 708 阅读 · 0 评论