![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 61
小码仔
这个作者很懒,什么都没留下…
展开
-
分类算法之朴素贝叶斯分类(Naive Bayesian classification)
贝叶斯简介简介看了下周志华机器学习中的贝叶斯网络这块,对于贝叶斯的理解有了一定的理解,所以写个博客记录下。贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,因此统称为贝叶斯分类。 首先介绍下分类问题,对分类问题进行定义。然后,介绍贝叶斯分类算法的基础-贝叶斯定理。最后,通过实例讨论贝叶斯分类中的朴素贝叶斯分类2 . 分类问题介绍 分类问题在现实生活中的例子是:我们看到一个原创 2017-12-12 15:22:59 · 503 阅读 · 0 评论 -
CNN神经网络的个人总结
CNN神经网络的总结:[英文链接](https://medium.com/@RaghavPrabhu/understanding-of-convolutional-neural-network-cnn-deep-learning-99760835f148)CNN(Convolutional neural network) 简称卷积神经网络,主要是用于图像识别、图像分类、对象检测、人脸识别等...原创 2018-06-22 22:32:32 · 1527 阅读 · 0 评论 -
机器学习-加权采样算法简介
场景用户画像的构造中,想象一个场景:你经过辛辛苦苦抓数据,清洗数据,收集用户行为,目的就是给用户计算兴趣标签。这时候你可能会遇到一个两难的问题:如果给用户计算出兴趣标签的权重了,那应该保留多少标签呢?保留太多的话,每次召回候选集时,计算复杂度可不低,只保留少部分吧,那真是手心手背都是肉,生怕丢弃的标签才是用户的真爱。怎么办?这时候,你需要的一个简单的加权采样算法,每次召回时并不使用全部用...原创 2018-06-05 21:22:54 · 11147 阅读 · 1 评论 -
机器学习中常用的评价指标
推荐的时候一般是需要返回一个个性化的推荐列表,这个简称为Top-N推荐。评价指标:Top-N推荐的预测准确率一般是通过准确率(precision)/召回率(recall)来度量。召回率(Recall): R(u)是根据用户在训练集上的行为给用户做出的推荐列表。T(u)是用户在测试集上的行为列表。计算过程: 首先找出R(u)与T(u)的交集,计算出交集,然后用得到的交集除T(u)中...原创 2018-06-05 19:44:46 · 491 阅读 · 0 评论 -
机器学习中的Stacking模型融合
最近学习了模型融合的方法,遇到了Stacking的方法来解决模型融合的问题,因此做了以下总结。1.Stacking是什么?Stacking简单理解就是讲几个简单的模型,一般采用将它们进行K折交叉验证输出预测结果,然后将每个模型输出的预测结果合并为新的特征,并使用新的模型加以训练。模型融合的图示如下2.Stacking的好处在哪里?做大数据的比赛的一般是是使用单一模...原创 2018-06-04 18:10:56 · 19948 阅读 · 3 评论 -
CNN卷积神经网络
学习笔记1.卷积神经网络的和以往的全连接神经网络有所区别。图一:全连接神经网络 上图的全连接神经网络主要有输入层(input layer)、隐藏层(hidden layer)、输出层(output layer)组成。 图二:卷积神经网络 - Convolution 卷积层 - Subsampling 池化层 - Full connection 全连接层对比:...原创 2018-05-07 12:52:21 · 565 阅读 · 0 评论 -
CNN-卷积神经网络防止过拟合的方法
过拟合出现的原因训练的数据过少,无法准确获得数据中的特征全连接神经网络中参数增多也会导致过拟合问题(还可以导致计算速度减慢)过拟合解决的办法1. data augmentation:这点不需要解释太多,所有的过拟合无非就是训练样本的缺乏和训练参数的增加。一般要想获得更好的模型,需要大量的训练参数,这也是为什么CNN网络越来越深的原因之一,而如果训练样本缺乏多样性,那再...原创 2018-05-07 11:21:51 · 6290 阅读 · 0 评论 -
TensorFlow中简单的LSTM代码实现
使用TensorFlow实现LSTM 数据集:mnist# -*- coding: utf-8 -*-__author__ = 'liudong'__date__ = '2018/5/2 下午4:48'import tensorflow as tfimport numpy as npimport matplotlib.pyplot as pltfrom tensorflow.ex...原创 2018-05-02 19:33:29 · 16040 阅读 · 7 评论 -
TensorFlow中对图像的处理
日常处理中RGB色彩模式的图片可以看做是一个三维矩阵,矩阵中每个数代表了图像上的额不同位置,不同颜色的亮度。 神经网络中图像的大小不是规整的,因此处理图像以前,需要先把图像的大小统一。 图像大小的调整有两种方法: 1.使用算法进行调整。tf.image.resize_images(data, shape, method=0,1,2,3) data: 图像数据 shap...原创 2018-05-01 11:50:49 · 1101 阅读 · 0 评论 -
转化率(CTR)预测的贝叶斯平滑
概述电商领域中经常需要计算或预测一些转化率指标,如最典型的CTR(点击率,Click-Through Rate)。这些转化率可以是模型的预测值,也可以作为模型的特征(feature)使用。以商品点击率预测为例,CTR的值等于点击量(Click)除以曝光量(Impression或Expos...转载 2018-04-15 11:21:38 · 1604 阅读 · 2 评论 -
机器学习-特征工程的方法
1 特征工程是什么? 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。 特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等。首次接触到sklearn,通常会被其丰富且方便的算法模型库吸...原创 2018-04-08 14:23:09 · 285 阅读 · 0 评论 -
机器学习中的交叉验证简介
1.什么是交叉验证? 交叉验证是在实验中的数据不充分的情况下,但是我们又想训练出好的模型的情况下采用的措施。交叉验证的思想:重复使用数据,把给定的数据进行拆分,将切分的数据集组合为训练集与测试集,在此基础上不断反复进行训练、测试以及模型选择。下边来介绍下使用过的两个交叉验证方法,交叉验证的方法主要是使用sklearn库中方法,我们可以直接调用库中的方法,主要是在于参数的设置以及你应用...原创 2018-03-22 21:51:52 · 1360 阅读 · 0 评论 -
Github提交没有commits显示(也就是没有小绿框的显示)
Github提交没有commits显示(也就是没有小绿框的显示)问题:最近提交项目到Github的时候,发现没有显示小绿框。当时没怎么在意,后来发现提交的时候断断续续的会有记录。解决办法:切换到本地的仓库地址,使用如下命令#使用查看log的命令发现有些提交的日志中没有指明作者的邮箱地址git log# 使用以下命令对作者的邮箱进行配置#如果只想修改这一个仓库的邮箱:git c...原创 2018-10-15 21:01:29 · 1742 阅读 · 0 评论