自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

转载 NDCG的理解

概念NDCG,Normalized Discounted cumulative gain 直接翻译为归一化折损累计增益,可能有些晦涩,没关系下面重点来解释一下这个评价指标。这个指标通常是用来衡量和评价搜索结果算法(注意这里维基百科中提到了还有推荐算法,但是我个人觉得不太适合推荐算法,后面我会给我出我的解释)。DCG的两个思想:1、高关联度的结果比一般关联度的结果更影响最终的指标得分;2、有高关联度的结果出现在更靠前的位置的时候,指标会越高;累计增益(CG)CG,cumulative gain,是D

2020-10-29 16:55:37 7720

原创 华为美食识别入门比赛-第三名方案分享

比赛简介    共10类食物,数据集共5000个图片,尺寸大小不一,类别分别均衡。需要自己划分训练集和验证集,用于判分的测试集不可见。    比赛难度不大,主要难点在于如何减小过拟合,提高模型的泛化能力。代码已在我的github上开源,欢迎star。源码的github地址   &n...

2020-05-01 12:37:28 858 8

原创 天池大赛——二手车交易价格预测方案分享(一)

这个比赛是天池的一个数据挖掘入门赛,要求根据提供的数据预测二手车的交易价格,属于回归问题,此篇主要分享一下特征工程和基础模型方面的思路。 **1. 特征基本统计**date_cols = ['regDate', 'creatDate']cate_cols = ['name', 'model', 'brand', 'bodyType', 'fuelType', 'gearbox', '...

2020-04-17 15:13:31 3444

原创 天池大赛——二手车交易价格预测方案分享——神经网络

       这个比赛是天池上的一个入门比赛,要求根据提供的数据预测二手车的交易价格,是一个回归问题。特征工程主要参考的baseline的方法,最终得到是180维的特征,这里主要分享一下模型方面的设计思路。       推荐系统最常用的模型是LightGBM...

2020-04-14 15:08:43 3044 2

原创 [转载]与XGBoost、LightGBM并肩,一文理解CatBoost

本文转载自公众号:Microstrong和DatawhaleCatBoost和XGBoost、LightGBM并称为GBDT的三大主流神器,都是在GBDT算法框架下的一种改进实现。1. CatBoost简介CatBoost是俄罗斯的搜索巨头Yandex在2017年开源的机器学习库,是Boosting族算法的一种。CatBoost和XGBoost、LightGBM并称为GBDT的三大主流神器...

2020-04-03 13:00:09 392

原创 Pytorch——fine-tune相关经验总结

最近几天在参加AI研习社的一个美食识别比赛,比赛方提供了6140张图片的训练集,856张图片的测试集。其中测试集没有标签,只用来生成预测数据进行提交。任务难度不是很高,但是在做的过程中还是遇到了一些问题,有一些经验值得总结,这里主要记录一下在模型fine-tune中的一些经验教训。1.模型选择由简单到复杂,先后选择了resnet50、resnet101、resnext50_32x4d、res...

2020-02-18 13:25:48 1060

原创 学习心得:用python读取mnist数据集的方法

mnist手写数字数据集在机器学习中非常常见,这里记录一下用python从本地读取mnist数据集的方法。数据集格式介绍这部分内容网络上很常见,这里还是简明介绍一下。网络上下载的mnist数据集包含4个文件:前两个分别是测试集的image和label,包含10000个样本。后两个是训练集的,包含60000个样本。.gz表示这个一个压缩包,如果进行解压的话,会得到.ubyte格式的二进制文件...

2020-01-06 14:28:02 8013 2

原创 日常排坑:ubuntu18.04安装TensorFlow-gpu版

     安装TensorFlow-gpu版时,关于驱动问题遇到了很大的坑,这里记录一下。     TensorFlow-gpu版需要cuda和cudnn的支持,而cuda又需要NVIDIA驱动的支持,三者存在版本匹配的关系。     最新版的cuda是10.2,除了刚发布的TensorFlow2.0以外...

2019-11-25 16:13:11 204

原创 学习心得:不同优化求解器的特点

     在神经网络中有几种常用的优化求解算法,在这里主要记录一下各个算法的优势和缺点,对选择提供一些依据。常用算法sgd:随机梯度下降法。每次从训练集中随机选择batch_size个样本进行正向传播计算平均loss,再进行反向传播更新权重参数。Momentum SGD和Nesterov Momentum(下面统称动量法):增加了动量项。Adagrad:在学...

2019-11-17 11:51:01 1607

原创 学习心得:精确度precision和召回率recall

     精确度和召回率,是两个比较难以理解的模型评价指标。而且两者存在着难以兼得的关系。计算方法     两种指标的计算公式如下:        其中,TP为正样本预测为真的数目,FP为负样本预测为真的数目,FN为正样本预测为假的数目。二者的关系...

2019-11-01 17:15:05 1017

原创 学习心得:class_weight和samples_weight

     学习Logistic回归的时候,在sklearn的LogisticRegression类中,构建学习器时,有一个参数是class_weight。另外在这个类的fit方法中,有一个参数是sample_weight。对这两个参数有一些认识,写篇文章记录一下。类权重: class_weight     对于分类任务,当样本集中各个...

2019-11-01 16:51:09 2310

原创 学习心得:特征工程

      最近学习了机器学习中很常用的线性回归和Logistic回归。前者用于回归问题,后者用于分类问题。在用这两种模型进行训练的过程中,对训练特征的预处理,或者叫特征工程,有一些体会,因此写一篇文章记录一下。数据探索     在做特征工程之前要进行数据探索。一般要注意几个地方:观察特征数和样本数。如果特征数过少,可能要通过某些...

2019-11-01 16:08:29 205

原创 日常排坑:安装sklearn时遇到的一些坑

sklearn是机器学习一个很常用的包,但是当我第一次在pycharm里用的时候,在import sklearn这一句报错了,提示一堆错误,最后一个错误是 无效的win32程序。网上搜索了很多内容,有用的不多,最终在一个帖子里找到了解决方案。解决方法出现这种问题的原因一般是sklearn和numpy的版本不匹配造成的。我的环境是在anaconda中配好的,numpy是anaconda创...

2019-11-01 14:20:54 1912

原创 学习心得:SIFT特征

本文主要记录自己对SIFT特征的一些理解。SIFT特征SIFT特征是图像的一种具有旋转、缩放、平移不变性的特征。对于一幅图像,SIFT算法经过一系列复杂运算,输出若干个特征点,并为每个特征点构建一个128维的特征向量,这个特征向量对旋转、缩放、平移不敏感。SIFT的常见应用:在两幅图像中都有同一个目标,但它们的姿态不同(如经过了旋转、缩放、光照变化、部分遮挡等)。对两幅图像分别提取SIFT...

2019-10-21 12:01:34 378

原创 学习心得:图像分割

这篇文章主要记录灰度直方图以及常用的几个图像分割方法。灰度直方图灰度直方图代表了一幅灰度图像所有像素点在各个灰度值上出现的频率。一般图像分割是为了把图像主体和背景进行分割从而得到图像主体(或者叫前景)。前景和背景灰度不同,因此在灰度直方图上会形成不同的波峰,找到合适的阈值分割两个波峰即可实现图像分割。因此灰度直方图给我们的指导作用在于,通过直方图我们可以大概确定阈值应该在什么范围内。大津...

2019-10-08 14:52:32 1475

原创 学习心得:Sobel算子及Opencv实现

Sobel算子是用来提取图像边缘的,而边缘在灰度图中表现为灰度值变化剧烈的位置,可以用像素值差分结果的大小来表征变化剧烈与否。离散情况下的差分对应的是连续域的微分,因此一般的边缘提取算子其思想都是求图像的微分,如1阶微分和2阶微分,同时又因为图像存在x和y两个方向,因此会出现偏微分。Sobel算子原理Sobel算子计算图像差分,依赖两个卷积核,如下图所示。左侧代表在x方向上进行加权差分,...

2019-10-08 13:07:12 622

原创 学习心得:HSV颜色空间

HSV颜色空间概述有别于RGB颜色空间,HSV颜色空间的三个通道,实际作用不是很容易理解,所以有必要在此记录一下。H通道H通道代表色度,描述的是纯色的属性。从上图中可以看到,在圆周上从0开始是红色,逆时针转动经过的颜色,其H值逐渐增大。S通道S通道代表饱和度,在图中对应的是圆盘上的半径方向。越往外饱和度越高,相反到圆心时饱和度衰减为0,对应的是白色。V通道V通道也就I通道,表示亮...

2019-10-08 12:39:25 1049

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除