![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
Luna2137
这个作者很懒,什么都没留下…
展开
-
天池大赛——二手车交易价格预测方案分享(一)
这个比赛是天池的一个数据挖掘入门赛,要求根据提供的数据预测二手车的交易价格,属于回归问题,此篇主要分享一下特征工程和基础模型方面的思路。 **1. 特征基本统计**date_cols = ['regDate', 'creatDate']cate_cols = ['name', 'model', 'brand', 'bodyType', 'fuelType', 'gearbox', '...原创 2020-04-17 15:13:31 · 3447 阅读 · 0 评论 -
天池大赛——二手车交易价格预测方案分享——神经网络
这个比赛是天池上的一个入门比赛,要求根据提供的数据预测二手车的交易价格,是一个回归问题。特征工程主要参考的baseline的方法,最终得到是180维的特征,这里主要分享一下模型方面的设计思路。 推荐系统最常用的模型是LightGBM...原创 2020-04-14 15:08:43 · 3049 阅读 · 2 评论 -
[转载]与XGBoost、LightGBM并肩,一文理解CatBoost
本文转载自公众号:Microstrong和DatawhaleCatBoost和XGBoost、LightGBM并称为GBDT的三大主流神器,都是在GBDT算法框架下的一种改进实现。1. CatBoost简介CatBoost是俄罗斯的搜索巨头Yandex在2017年开源的机器学习库,是Boosting族算法的一种。CatBoost和XGBoost、LightGBM并称为GBDT的三大主流神器...原创 2020-04-03 13:00:09 · 392 阅读 · 0 评论 -
学习心得:用python读取mnist数据集的方法
mnist手写数字数据集在机器学习中非常常见,这里记录一下用python从本地读取mnist数据集的方法。数据集格式介绍这部分内容网络上很常见,这里还是简明介绍一下。网络上下载的mnist数据集包含4个文件:前两个分别是测试集的image和label,包含10000个样本。后两个是训练集的,包含60000个样本。.gz表示这个一个压缩包,如果进行解压的话,会得到.ubyte格式的二进制文件...原创 2020-01-06 14:28:02 · 8020 阅读 · 2 评论 -
日常排坑:ubuntu18.04安装TensorFlow-gpu版
安装TensorFlow-gpu版时,关于驱动问题遇到了很大的坑,这里记录一下。 TensorFlow-gpu版需要cuda和cudnn的支持,而cuda又需要NVIDIA驱动的支持,三者存在版本匹配的关系。 最新版的cuda是10.2,除了刚发布的TensorFlow2.0以外...原创 2019-11-25 16:13:11 · 204 阅读 · 0 评论 -
学习心得:不同优化求解器的特点
在神经网络中有几种常用的优化求解算法,在这里主要记录一下各个算法的优势和缺点,对选择提供一些依据。常用算法sgd:随机梯度下降法。每次从训练集中随机选择batch_size个样本进行正向传播计算平均loss,再进行反向传播更新权重参数。Momentum SGD和Nesterov Momentum(下面统称动量法):增加了动量项。Adagrad:在学...原创 2019-11-17 11:51:01 · 1610 阅读 · 0 评论 -
学习心得:精确度precision和召回率recall
精确度和召回率,是两个比较难以理解的模型评价指标。而且两者存在着难以兼得的关系。计算方法 两种指标的计算公式如下: 其中,TP为正样本预测为真的数目,FP为负样本预测为真的数目,FN为正样本预测为假的数目。二者的关系...原创 2019-11-01 17:15:05 · 1019 阅读 · 0 评论 -
学习心得:class_weight和samples_weight
学习Logistic回归的时候,在sklearn的LogisticRegression类中,构建学习器时,有一个参数是class_weight。另外在这个类的fit方法中,有一个参数是sample_weight。对这两个参数有一些认识,写篇文章记录一下。类权重: class_weight 对于分类任务,当样本集中各个...原创 2019-11-01 16:51:09 · 2311 阅读 · 0 评论 -
学习心得:特征工程
最近学习了机器学习中很常用的线性回归和Logistic回归。前者用于回归问题,后者用于分类问题。在用这两种模型进行训练的过程中,对训练特征的预处理,或者叫特征工程,有一些体会,因此写一篇文章记录一下。数据探索 在做特征工程之前要进行数据探索。一般要注意几个地方:观察特征数和样本数。如果特征数过少,可能要通过某些...原创 2019-11-01 16:08:29 · 206 阅读 · 0 评论 -
日常排坑:安装sklearn时遇到的一些坑
sklearn是机器学习一个很常用的包,但是当我第一次在pycharm里用的时候,在import sklearn这一句报错了,提示一堆错误,最后一个错误是 无效的win32程序。网上搜索了很多内容,有用的不多,最终在一个帖子里找到了解决方案。解决方法出现这种问题的原因一般是sklearn和numpy的版本不匹配造成的。我的环境是在anaconda中配好的,numpy是anaconda创...原创 2019-11-01 14:20:54 · 1913 阅读 · 0 评论