机器学习
炼丹师666
要学神仙,驾鹤飞天,点石成金,妙不可言!
展开
-
正负样本极不平衡带来的影响
假设特征有效,正负样本在特征空间里的分布是有差别的,比如有的空间区域正负样本比例是1:10,而有的区域正负样本比例是1:1000000,即特征对于样本预测仍然有效,而模型尝试学习的就是这个映射关系。但由于样本不均衡,在大部分特征空间区域,仍然是预测为负样本会带来更小的损失,从而导致模型失效,或者预测值总是集中的0附近。也就是说预测偏向样本数较多的分类。这样就会大大降低模型的范化能力。往往acc...原创 2020-02-27 17:28:14 · 3285 阅读 · 0 评论 -
如何解决正负样本不均衡
参考:如何解决样本不均衡的问题https://www.jianshu.com/p/76dce1fca85b过采样小样本(SMOTE),欠采样大样本为少数类样本赋予更大的权值,为多数类样本赋予较小的权值通过组合集成方法解决...原创 2020-02-16 22:37:51 · 349 阅读 · 0 评论 -
机器学习算法中GBDT和XGBOOST的区别
https://www.cnblogs.com/fujian-code/p/9018114.htmlxgboost相比传统gbdt有何不同?xgboost为什么快?xgboost如何支持并行?xgboost在代价函数里加入了正则项Shrinkage(缩减),相当于学习速率(xgboost中的eta)列抽样(column subsampling)。xgboost借鉴了随机森林的做法,支持列抽...原创 2020-06-25 17:49:44 · 138 阅读 · 0 评论 -
kmeans监督学习算法示例
kmeans监督学习算法示例命令语句:用sklearn的任何一个监督模型包的训练语句和预测语句。# skleanrn 语句from sklearn.cluster import KMeansimport numpy as npX = np.array([[1, 2], [1, 4], [1, 0], [4, 2], [4, 4], [4, 0]])kmeans ...原创 2020-06-25 17:50:05 · 508 阅读 · 0 评论 -
Keras-文本序列_文本向量化(一)(标记做 one-hot 编码)
Keras-文本序列_文本向量化(标记做 one-hot 编码)参考:https://blog.csdn.net/qq_30614345/article/details/987148746.1.1 单词和字符的 one-hot 编码代码清单 6-1 单词级的 one-hot 编码(简单示例)代码清单 6-2 字符级的 one-hot 编码(简单示例)代码清单 6-3 用 Keras 实...原创 2020-02-04 18:51:33 · 969 阅读 · 1 评论 -
机器学习一般流程
理解实际业务场景问题是机器学习的第一步。2 获取数据 哪些表不仅如此还要对评估数据(样本数量、特征数量)的量级,3 特征工程特征工程包括从原始数据中特征选择,特征提取,特征构建数据预处理、缺失值 ,异常值 ,归一化、离散化、缺失值处理筛选出显著特征、摒弃非显著特征,需要机器学习工程师反复理解业务。这对很多结果有决定性的影响。特征选择需要运用特征有效性分析的相关技术,如相关系...原创 2020-01-16 22:10:54 · 1330 阅读 · 0 评论 -
sparkml_实战全流程_LogisticRegression(一)
sparkml_实战全流程_LogisticRegression2.1 加载数据创建转换器、评估器birth place使用one-hot编码创建一个评估器VectorAssembler接受以下输入列类型:所有数值类型、布尔类型和向量类型2.3 创建一个管道、拟合模型拟合模型 randomSplit划分测试集 训练集2.4 评估模型2.5 保存模型 保存管道载入模型...原创 2020-01-12 17:26:07 · 605 阅读 · 0 评论 -
机器学习大神博客收藏
http://wepon.me/原创 2020-01-01 15:20:17 · 171 阅读 · 0 评论 -
天池大赛o2o优惠券第一名代码解读_xgboost方式
天池大赛o2o优惠券第一名代码解读具体看代码的注释可参考这https://blog.csdn.net/fahail/article/details/75917689代码地址:https://github.com/reader-sword/O2O-Coupon-Usage-Forecast特征构建部分import pandas as pdimport numpy as npfrom ...转载 2019-11-26 11:35:00 · 630 阅读 · 3 评论