模型评估
泰格数据
我们不生产数据,我们只是数据的搬运工
我们不仅是数据搬运工,我们也是数据价值创造者
展开
-
机器学习特征稳定性评估-分布式scala实现
泰格: 士别三日当刮目相待,模型也一样,客流不断变化,特征的分布不断变化,模型的结果分布也会受到影响。所以在工业界中,对线上模型的监控是非常重要的。概述 考察稳定性最好的办法就是抽取另一个时间窗口的数据(最好是最新时间的数据),通过模型在这些新数据上的表现来与之前在训练集和测试集上的表现进行比较,看模型的稳定性,其效果衰减幅度是否可以接受,如果条件许可,最好用几个不同时间窗口的数据分别进行观察比较。公式PSI = sum((实际占比-预期占比)* ln(实际占比/...原创 2020-05-31 22:47:22 · 1691 阅读 · 0 评论 -
华为垃圾分类大赛亚军答辩心得和PPT分享
泰格: 19年参加华为垃圾分类CV赛,有幸获得一个亚军,比赛过去有点久了,具体的代码内容就不再分享,分享下当时答辩的PPT,有兴趣的同学欢迎探讨!技巧总结1、10比赛9融合五折交叉、十折交叉后融合,效果特别好2、模型的尝试和选择非常重要,不同的数据和任务模型差异非常大, 并不是根据github或者论文对比里面的准确度。3、融合的方式:加权平均、几何平均,靠上分尝试,在每天有剩余次数 的情况下,做更多的融合尝试4、融合模型之间的差异性,数据处理的差异性,模型基础网络的差异性。...原创 2020-05-29 00:03:24 · 1780 阅读 · 1 评论 -
机器学习模型评估综述-二分多分回归聚类稳定性评分卡特征重要性
泰格: 采菊东篱下,悠然现南山,误入机器歧途,无丝竹案牍渐渐远。盼钟鼓馔玉不足贵之境,望可长醉不复醒之日!概述 模型的评估对于做机器学习是一个很重要的一个领域,所有的模型要想进行评价,必须要有相应的评估指标,这些评估指标经过业务的千锤百炼沉淀了好几十年的!最常见的评估指标,就是准确率、精准率、召回率等,很早之前不懂机器学习的时候,听到别人讲到模型召回率多少,提升了多少,感觉很牛逼,现在听到这些,哇,感觉还是很牛逼。所以有必要详细总结下所有模型评估的方法。...原创 2020-05-28 23:30:11 · 2159 阅读 · 0 评论 -
聚类模型评估综述-兰德指数的公式理解及scala版本实现
概述聚类的评估的指标,大方向是分为内部指标和外部指标。内部指标:包括轮廓系数、Calinski-Harabaz 指数 等,内部指标是在开发阶段用的,一般用来选择聚类的个数。外部指标:分为两种:有标签的结果评价:包括 兰德指数、纯度、互信息、v-measure无标签结果评估:于聚类中心的平均距离等兰德指数给定nn个对象集合S={O1,O2,....,On}S={O1,O2,....,On},假设U={u1,...,uR}U={u1,...,uR}和V={v1,...,v..原创 2020-05-27 23:02:14 · 2421 阅读 · 0 评论 -
二分类模型-分布式SPARK效果评估实现代码+混淆矩阵
最近在做一个平台级的项目,为了保证分布式的可扩展性,评估最终用sparkmlib进行模型的评估,sparkmlib里面封装好了二分类、多分类、聚类的通用的评估指标,通用指标实现起来都比较简单。关键点: val metrics=new BinaryClassificationMetrics(scoreAndLable,100) 获取到预测列和标签列,并转化为RDD[double,double]。BinaryClassificationMetrics第二个参数解释:这个一个分箱参数,可能你...原创 2020-05-15 11:01:17 · 1541 阅读 · 0 评论