类失衡下的数据挖掘（解决数据不平衡问题）

最新推荐文章于 2023-02-13 17:15:31 发布

VIP文章 ANN同学在搬砖

最新推荐文章于 2023-02-13 17:15:31 发布

阅读量451

点赞数

分类专栏：机器学习文章标签：数据挖掘人工智能 Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46694782/article/details/128915404

版权

1 什么是类失衡？

•类失衡问题：数据集中各个类别的样本量极不均衡时，模型会往往表现出对少数类的偏见，极端情况下会直接忽略少数类

•问题预设：在分类问题中，存在某一类的样本数量远大于其他类的样本数量，在二分类情况下把两类样本的比例达到100:1的数据集称为不平衡数据。

•典型场景：疾病识别；违约预测

EBITDA利息倍数与净资产收益率特征下违约债券的样本分布

C0 的曲线总是在 C1 曲线之上，因此对于任意给定点，它出自 C0 类的概率总大于出自 C1 类的概率。用贝叶斯公式来表示：

即可将实际问题抽象为：

二分类数据不平衡问题（不可分离情况）

2 应对类失衡的方式

(1) 方法一 - 数据处理

最低0.47元/天解锁文章

ANN同学在搬砖

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
类失衡下的数据挖掘（解决数据不平衡问题）

1 什么是类失衡？•类失衡问题：数据集中各个类别的样本量极不均衡时，模型会往往表现出对少数类的偏见，极端情况下会直接忽略少数类•问题预设：在分类问题中，存在某一类的样本数量远大于其他类的样本数量，在二分类情况下把两类样本的比例达到100:1的数据集称为不平衡数据。•典型场景：疾病识别；违约预测EBITDA利息倍数与净资产收益率特征下违约债券的样本分布C0 的曲线总是在 C1 曲线之上，因此对于任意给定点，它出自 C0 类的概率总大于出自 C1 类的概率。
复制链接

扫一扫

专栏目录

ANN同学在搬砖 CSDN认证博客专家 CSDN认证企业博客

码龄4年

13: 原创

105万+: 周排名

206万+: 总排名

2万+: 访问

: 等级

151: 积分

13: 粉丝

7: 获赞

4: 评论

100: 收藏

私信

关注

热门文章

分类专栏

最新评论

监管科技概述与内涵
qq_43246415: 搜索微信小程序【制度查一查】，分类选择【金融科技】，可以下载当前所有的【监管沙盒文件】
监管科技概述与内涵
qq_43246415: 搜索微信小程序【制度查一查】，分类选择【金融科技】，可以下载当前所有的【监管沙盒文件】
金融科技监管沙盒
qq_43246415: 搜索微信小程序【制度查一查】，分类选择【金融科技】，可以下载当前所有的【监管沙盒文件】
金融科技监管沙盒
qq_43246415: 搜索微信小程序【制度查一查】，分类选择【金融科技】，可以下载当前所有的【监管沙盒文件】

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。