【统计知识】 2

小白学数据,只为记录学习进程,对每个问题有新的理解会及时更正。

一、ROC曲线
TPR = TP / (TP+FN):召回率(Recall)
FPR = FP / (FP+TN)
TP / (TP+FN):精确度(Percision)
(TP+TN) / (TP+FP+TN+FN):正确率

二、等深划分,等宽划分
等深划分:保证每个划分区间的长度一样
等宽划分:保证每个区间里面的数据数量一样

三、数据的属性类型
1、标注属性
2、二元属性:只有两个状态,0和1,比如性别属性
(对称二元属性:属性的两个状态的权重相同,例如:“性别”这一属性的取值“男性”,“女性”。
非对称二元属性:即状态的权重不相同,例如:“HIV”有“阴性”和“阳性”,阳性比较稀少,更重要)
3、序数属性:离散的等级评定属性,比如优,良,及格,不合格
4、区间标度属性:可以比较的数值属性,但没有绝对0点,故没有倍数关系,比如摄氏度
5、比率标度属性:可以比较,可以有倍率关系的数值属性
6、离散属性、连续属性

四、数据抽样的方法
1、简单随机抽样(有放回和无放回)
2、分层抽样:当某些属性的值会明显影响预测结果的时候,选择分层抽样,比如性别男女,根据性别的比列,从男女中抽样出等比例的样本
3、系统抽样:确定好区间个数和区间长度,在每个区间的相同位置抽取样本,即等差数列的抽法
4、渐进抽样:当样本数量不确定,我们可以先确定一个较小的数当作样本数目,然后不断增大样本数,观察准确率,选择准确率开始稳定的样本数量。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值