数据挖掘 Task1

最新推荐文章于 2024-07-11 21:40:10 发布

陌繁

最新推荐文章于 2024-07-11 21:40:10 发布

阅读量125

点赞数

本文链接：https://blog.csdn.net/yanchuner1/article/details/115678590

版权

import numpy as np
import pandas as pd
#载入数据集
Train_data=pd.read_csv('car_train_0110.csv',sep=' ')
Test_data=pd.read_csv('car_testA_0110.csv',sep=' ')
print('Train data shape:',Train_data.shape)
print('TestA data shape:',Test_data.shape)

Train data shape: (250000, 40)
TestA data shape: (50000, 39)

Train_data.head()

	SaleID	name	regDate	model	brand	bodyType	fuelType	gearbox	power	kilometer	...	v_14	v_15	v_16	v_17	v_18	v_19	v_20	v_21	v_22	v_23
0	134890	734	20160002	13.0	9	NaN	0.0	1.0	0	15.0	...	0.092139	0.000000	18.763832	-1.512063	-1.008718	-12.100623	-0.947052	9.077297	0.581214	3.945923
1	306648	196973	20080307	72.0	9	7.0	5.0	1.0	173	15.0	...	0.001070	0.122335	-5.685612	-0.489963	-2.223693	-0.226865	-0.658246	-3.949621	4.593618	-1.145653
2	340675	25347	20020312	18.0	12	3.0	0.0	1.0	50	12.5	...	0.064410	0.003345	-3.295700	1.816499	3.554439	-0.683675	0.971495	2.625318	-0.851922	-1.246135
3	57332	5382	20000611	38.0	8	7.0	0.0	1.0	54	15.0	...	0.069231	0.000000	-3.405521	1.497826	4.782636	0.039101	1.227646	3.040629	-0.801854	-1.251894
4	265235	173174	20030109	87.0	0	5.0	5.0	1.0	131	3.0	...	0.000099	0.001655	-4.475429	0.124138	1.364567	-0.319848	-1.131568	-3.303424	-1.998466	-1.279368

5 rows × 40 columns

分类指标评价计算示例

import numpy as np
from sklearn.metrics import accuracy_score
y_pred = [0, 1, 0, 1]
y_true = [0, 1, 1, 1]
print('ACC:',accuracy_score(y_true, y_pred))

ACC: 0.75

accuracy_score 分类准确率分数是指所有分类正确的百分比。分类准确率这一衡量分类器的标准比较容易理解，但是它不能告诉你响应值的潜在分布，并且它也不能告诉你分类器犯错的类型。
sklearn.metrics.accuracy_score(y_true, y_pred, normalize=True, sample_weight=None)
normalize：默认值为True，返回正确分类的比例；如果为False，返回正确分类的样本数
import numpy as np
from sklearn.metrics import accuracy_score
y_pred = [0, 2, 1, 3]
y_true = [0, 1, 2, 3]
accuracy_score(y_true, y_pred)
#0.5
accuracy_score(y_true, y_pred, normalize=False)
#2

## Precision,Recall,F1-score
from sklearn import metrics
y_pred = [0, 1, 0, 0]
y_true = [0, 1, 0, 1]
print('Precision',metrics.precision_score(y_true, y_pred))
print('Recall',metrics.recall_score(y_true, y_pred))
print('F1-score:',metrics.f1_score(y_true, y_pred))

Precision 1.0
Recall 0.5
F1-score: 0.6666666666666666

四个概念定义：TP、FP、TN、FN
先看四个概念定义：

TP，True Positive
FP，False Positive
TN，True Negative
FN，False Negative
如何理解记忆这四个概念定义呢？
举个简单的二元分类问题例子：
假设，我们要对某一封邮件做出一个判定，判定这封邮件是垃圾邮件、还是这封邮件不是垃圾邮件？
如果判定是垃圾邮件，那就是做出（Positive）的判定；
如果判定不是垃圾邮件，那就做出（Negative）的判定。
True Positive（TP）意思表示做出Positive的判定，而且判定是正确的。
因此，TP的数值表示正确的Positive判定的个数。
同理，False Positive（TP）数值表示错误的Positive判定的个数。
依此，True Negative（TN）数值表示正确的Negative判定个数。
False Negative（FN）数值表示错误的Negative判定个数。

Precision、Recall、Accuracy、F1 Score（F Score）
四个概念定义：
precision = TP / (TP + FP)
recall = TP / (TP + FN)
accuracy = (TP + TN) / (TP + FP + TN + FN)
F1 Score = P*R/2(P+R)，其中P和R分别为 precision 和 recall
如果某个二元分类问题，训练拟合得到了几个模型假设，那么通常我们选择在验证集上，F1 Score 数值最大的那个模型假设。

## AUC
import numpy as np
from sklearn.metrics import roc_auc_score
y_true = np.array([0, 0, 1, 1])
y_scores = np.array([0.1, 0.4, 0.35, 0.8])
print('AUC socre:',roc_auc_score(y_true, y_scores))

AUC socre: 0.75

AUC是衡量二分类模型优劣的一种评价指标，其他评价指标有精确度、准确率、召回率，而AUC比这三者更为常用。因为一般在分类模型中，预测结果都是以概率的形式表现，如果要计算准确率，通常都会手动设置一个阈值来将对应的概率转化成类别，这个阈值也就很大程度上影响了模型准确率的计算。AUC能很好描述模型整体性能的高低。从一定程度上讲,它可以描述预测结果中正例排在负例前面的概率。 
AUC（Area under the Curve of ROC）是ROC曲线下方的面积，是判断二分类预测模型优劣的标准。ROC（receiver operating characteristic curve）属于信号检测理论。通俗点的解释：从正样本中随机抽取一个样本，从负样本中随机抽取一个样本，通过二分类模型对其进行预测，得到正样本的预测概率为p1,负样本的为p2，p1>p2的可能性或概率就是AUC。 
ROC曲线的横坐标是伪阳性率（也叫假正类率，False Positive Rate），纵坐标是真阳性率（真正类率，True Positive Rate），这的计算方法如下： 
伪阳性率（FPR）  判定为正例却不是真正例的概率 真阳性率（TPR）  判定为正例也是真正例的概率 x轴与y轴的值域都是[0, 1]，随着判定正例的阈值不断增加，我们可以得到一组(x, y)的点，相连便作出了ROC曲线，示例图如下：  
 
ROC图从直观上看能得出两个结论：曲线点越接近右下角表示当前阈值预测正例出错的概率越高，准确性较低；曲线点越接近左上角则代表预测正例出错的概率越低，准确性较高。
————————————————
版权声明：本文为CSDN博主「满天星._」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_32146369/article/details/107373145

# coding=utf-8
import numpy as np
from sklearn import metrics
# MAPE需要自己实现
def mape(y_true, y_pred):
 return np.mean(np.abs((y_pred - y_true) / y_true))
y_true = np.array([1.0, 5.0, 4.0, 3.0, 2.0, 5.0, -3.0])
y_pred = np.array([1.0, 4.5, 3.8, 3.2, 3.0, 4.8, -2.2])
# MSE
print('MSE:',metrics.mean_squared_error(y_true, y_pred))
# RMSE
print('RMSE:',np.sqrt(metrics.mean_squared_error(y_true, y_pred)))
# MAE
print('MAE:',metrics.mean_absolute_error(y_true, y_pred))
# MAPE
print('MAPE:',mape(y_true, y_pred))

陌繁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘 Task1

import numpy as npimport pandas as pd#载入数据集Train_data=pd.read_csv('car_train_0110.csv',sep=' ')Test_data=pd.read_csv('car_testA_0110.csv',sep=' ')print('Train data shape:',Train_data.shape)print('TestA data shape:',Test_data.shape)Train data shape:
复制链接

扫一扫