机器学习
佛系调参
这个作者很懒,什么都没留下…
展开
-
mAP的概念
mAP(mean average precision)均值平均精度:是目标检测中常用的模型衡量指标,可以理解为:数据集中所有类的预测平均精度的均值。下面按照IoU==> precision ==> average precision ==>mean average precision进行介绍:IoU:预测框和真实标记框ground truth的交并比。只有IoU大于某一个...原创 2018-11-27 17:27:20 · 1128 阅读 · 1 评论 -
scikit-learn处理输入数据缺失值的类:Imputer
可选参数strategy: 'mean'(默认的), ‘median’中位数,‘most_frequent’出现频率最大的数 axis: 0(默认), 1 copy: True(默认), False输出numpy数组,之后可转化为DataFrame形式 属性: Imputer.statistics_可以查看每列的均值/中位数特别说明:最好将imputer应用于整个数据...原创 2018-11-19 19:00:56 · 3130 阅读 · 0 评论 -
数据归一化/标准化
方法1:归一化(normalization):将值转化为0—1之间 调用方法:from sklearn import MinMaxScaler(feature_range=num)说明:超参数feature_range默认为1,可以自己设置新值得范围0—nu...原创 2018-11-19 11:13:57 · 271 阅读 · 0 评论 -
主成分分析PCA
from sklearn.decomposition import PCApca=PCA(n_components=3) #n_components='mle'将自动确定主成分个数pca=PCA(n_components=0.90) #0<n_components<1时是通过设置累计方差和的阈值形式确定主成分个数pca.fit(x_train)x_train=pca.t...原创 2018-11-16 19:09:19 · 299 阅读 · 0 评论 -
数据标准化——scikit-learn
标准化目的:使各个特征都具有均值零和单位方差,因为很多机器学习算法都要求样本的中心在0附近,并且各个样本的方差具有相同的数量级,如果某个特征的方差过大,它将在算法中占据很大作用,影响算法从特征集中的学习效果scikit learning中原文表述:程序 from sklearn.preprocessing import StandardScalerscaler=Standa...原创 2018-11-16 18:59:57 · 409 阅读 · 0 评论 -
scikit-learn调参辅助
learning_curve:作用:模型精度和不同大小数据集之间的关系from sklearn.model_selection import learning_curvetrain_sizes, train_scores, test_scores = learning_curve(estimator=pipe_clf, X=X_train, y=y_train...原创 2018-11-15 21:02:27 · 207 阅读 · 0 评论 -
CV专业术语总结
MS COCO(common objects in contexts)是一个经典目标检测数据集(Microsoft公司建立的) PASCAL VOC(The PASCAL Visual Object Classification)是目标检测,分类,分割等领域一个有名的数据集 SOTA(state of the art)当前最高水平 image path图像块 mAP:(Mean A...原创 2018-10-19 15:03:13 · 2033 阅读 · 0 评论 -
Numpy中Meshgrid函数介绍
可以这么理解,meshgrid函数用两个坐标轴上的点在平面上画网格。用法:[X,Y]=meshgrid(x,y)[X,Y]=meshgrid(x)与[X,Y]=meshgrid(x,x)是等同的[X,Y,Z]=meshgrid(x,y,z)生成三维数组,可用来计算三变量的函数和绘制三维立体图这里,主要以[X,Y]=meshgrid(x,y)为例,来对该函数进行介绍。[X,Y] = me...翻译 2018-09-21 15:55:26 · 401 阅读 · 0 评论 -
OneHotEncoder独热编码和 LabelEncoder标签编码
首先了解机器学习中的特征类别:连续型特征和离散型特征 拿到获取的原始特征,必须对每一特征分别进行归一化,比如,特征A的取值范围是[-1000,1000],特征B的取值范围是[-1,1].如果使用logistic回归,w1*x1+w2*x2,因为x1的取值太大了,所以x2基本起不了作用。所以,必须进行特征的归一化,每个特征都单独进行归一化。 对于连续性特征:...原创 2018-09-20 16:45:34 · 296 阅读 · 0 评论 -
kmeans及其python实现
k-means算法的基础是最小误差平方和准则,代价函数是:式中是第c族的质心坐标(均值)伪代码如下:创建k个点作为初始的质心点(随机选择)当任意一个点的簇分配结果发生改变时: 对数据集中的每一个数据点: 对每一个质心: ...原创 2019-08-20 23:14:46 · 538 阅读 · 0 评论