数据
在建立机器学习模型之前,已有数据j必需被转换成一个表格形式。这个过程是花费时间最长也是最难的,具体流程图如下:
Data Munging:数据清洗
Data Conversion:数据转换
现在数据挖掘模型就可以应用在数据表格上了。数据表格是数据挖掘或者机器学习数据最常见的表现形式。现在我们有一个数据表格,数据表格中有数据X和其对应的标签y。标签根据问题类型可以是一列或者多列。
标签种类
标签有很多种类型,比如:
单列标签,二进制(分类问题)
单列标签,实数(回归问题,预测一个值)
多列标签,二进制(分类问题,一个sample属于一类,但是有不同的属性)
多列标签,实数(回归问题,预测多个值)
多标签(分类问题,一个sample可以同时属于好多个类)
评价指标
必须要知道怎么评价我们的结果啊~balala~例如,在一个倾斜的二元分类问题中,我们通常AUC来评价(具体评价指标可以看看https://www.zhihu.com/question/30643044)在多标签(回归问题)或者多种类型分类问题中,我们一般选择交叉熵或多类对数损失和平均平方误差。
库
基本库:
numpy
scipy
pandas
scikit-learn
xgboost(树)
keras(神经网络)
matplotlib
tqdm
机器学习框架
图片中的粉色线条是最常用的流程。在我们把数据提取简化成一个表格形式之后,我们可以开始建立机器学习模型了。
第一步是通过Labels明确问题的类型。balala~~~就是上面讲的那些~一旦我们确定了问题的类型,我们把数据分成两个部分,一个training set和一个validation set。如下图: