Approaching (Almost) Any Machine Learning Problem | Abhishek Thakur—翻译

最新推荐文章于 2023-11-20 15:23:13 发布

zouyutu5296

最新推荐文章于 2023-11-20 15:23:13 发布

阅读量1.6k

点赞数

文章标签：机器学习数据挖掘

本文链接：https://blog.csdn.net/zouyutu5296/article/details/78660635

版权

数据

在建立机器学习模型之前，已有数据j必需被转换成一个表格形式。这个过程是花费时间最长也是最难的，具体流程图如下：
这里写图片描述
Data Munging:数据清洗
Data Conversion:数据转换
现在数据挖掘模型就可以应用在数据表格上了。数据表格是数据挖掘或者机器学习数据最常见的表现形式。现在我们有一个数据表格，数据表格中有数据X和其对应的标签y。标签根据问题类型可以是一列或者多列。

标签种类

标签有很多种类型，比如：
单列标签，二进制（分类问题）
单列标签，实数（回归问题，预测一个值）
多列标签，二进制（分类问题，一个sample属于一类，但是有不同的属性）
多列标签，实数（回归问题，预测多个值）
多标签（分类问题，一个sample可以同时属于好多个类）

评价指标

必须要知道怎么评价我们的结果啊~~~balala~~~例如，在一个倾斜的二元分类问题中，我们通常AUC来评价（具体评价指标可以看看https://www.zhihu.com/question/30643044）在多标签(回归问题)或者多种类型分类问题中，我们一般选择交叉熵或多类对数损失和平均平方误差。

库

基本库：
numpy
scipy
pandas
scikit-learn
xgboost（树）
keras(神经网络)
matplotlib
tqdm

机器学习框架

这里写图片描述
图片中的粉色线条是最常用的流程。在我们把数据提取简化成一个表格形式之后，我们可以开始建立机器学习模型了。
第一步是通过Labels明确问题的类型。balala~~~就是上面讲的那些~~~一旦我们确定了问题的类型，我们把数据分成两个部分，一个training set和一个validation set。如下图：~~