Approaching (Almost) Any Machine Learning Problem | Abhishek Thakur—翻译

数据

在建立机器学习模型之前,已有数据j必需被转换成一个表格形式。这个过程是花费时间最长也是最难的,具体流程图如下:
这里写图片描述
Data Munging:数据清洗
Data Conversion:数据转换
现在数据挖掘模型就可以应用在数据表格上了。数据表格是数据挖掘或者机器学习数据最常见的表现形式。现在我们有一个数据表格,数据表格中有数据X和其对应的标签y。标签根据问题类型可以是一列或者多列。

标签种类

标签有很多种类型,比如:
单列标签,二进制(分类问题)
单列标签,实数(回归问题,预测一个值)
多列标签,二进制(分类问题,一个sample属于一类,但是有不同的属性)
多列标签,实数(回归问题,预测多个值)
多标签(分类问题,一个sample可以同时属于好多个类)

评价指标

必须要知道怎么评价我们的结果啊~balala~例如,在一个倾斜的二元分类问题中,我们通常AUC来评价(具体评价指标可以看看https://www.zhihu.com/question/30643044)在多标签(回归问题)或者多种类型分类问题中,我们一般选择交叉熵或多类对数损失和平均平方误差。

基本库:
numpy
scipy
pandas
scikit-learn
xgboost(树)
keras(神经网络)
matplotlib
tqdm

机器学习框架

这里写图片描述
图片中的粉色线条是最常用的流程。在我们把数据提取简化成一个表格形式之后,我们可以开始建立机器学习模型了。
第一步是通过Labels明确问题的类型。balala~~~就是上面讲的那些~一旦我们确定了问题的类型,我们把数据分成两个部分,一个training set和一个validation set。如下图:

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
近乎任何机器学习问题的解决方法有几个基本的步骤。 首先,了解问题。这包括明确问题的定义、目标和约束。要知道要解决什么问题,以及问题的局限性和可行性是什么。 其次,数据的准备和理解是非常重要的。需要收集和整理相关数据,并对数据进行探索性分析,以了解数据的特征、分布和关联性。其中,数据清洗是非常关键的步骤,包括处理缺失值、异常值和重复值等。同时,了解数据的背景和特点也是必要的,这有助于选择合适的特征工程方法。 第三步是选择适当的模型和算法。根据问题的性质和数据的特点,选择合适的机器学习模型和算法。常见的机器学习算法包括线性回归、逻辑回归、决策树、随机森林、支持向量机、神经网络等。在选择模型和算法时,需要考虑模型的复杂度、泛化能力和计算效率等因素。 接下来是模型的训练和评估。使用数据集将选择的模型进行训练,调整模型的参数和超参数,并使用评估指标对模型进行评估。常见的评估指标包括准确率、精确率、召回率、F1值等。 最后,是模型的调优和部署。根据评估结果,对模型进行调优,包括调整模型结构、正则化、特征选择等。在调优过程中可以使用交叉验证等方法对模型进行验证。最后,将训练好的模型部署到实际应用中,并进行后续的监测和维护。 以上是近乎任何机器学习问题的一般解决方法。然而,每个问题都有其独特的特点和挑战,需要根据具体情况进行调整和扩展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值