精通特征工程(从原始数据中提取特征并转化为适合机器学习模型的格式)【参考书籍:《精通特征工程》陈光欣·译】

第一章 机器学习流程


1.1 数据


数据是对现实世界现象的观测或记录。任何事物在任何时候任何地点都会产生无穷无尽的数据,我们需要利用所学习的知识去从不完全的,随机的,含有噪音的的数据中挖掘出有价值的信息,从而做出决策。

在这里补充说明DIKM模型【不管是在学习还是生活中,这个模型都有一定的指导意义】:

我们学习的终极目标就是和这个模型相吻合的,就是获取掌握知识,成为有"有智慧"的人。


1.2 任务


任务就是我们收集数据,利用数据的目的?如:为了了解导致肾病原因,我们需要手机评价肾功能的相关指标,在有数据得到我们想要的答案的过程中,需要经历非常曲折的路径,那么需要两个工具帮助我们实现快捷准确达到目的地:模型特征


1.3 模型


模型我们一般会想到数学模型,数学模型就是将数据的不同部分之间联系起来,可以构建一个数学公式来讲数值性的变量联系起来,比如:衡量肾功能的指标尿素和肌酐,CKD-EPI公式来估算肾小球滤过率(eGFR)等。但是对于非数值性的数据我们又该如何表示,并用模型进行计算?--->特征


1.4 特征 


特征是原始数据的数值表示。但是如何转化特征,转化为什么类型的数据?需要根据具体的应用场景来选择。特征工程就是需要在给定数据、模型和任务的情况下来设计出最为合适的特征的过程。要做到具体问题具体分析,"天下没有免费的午餐"定理。


1.5 模型评价


模型和特征之间的关系是相辅相成的,好的特征会使得建模的步骤会更加的容易;坏的特征如果要达到同等性能则需要使模型变得更为复杂。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值