模型,算法,数据的结与“解”

前一篇写过关于数据的认知,感觉理解的还是不到位,再写一次。
采用周志华老师出版的西瓜书来阐述相关概念:

数据(raw data/data):一般包括未经处理的样本(图片,文本,声音,视频),经过处理(数值,向量),也是客观事物的属性、数量、位置及相关关系的抽象表示。数据集,样本(记录),特征(反应对象在某方面的表现,也称为属性),数据标注(打标签)。见 数据的认知

数据集一般会被划分为训练集和测试集,很多时候还会划分出验证集。训练集用于训练得到神经网络模型,然后用验证集验证模型的有效性,挑选获得最佳效果的模型,直到我们得到一个满意的模型为止。

算法(algorithm): 把你的数据输入你认为可能是佳选择的机器学习算法,并行或依次运行这些算法,最后评估算法的表现,选出最好的那个。在决定使用哪种算法时,必须考虑数据的类型和种类。训练过程需要依据某种章法进行运算。这个章法,就是算法。

算法 ==(数据—>模型),经验数据 + 算法 == 模型

训练:根据已经被指定的 f(x) 的具体形式——模型类型,结合训练数据,执行某个学习算法,计算出其中各个参数的具体取值的过程。

模型(model): 通过训练数据得到的结果(从数据中学到的结果),可以用来预测,线性模型(线性回归,逻辑回归),非线性模型(神经网络,深度学习和支持向量机),目标是很好的适用于"新样本"(泛化能力)。

在这里插入图片描述

**特征工程:**确定用哪些特征来表示数据;确定用什么方式表达这些特征(数据增强)。

使模型更易于解释(比如分箱)
抓取更复杂的关系(比如神经网络)
减少数据冗余和维度(比如主成分分析)
重新缩放变量(比如标准化或正则化)

算法工程师的职责包括:研发新算法;针对现实问题构造目标函数,选取并优化算法求解;将他人研究的最新算法应用到自己的业务问题上。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值