推荐系统三十六式学习笔记：工程篇.常见模型27|巧妇难为无米之炊：数据采集关键要素

浊酒南街

于 2024-07-31 10:49:34 发布

阅读量993

点赞数 18

分类专栏： # 推荐系统三十六式文章标签：推荐系统学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43597208/article/details/140802481

版权

目录

日志和数据
数据采集
总结

推荐系统离不开数据，数据就是推荐系统的粮食，要有数据就得收集数据。在自己产品中收集数据，主要还是来自日志

日志和数据

数据驱动这个概念也是最近几年才开始流行起来的，在古典互联网时代，设计和开发完全侧重于功能易用和设计精巧上，并且整体驱动力受限于产品负责人的个人眼光，也因此对积累数据这件事不是很重视。

管局数据采集,按照用途分类又有三种：
1.报表统计
2.数据分析
3.机器学习

当然，这三种的用途并不冲突，反而有层层递进的关系。最基本的数据收集，是为了统计一些核心的产品指标，例如次日留存，七日留存等，一方面是为了监控产品的健康状态。一方面是为了对外秀肌肉，这一类数据使用非常浅层，对数据的采集要求也不高。

第二种就是比较常见的数据采集需求所在了。在前面第一种用途基础上，不但需要知道产品是否健康，还需要知道为什么健康、为什么不健康，做对了什么事、做错了什么事，要从数据中去找到根本的原因。

数据分析工作，最后要产生的是比较清晰直观的结论。它主要用于指导产品设计，指导商业推广、指导开发方式。走到这一步的数据采集，已经是实打实的数据驱动产品了。

第三种，就是收集数据为了机器学习应用，或者更广泛地说人工智能应用，主要在消化数据的角色是算法，是计算机而不是人。

所以在数据采集上，可以说多多益善，样本是多多益善，数据采集的维度，也就是字段数多多益善，但另一方面，数据是否适合分析，数据是否易于可视化地操作并不是核心的内容。

当然，实际上在任何一款需要有推荐系统的产品中，数据采集的需求很可能要同时满足上述三种要求。

下面我就开始给你详细剖析一下为推荐系统收集日志这件事。

数据采集

给推荐系统收集日志这件事，依次要讨论的是：日志的数据模型，收集那些日志，用什么工具收集，收集的日志怎么存储；

1.数据模型

数据模型是什么？所谓数据模型，其实就是把数据归类。不同的数据应用，数据模型略有不同。

就推荐系统而言࿰

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。