推荐系统三十六式学习笔记:工程篇.常见模型27|巧妇难为无米之炊:数据采集关键要素


推荐系统离不开数据,数据就是推荐系统的粮食,要有数据就得收集数据。在自己产品中收集数据,主要还是来自日志

日志和数据

数据驱动这个概念也是最近几年才开始流行起来的,在古典互联网时代,设计和开发完全侧重于功能易用和设计精巧上,并且整体驱动力受限于产品负责人的个人眼光,也因此对积累数据这件事不是很重视。

管局数据采集,按照用途分类又有三种:
1.报表统计
2.数据分析
3.机器学习

当然,这三种的用途并不冲突,反而有层层递进的关系。最基本的数据收集,是为了统计一些核心的产品指标,例如次日留存,七日留存等,一方面是为了监控产品的健康状态。一方面是为了对外秀肌肉,这一类数据使用非常浅层,对数据的采集要求也不高。

第二种就是比较常见的数据采集需求所在了。在前面第一种用途基础上,不但需要知道产品是否健康,还需要知道为什么健康、为什么不健康,做对了什么事、做错了什么事,要从数据中去找到根本的原因。

数据分析工作,最后要产生的是比较清晰直观的结论。它主要用于指导产品设计,指导商业推广、指导开发方式。走到这一步的数据采集,已经是实打实的数据驱动产品了。

第三种,就是收集数据为了机器学习应用,或者更广泛地说人工智能应用,主要在消化数据的角色是算法,是计算机而不是人。

所以在数据采集上,可以说多多益善,样本是多多益善,数据采集的维度,也就是字段数多多益善,但另一方面,数据是否适合分析,数据是否易于可视化地操作并不是核心的内容。

当然,实际上在任何一款需要有推荐系统的产品中,数据采集的需求很可能要同时满足上述三种要求。

下面我就开始给你详细剖析一下为推荐系统收集日志这件事。

数据采集

给推荐系统收集日志这件事,依次要讨论的是:日志的数据模型,收集那些日志,用什么工具收集,收集的日志怎么存储;

1.数据模型

数据模型是什么?所谓数据模型,其实就是把数据归类。不同的数据应用,数据模型略有不同。

就推荐系统而言࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值