大数据:数据的日志采集与用途

本文详细介绍了推荐系统中数据的采集、处理和应用。从系统架构流程图开始,阐述了离线处理和实时在线的数据处理方式,包括Flume、HDFS、ETL、Hive、Spark等工具的使用。数据采集主要来源于用户日志,通过前端埋点和后端日志收集。数据质量检测确保数据的完整性、一致性和及时性。此外,数据的用途包括数据分析和机器学习,用于BI报表、模型训练及实时预测。数据模型、日志源划分和传输过程也进行了深入讲解。

推荐系统是基于对历史的数据进行推测。数据是推荐系统的源头,数据怎么来?要有数据就要进行数据采集,数据的采集主要来源是日志,日志是用户在网站上产生的一些行为信息,这是我们获取数据的重要来源。


1、系统架构流程图

在大数据场景中,用户在手机APP端或页面输入一个网址,是在对应的浏览器输入,这时就会向后端服务器发送一个HTTP请求。
例如,我们输入 baidu.com 网址,那浏览器就会向服务器发送我们有关于网址的HTTP请求,接着服务器接受请求会进行返回,浏览器给用户进行结果展示。在浏览器加载页面时候,会进行一个埋点
在这里插入图片描述
页面展示的数据,我们是要进行记录,记录到日志服务器,服务器在后端其实就是个logs日志文件。日志会记录很多信息,例如用的浏览器、时间、网址ID,topic、用户行为等等。
在这里插入图片描述
事实上,我们数据来源有很多不同的结构,我们要对不同的数据进行收集、整合,我们常用Flume进行数据的传递、收集。当数据传递过来时候,我们是要进行备份的,因此 Flume的数据会备份到HDFS中,当数据存到HDFS时候,我们会进行ETL处理(常用hive、spark处理),把处理好的、清理过的、规范化的数据存到数据仓库中。
在这里插入图片描述


2、离线处理

在数据仓库中,我们存储的数据是历史数据,我们要挖掘数据的价值,显示数据的作用。例如,进行数据的模型训练,进行数据分析的报表,可视化展示等等。这些操作都是离线操作。
在这里插入图片描述
我们通过模型训练,通过离线训练得出模型model,通过封装模型到后端服务中,进行线上应用。一般离线训练好的model放在redis,以向量形式存储;model一般会部署在后端工程(服务器) ,进行一些数据的预测,估计结果。
在这里插入图片描述

例如,线上来一条数据,我们放到model进行预测,进行打分,看这个数据在那个类别的分数(概率)高,就预测出这个数据属于哪一个类别。
很多数据经过model后,根据返回的概率大小进行排序,把前几\Top5,的商品结果进行返回给用户,这些Top5的商品就是用户喜好的或者是经常买的。

这就是我们数据仓库涉及到的

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

唐樽

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值