大数据：数据的日志采集与用途

最新推荐文章于 2025-09-17 16:43:35 发布

原创

最新推荐文章于 2025-09-17 16:43:35 发布 · 6.6k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #数据仓库

本文详细介绍了推荐系统中数据的采集、处理和应用。从系统架构流程图开始，阐述了离线处理和实时在线的数据处理方式，包括Flume、HDFS、ETL、Hive、Spark等工具的使用。数据采集主要来源于用户日志，通过前端埋点和后端日志收集。数据质量检测确保数据的完整性、一致性和及时性。此外，数据的用途包括数据分析和机器学习，用于BI报表、模型训练及实时预测。数据模型、日志源划分和传输过程也进行了深入讲解。

文章目录

推荐系统是基于对历史的数据进行推测。数据是推荐系统的源头，数据怎么来？要有数据就要进行数据采集，数据的采集主要来源是日志，日志是用户在网站上产生的一些行为信息，这是我们获取数据的重要来源。

1、系统架构流程图

在大数据场景中，用户在手机APP端或页面输入一个网址，是在对应的浏览器输入，这时就会向后端服务器发送一个HTTP请求。
例如，我们输入 baidu.com 网址，那浏览器就会向服务器发送我们有关于网址的HTTP请求，接着服务器接受请求会进行返回，浏览器给用户进行结果展示。在浏览器加载页面时候，会进行一个埋点。
在这里插入图片描述
页面展示的数据，我们是要进行记录，记录到日志服务器，服务器在后端其实就是个logs日志文件。日志会记录很多信息，例如用的浏览器、时间、网址ID，topic、用户行为等等。

事实上，我们数据来源有很多不同的结构，我们要对不同的数据进行收集、整合，我们常用Flume进行数据的传递、收集。当数据传递过来时候，我们是要进行备份的，因此 Flume的数据会备份到HDFS中，当数据存到HDFS时候，我们会进行ETL处理(常用hive、spark处理)，把处理好的、清理过的、规范化的数据存到数据仓库中。
在这里插入图片描述

2、离线处理

在数据仓库中，我们存储的数据是历史数据，我们要挖掘数据的价值，显示数据的作用。例如，进行数据的模型训练，进行数据分析的报表，可视化展示等等。这些操作都是离线操作。
在这里插入图片描述
我们通过模型训练，通过离线训练得出模型model，通过封装模型到后端服务中，进行线上应用。一般离线训练好的model放在redis，以向量形式存储；model一般会部署在后端工程(服务器) ，进行一些数据的预测，估计结果。
在这里插入图片描述