电商项目实战Hadoop实现

1、用户行为日志概述
每一次访问的行为(包括访问,搜索、等)产生的日志
历史行为数据 《== 历史订单
==》推荐
==〉订单的转换率
2、为什么要记录用户行为日志
根据行为日志分析可以很好的有针对性的对不同用户推荐不同商品,以及不同广告的推送
在这里插入图片描述
3、日志内容介绍
日志产生的渠道有nginx日志、ajax加载的一些动态的图片、位置啊等等信息。
本次我们提供了一个电商日志打~/data/trackinfo_20130721.data
原始日志说明我们需要的:第二个字段=url、第十四个字段=ip、第十八个字段=时间
字段的解析:我们会从ip中解读出国家、省份、城市,从url中解析出页面的id

4、用户行为日志意义分析的所在
根据用户的行为,比如说访问页面,图片,是手机端,还是PC端,耗费流量是多少,地址在哪,可以有效推广运营,比如手机端就比PC端展示消耗服务商的流量要小能省钱又能减小服务器压力,地址在哪就可以分析出人群分布等等。
referer–》你所反问的页面是从那个上端页面来的,比如你在百度打得广告那就要根据这个给钱的

5、电商常用术语
Ad Views 广告浏览 就是网上广告被用户浏览的次数
PV 访问量 用户每访问一次页面就是一个访问 刷新也算
Impression 印象数 指广告主希望要求的页面每一次的显示,每看到一次广告就是一次印象。
UV 独立访问数 访问的网站或广告,一台电脑被视为一个用户也就是一个访客,24校内相同的客户端只被计算一次
IP 独立IP 24小时内同个IP被计算一次
URL 给出任何服务器上 文件、图像等在网上的位置
关键词:
Band Width 带宽 在某个时刻能够通过传播线路传输的信息(文字、图片、音、视屏)容量,带宽越高传输越快

6、项目需求描述
页面的浏览量 省份的浏览量 页面的访问量

7、数据处理流程及技术框架
在这里插入图片描述
8、浏览量统计功能实现
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
9、省份浏览量统计之IP库解析
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
10、省份统计之日志解析
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
11、省份浏览量统计之功能实现
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
12、页面浏览量统计之页面编号获取
在这里插入图片描述
在这里插入图片描述
13、页面浏览量统计之功能实现
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
14、数据处理过程中ETL的重要性
在这里插入图片描述
15、原始日志ETL操作
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
16、浏览量统计功能升级
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
17、省份量统计功能升级
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
18、页面浏览量统计功能实现
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
19、打包到服务器执行
在这里插入图片描述
在这里插入图片描述
到项目目录 执行 mvn clean package -DiskTest 打包 把打好的包上传到服务器
的~/lib下

然后把ip解析文件传输到服务器目录自己定吧
原始文件上传到服务器HDFS,上传到那个目录参数指定时指定那个
编辑执行脚本如下
在这里插入图片描述

  • 0
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
对于Python和大数据结合的亚马逊电商项目实战,可以考虑以下几个方面: 1. 数据采集:使用Python的爬虫技术,获取亚马逊电商的商品信息、评论数据等。可以使用第三方库如Scrapy、BeautifulSoup等进行网页解析和数据提取。 2. 数据存储:将采集到的数据存储到适合大数据处理的存储系统中,如Hadoop分布式文件系统(HDFS)、HBase等。可以使用Python的相关库如pydoop、happybase等进行数据的读写操作。 3. 数据清洗和处理:使用Python的数据处理库如Pandas、NumPy等对采集到的数据进行清洗和预处理,例如去除重复数据、处理缺失值、数据转换等。 4. 数据分析和挖掘:利用Python的数据分析库如Matplotlib、Seaborn、Scikit-learn等对清洗后的数据进行可视化分析和机器学习算法建模,以探索用户行为、商品销售趋势等重要信息。 5. 推荐系统开发:基于用户行为和商品数据,可以使用Python的机器学习库如TensorFlow、PyTorch等构建推荐系统模型,为用户提供个性化的商品推荐。 6. 可视化展示:使用Python的可视化库如Dash、Bokeh等将分析结果以图表、报表等形式进行展示,方便决策者和业务人员理解和使用分析结果。 以上只是一个简单的实战方向,具体的项目实施还需要根据需求进行调整和完善。同时,还需要了解亚马逊电商网站的相关政策和法规,确保项目的合规性。祝您项目顺利!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值