大数据项目
文章平均质量分 93
一些模拟项目
南潇如梦
编程小白
展开
-
项目四:使用SparkSQL开发的简易推荐系统
1、项目环境具有hive、hadoop、hbase的服务器使用idea进行开发2、原理通过使用spark的机器学习算法对已经编写建表查询好的用户id和对新闻列表的操作,在过去时间权重和用户行为权重进行打分,编写召回算法,以topK进行推荐类似的文章id对应给用户id。3、编程pom.xml环境依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/原创 2022-03-18 22:12:15 · 1400 阅读 · 0 评论 -
项目一实时数仓数据采集
实时数仓大数据采集模拟项目原创 2022-03-26 22:47:19 · 6945 阅读 · 0 评论 -
项目二准时数仓(漏斗分析+UAD预测)
此项目还未写完一 项目背景介绍基于新闻咨询行业的头条数据进行的准实时处理的数据仓库建设。 新闻咨询行业的app,软件有 今日头条,腾讯新闻,百度浏览器,360浏览器。 这些app产生的数据流,我们使用structuredstreaming框架来处理,进而将处理后的数据保存到hive中,建模,做一些数据分析,展示,监控等。1.1 简介要处理的数据,有三种用户行为数据业务数据内容数据目的:构建数仓模型,分析这些数据的价值两种分析模型:用户行为分析模型: 事件分析,留存分析,漏斗分析D原创 2022-04-05 17:25:21 · 3614 阅读 · 0 评论 -
数据采集之测试数据的造数
目录0 环境准备:1 软件环境的搭建1.1 jdk的安装1.2 scala的安装1.3 hadoop的安装0 环境准备:新建虚拟机->设置静态网络->修改映射配置新建虚拟机 参考面向大数据开发的集群之虚拟机搭建(一)_林柚晞的博客-CSDN博客设置静态网+修改映射配置 参考项目0单节点的虚拟机做大数据开发(四万字全)_林柚晞的博客-CSDN博客创建项目路径mkdir -p /opt/appsmkdir -p /opt/...原创 2022-04-24 13:22:38 · 3255 阅读 · 0 评论 -
项目四推荐系统源码(十二万字)
目录背景指路0 pom.xml大概的项目框架1.0 资源1.1 sparkml2pmml.properties1.2 core-site.xml1.3 hdfs-site.xml1.4 hive-site.xml1.5 yarn-site.xml2 scala部分的架构2.1 conf2.2 Action2.3 Constant2.4 transformer2.4.1 com.qf.bigata.transformer.ItemBaseFe..原创 2022-05-02 17:54:54 · 4760 阅读 · 0 评论 -
项目0单节点的虚拟机做大数据开发(四万字全)
说明:这个项目是面向大数据开发的,要涉及到多个软件的安装。以后还会更新整个项目的流程包括代码。1.1新建虚拟机上面这个镜像文件链接:https://pan.baidu.com/s/1bdrE2pFtVXQt07oOrqw-KA提取码:0fht--来自百度网盘超级会员V2的分享上图只需要点击安装位置和网络和主机名就可以开始安装网络和主机名:打开,然后点击完成点击开始安装Root的密码..原创 2022-03-21 01:33:40 · 2935 阅读 · 0 评论