电商数仓3.0
文章平均质量分 80
资料来自尚硅谷离线数仓3.0
喵先生呢
优秀的人哪都好,唯一的缺点是让人觉得自己是个垃圾。
展开
-
7.数仓项目经验—基准测试
项目经验之基准测试1. 测试HDFS写性能测试内容:向HDFS集群写10个128M的文件。hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB注意:nrFiles n为生成mapTask的数量,生产环境一般可通过8088端口查看原创 2021-09-18 09:45:56 · 622 阅读 · 0 评论 -
6.数仓项目经验—配置lzo压缩
配置lzo压缩1. 为什么配置lzo压缩?HADOOP数据压缩编译hadoop-lzo-0.4.20.jar#Hadoop支持LZO#环境准备#maven(下载安装,配置环境变量,修改sitting.xml加阿里云镜像)gcc-c++zlib-develautoconfautomakelibtool#通过yum安装即可yum -y install gcc-c++ lzo-devel zlib-devel autoconf automake libtool##1. 下载、安装并原创 2021-09-08 22:50:38 · 348 阅读 · 0 评论 -
5.数仓项目经验—HDFS存储多目录和集群数据均衡
文章目录HDFS存储多目录和集群数据均衡1. HDFS存储多目录2. 集群数据均衡2.1 节点间数据均衡2.2 磁盘间数据均衡☆HDFS存储多目录和集群数据均衡1. HDFS存储多目录生产环境服务器磁盘情况在hdfs-site.xml文件中配置多目录,注意新挂载磁盘的访问权限问题。HDFS的DataNode节点保存数据的路径由dfs.datanode.data.dir参数决定,其默认值file://${hadoop.tmp.dir}/dfs/data,若服务器有多个磁盘,必须对原创 2021-09-08 22:23:20 · 603 阅读 · 1 评论 -
4.数仓项目—hadoop3.1.3的安装和配置
文章目录数仓项目—hadoop3.1.3的安装和配置1. hadoop3.1.3的安装2. 配置hadoop3.1.3core-site.xmlhdfs-site.xmlyarn-site.xmlmapred-site.xmlworkers3. 配置历史服务器配置mapred-site.xml4. 配置日志聚集功能配置yarn-site.xml5. 分发配置文件6. 格式化7. 启动集群配置hadoop-env.sh配置yarn-env.sh配置mapred-env.sh8. hadoop群起脚本9. 集群原创 2021-09-06 23:31:08 · 1387 阅读 · 0 评论 -
3.数仓项目—数据生成模块
文章目录数据生成模块1. 目标数据1.1 页面数据1.2 事件数据1.3 曝光数据1.4 启动数据1.5 错误数据2. 数据埋点2.1 主流埋点方式(了解)2.2 埋点数据日志结构普通页面埋点日志格式启动日志格式2.3 埋点数据上报时机3. 代码模拟生成数据4. 模拟数据4.1 配置文件说明application.properteis文件path2.json4.2 日志生成命令4.3 集群日志生成脚本lg.sh☆数据生成模块1. 目标数据我们要收集和分析的数据主要包括页面数据、事件数据、曝光数据、启原创 2021-09-01 23:47:59 · 559 阅读 · 0 评论 -
2.数仓项目—☆项目需求及架构设计☆
文章目录数仓项目—项目需求及架构设计1. 项目需求分析1.1 项目需求1.2 思考题2. 项目框架2.1 技术选型2.2 系统数据流程设计2.3 框架版本选型2.4 服务器选型2.5 集群资源规划设计2.6 测试集群服务器规划☆数仓项目—项目需求及架构设计1. 项目需求分析1.1 项目需求1、用户行为数据采集平台搭建。2、业务数据采集平台搭建3、数据仓库维度建模。4、分析,设备、会员、商品、地区、活动等电商核心主题,统计的报表指标近100个。完全对比中型公司5、采用即席查询工具,随时进行指原创 2021-08-24 23:28:47 · 565 阅读 · 2 评论 -
1.数仓项目—数据仓库概述
文章目录数仓项目—数据仓库概述1. 数据仓库的概念1.1 业务数据1.2 用户行为数据2. 数据仓库大致流程☆数仓项目—数据仓库概述1. 数据仓库的概念1.1 业务数据就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中产生的数据就是业务数据。 业务数据通常存储在 MySQL、Oracle 等数据库中。1.2 用户行为数据用户在使用产品过程中,与客户端产品交互过程中产生的数据,比如页面浏览、点击、停留、评论、点赞、收藏等。用户行为数据通常存储在日志文件中。原创 2021-08-23 11:13:45 · 553 阅读 · 0 评论