![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数仓
文章平均质量分 96
墨尔本、晴
软件测试工程师
展开
-
[数仓]十一、离线数仓(Ranger权限管理)
Apache Ranger是一个Hadoop平台上的全方位数据安全管理框架,它可以为整个Hadoop生态系统提供全面的安全管理。随着企业业务的拓展,企业可能在多用户环境中运行多个工作任务,这就需要一个可以对安全策略进行集中管理,配置和监控用户访问的框架。Ranger由此产生!Ranger的官网:https://ranger.apache.org/原创 2024-07-09 23:55:18 · 476 阅读 · 0 评论 -
[数仓]十、离线数仓(安全集群实战)
1.新建/opt/module/presto/etc/access-control.properties配置文件,内容如下。1.在/opt/module/presto/etc/catalog/hive.properties中增加以下参数。2.分发/opt/module/presto/etc/catalog/hive.properties文件。2. 新建/opt/module/presto/etc/rules.json文件,内容如下。原创 2024-07-09 23:33:45 · 631 阅读 · 0 评论 -
[数仓]九、离线数仓(Kerberos用户认证)
为执行创建主体的语句,需登录Kerberos 数据库客户端,登录之前需先使用Kerberos的管理员用户进行认证,执行以下命令并根据提示输入密码。3)Rrincipal:Kerberos所管理的一个用户或者一个服务,可以理解为Kerberos中保存的一个账号,其格式通常如下:primary。为服务创建的主体,需要通过密钥文件keytab文件进行认证,故需为各服务准备一个安全的路径用来存储keytab文件。为Hadoop开启Kerberos,需为不同服务准备不同的用户,启动服务时需要使用相应的用户。原创 2024-07-09 00:40:38 · 495 阅读 · 0 评论 -
[数仓]八、离线数仓(zabbix集群监控)
Zabbix使用灵活的通知机制,允许用户为几乎任何事件配置基于邮件的告警。基于已存储的数据,Zabbix提供了出色的报告和数据可视化功能。1.为方便展示效果,在Zabbix中为hadoop102主机应用一个Zabbix内置的Linux系统监控模板。2)点击模板,搜索linux,并选择Template OS Linux by Zabbix agent。一个被用于定义问题阈值和“评估”监控项接收到的数据的逻辑表达式。一个对事件做出反应的预定义的操作,比如邮件通知。你想要接收的主机的特定数据,一个度量数据。原创 2024-07-08 23:24:53 · 873 阅读 · 0 评论 -
[数仓]七、离线数仓(Presto&Kylin即席查询)
第1章 Presto1.1 Presto简介1.1.1Presto概念1.1.2 Presto架构原创 2024-07-08 07:45:49 · 202 阅读 · 0 评论 -
[数仓]六、离线数仓(Superset可视化报表)
conda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同Python版本的软件包及其依赖,并能够在不同的Python环境之间切换,Anaconda包括Conda、Python以及一大堆安装好的工具包,比如:numpy、pandas等,Miniconda包括Conda、Python。Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图表展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。安装Superset之前,需安装以下所需依赖。原创 2024-07-08 01:35:49 · 853 阅读 · 0 评论 -
[数仓]四、离线数仓(Hive数仓系统-续)
此处要求统计新增留存率,新增留存率具体是指留存用户数与新增用户数的比值,例如2020-06-14新增100个用户,1日之后(2020-06-15)这100人中有80个人活跃了,那2020-06-14的1日留存数则为80,2020-06-14的1日留存率则为80%。该需求要求统计最近30日发布的所有优惠券的领用情况和补贴率,补贴率是指,优惠金额与使用优惠券的订单的原价金额的比值。该需求要求统计最近30日发布的所有活动的参与情况和补贴率,补贴率是指,优惠金额与参与活动的订单原价金额的比值。原创 2024-07-08 01:16:25 · 543 阅读 · 0 评论 -
[数仓]五、离线数仓(Azkaban部署)
1)将azkaban-db-3.84.4.tar.gz,azkaban-exec-server-3.84.4.tar.gz,azkaban-web-server-3.84.4.tar.gz上传到hadoop102的/opt/software路径。3)解压azkaban-db-3.84.4.tar.gz、 azkaban-exec-server-3.84.4.tar.gz和azkaban-web-server-3.84.4.tar.gz到/opt/module/azkaban目录下。原创 2024-07-08 00:59:53 · 514 阅读 · 0 评论 -
[数仓]三、离线数仓(Hive数仓系统)
Hive引擎包括:默认MR、tez、sparkHive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。Spark on Hive: Hive只作为存储元数据,Spark负责SQL解析优化,语法是SparkSQL语法,Spark负责采用RDD执行。原创 2024-07-08 00:02:39 · 675 阅读 · 0 评论 -
[数仓]二、离线数仓(业务数据采集)
电商的业务流程可以以一个普通用户的浏览足迹为例进行说明,用户点开电商首页开始浏览,可能会通过分类查询也可能通过全文搜索寻找自己中意的商品,这些商品无疑都是存储在后台的管理系统中的。当用户寻找到自己中意的商品,可能会想要购买,将商品添加到购物车后发现需要登录,登录后对商品进行结算,这时候购物车的管理和商品订单信息的生成都会对业务数据库产生影响,会生成相应的订单数据和支付数据。订单正式生成之后,还会对订单进行跟踪处理,直到订单全部完成。原创 2024-07-07 18:03:17 · 969 阅读 · 0 评论 -
[数仓]一、离线数仓(日志数据采集)
G:\Bigdata\Projects\电商数仓4.0数据仓库( Data Warehouse ),是为企业制定决策,提供数据支持的。可以帮助企业,改进业务流程、提高产品质量等。和等就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据业务数据通常存储在MySQL、Oracle等数据库中。:用户在使用产品过程中,通过埋点收集与客户端产品交互过程中产生的数据,并发往日志服务器进行保存。原创 2024-07-06 02:09:50 · 934 阅读 · 0 评论