数据中台
文章平均质量分 50
数据中台相关知识的理解
weixin_44322234
这个作者很懒,什么都没留下…
展开
-
Hive优化---or
优化前select count(b.user_initial_ccid)from dwd.dwd_ccid_register_a aleft join audience_data_service.sys_user_all b on ((b.user_id=a.union_id_md5 and b.user_type_id=15)or (b.user_id=a.mobile_md5 and b.user_type_id=16)or (b.user_id=a.email_md5 and b.use原创 2022-02-24 13:40:40 · 1171 阅读 · 0 评论 -
对象存储服务----OSS
一、什么是OSS?「OSS」的英文全称是Object Storage Service,翻译成中文就是「对象存储服务」,官方一点解释就是对象存储是一种使用HTTP API存储和检索非结构化数据和元数据对象的工具。白话文解释就是将系统所要用的文件上传到云硬盘上,该云硬盘提供了文件下载、上传等一列服务,这样的服务以及技术可以统称为OSS,业内提供OSS服务的厂商很多,知名常用且成规模的蓝队云等。二、OSS相关的术语1.存储空间(Bucket)存储空间是您用于存储对象(Object)的容器,所有的对象都原创 2022-01-19 14:19:33 · 5687 阅读 · 0 评论 -
什么叫做鲁棒性?
鲁棒是Robust的音译,也就是健壮和强壮的意思。它是在异常和危险情况下系统生存的关键。比如说,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性。所谓“鲁棒性”,是指控制系统在一定(结构,大小)的参数摄动下,维持其它某些性能的特性。再比如,统计里面的均值和中位数,均值很容易受到极端值的影响,如果数据里面有很大或很小的数值,均值会偏大或偏小。而中位数就稳定的多,即使数据里面有很大或很小的数值,中位数也不会发生很大变化。所以,中位数这个统计量便具有鲁棒性根据对性原创 2021-02-04 16:28:23 · 16017 阅读 · 1 评论 -
拉链表
1、什么是拉链表?拉链表,记录每条信息的生命周期,一旦一条记录的生命周期结束,就要重新开始一条新的记录,并把当前日期放入生效的开始日期;2、解决的问题&实际需求在数据仓库的数据模型设计过程中,经常会遇到这样的需求:数据量比较大;表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等;需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态, 比如,查看某一个用户在过去某一段时间内,更新过几次等等;变化的比例和频率不是很大,原创 2021-02-24 13:08:41 · 2731 阅读 · 0 评论 -
经典数据仓库建模方法----维度建模和关系建模
事实表用来存储事实的度量以及指向各个纬的外键值,纬度表用来保存事实表各个属性的纬度的元数据)Dimension Table概念多出现于数据仓库里面,维表与事实表想对应,比如一个 “销售统计表” 就是一个 事实表,而 “销售统计表” 里面统计数据的来源离不开 “商品价格表”,“商品价格表” 就是销售统计的一个维度表。事实数据和维度数据的识别必须依据具体的主题问题而定。“事实表” 用来存储事实的度量及指向各个维的外键值。维表用来保存该维的元数据。...原创 2021-02-23 19:20:33 · 1586 阅读 · 0 评论 -
数据分层----ODS,DWD,DWS,ADS,DIM
数据分层相关概念:零、数据加载层:ETL(Extract-Transform-Load)一、数据仓库层:DW(Data Warehouse)操作数据层:ODS(Operational Data Store)数据明细层:DWD(Data Warehouse Detail)数据汇总层:DWS(Data WareHouse Summary)应用数据层:ADS(Application Data Store)通用维度层:DIM(Dimension)推荐阅读:https://www.cnblogs原创 2022-01-19 11:48:01 · 5104 阅读 · 0 评论