- 博客(7)
- 资源 (1)
- 收藏
- 关注
原创 数据质量校验(1)
数据质量六大标准概述完整性:不存在大量缺失(如平时日活1000,突然变100),不会有太多空值,不缺少某一维度的数据(如32个省少了一个)。指数据在创建、传递过程中无缺失和遗漏,包括实体完整、属性完整、记录完整和字段值完整四个方面。完整性是数据质量最基础的一项,例如员工工号不可为空。一致性:指遵循统一的数据标准记录和传递数据和信息,主要体现在数据记录是否规范、数据是否符合逻辑。例如同一工号对应的不同系统中的员工姓名需一致。数据的规范(如手机号13位,IP地址格式等)与数据逻辑(如概率必须0-1 之间等
2021-09-28 15:17:11
2757
原创 python 不同数据库之间表数据同步
python 不同数据库之间表数据同步最近项目有这样的需求:不同数据库中表数据的同步操作。也就是从一个数据库把表数据插入到另一个数据库的表中。上代码import configparserimport pymysql# 读取配置文件conf = configparser.RawConfigParser()conf.read("D:\PycharmProjects\economic_relation\\venv\Include\control\conf.ini")# 获取源数据库参数sour
2021-09-06 17:54:33
1606
原创 python执行sql 语句
自我介绍姓名,年龄,哪里人,哪里毕业,毕业之后经历的公司以及什么岗位负责干啥,大概说了一下。然后当前求职状态,想找个什么工作,期望薪资多少。之后就是面试官开始发问:看你是15年毕业为什么简历上只写了从16年开始?该面试官比较注意经历的完整性,因为我15年毕业之后没做什么正经工作,还考了一段时间公务员,从16年开始才算是正式参加工作,所以这部门没有写道简历里,面试官在没有疑问。...
2021-09-06 17:20:35
4359
原创 随笔:大数据技术相关组件,概念,导图
随笔1、分布式文件/对象存储系统目前业界比较流行的分布式存储系统如下:HDFS、OpenStack Swift、Ceph、GlusterFS、Lustre、AFS、OSS。2、分布式关系型数据库目前业界比较流行的分布式关系型数据库如下:DRDS、TiDB、GreenPlum、Cobar、Aurora、Mycat。3、分析型数据库目前业界比较流行的分析型数据库如下:Kylin、AnalyticDB、Druid、Clickhouse、Vertica、MonetDB、InfiniDB、LucidDB。
2020-06-23 19:06:10
237
原创 构建企业数据仓库五步
此文来自于微信聊天记录第一步:确定主题即确定数据分析或前端展现的主题(例:某年某月某地区的啤酒销售情况)。主题要体现出某一方面的各分析角度(维度)和统计数值型数据(量度)之间的关系,确定主题时要综合考虑。第二步:确定量度确定主题后,需要考虑分析的技术指标(例:年销售额等等)。它们一般为数据值型数据,其中有些度量值不可以汇总;些可以汇总起来,以便为分析者提供有用的信息。量度是要统计的指标,必须事先选择恰当,基于不同的量度可以进行复杂关键性指标(KPI)的设计和计算。第三步:确定事实数据粒度
2020-06-23 19:00:48
259
原创 极光id 唯一性问题
极光id 唯一性问题这两天工作中涉及到给用户发push的部分,我们app用的是极光推送,遇到一些问题就是:1.用户的极光id 是怎么绑定的?2.多个用户的极光id会不会一样?3.registrationID变化的原因?集成了极光sdk的app,在用户第一次下载并打开app时会给这个用户的设备注册一个registrationID并记录到app的服务器端。这样以后发推送就可以根据这个id去发,当然,服务端也可以给客户打标签,通过标签去发push。多个用户的极光id是可能存在一样的情况的,具体
2020-06-11 11:06:44
1371
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人