数据分析的基础知识（培训笔记）

最新推荐文章于 2024-10-08 15:41:48 发布

wenyajunhaha

最新推荐文章于 2024-10-08 15:41:48 发布

阅读量144

点赞数

文章标签：数据库大数据

本文链接：https://blog.csdn.net/wenyajunhaha/article/details/118678263

版权

Linux操作

ll 竖着显示信息，ls 将目录直接列出来显示；补全 TAB ，切换 CD ，~表示家目录，.表示当前目录 ..表示父目录， - 直接回到根目录， ls-alh 显示所有的； vi 编辑一个新的目录； rm 删除；切换用户 su (密码和用户名一样) ; chmod赋权限 421读、写、执行； ps-ef 显示所有进程， kill-9 终止程序运行；:2,3 删除 2到3 行；find . -name当前位置找文件; 1 标准输出，2 错误输出 1>test.txt 2>test.lo ; head - n 看几行； tail - f 看日志;打印a的内容 echo $a ， let c=a+b 可以直接输出结果，不用套用$() ;当前文件解压到目标文件需要加一个大写字母C； cat、more、type、head、tail查看 ; wc 显示字节数，wc - l 显示多少行； cut 、 awk 截取；

NUMBER [(P,S)] P表示有效数字个数范围1到38，s表示小数点后的位数；

Create table emp// as select * from emp 建一个临时表，用已知数据创建

分区partition by; sub- 子分区 ;中位数 med ;total 总和；从句加了 order by 才是累计

Rank 跳跃排序；dense_rank 密集排序；row/-number 不考虑重复； ctrl + / 批量注释

数据粒度： TICK 点级别，bar 柱状，-》天-》周-》月-》半年数据的‘维度’变化，从细变粗；

DW Date warehouse 数据仓库； ODS 接口层，数据初步清洗

DWD DETAIL ； CUBE 数据立方体，指标数据

DWA 轻度汇总/衍生层；所有的电信运营商接入： M管理域、B业务域、O行为域

DM data market

DIM DIMENSION 维度 (特征的独立、拆分)；指标 在维度下看指标

Group by

事实表 FACT

维度表（码表）DIMENSION DBA 管理员 batch 批次大宽表（把维度和事实放在一块）

查询语句书写顺序：select列from表【where- group by- having- order by-limit】

查询语句执行顺序：from表where-gropy by-having-select-order by-limit

shell

第一行必须写#!/bin/bash;同一行的不同命令用; 隔开；小于 -lt ; nohup sh 执行脚本； nu1 = $[${nu1}-1] ; 反单引号先执行后将运行的结果赋予一个变量；加一个｛｝就能识别语句${month}1；dd整行删除，3d表示删除3行；一般模式下按u,撤销；编辑模式 i 行前输入， o行后输入； n 上下切换， N 向上走；%s/a/b/g替换；ps-ef / 查询后台的脚本。

存储过程

Create or replace procedure 存储过程名(.....) hite /+*........*/ 提醒; 存储过程名一般用p_;分区名 part_ ；系统表的存储-数据字典-模式 ; ETL抽取转换加载变量V_,常量C_ ；如果子分区名字一样，先建子分区，后建主分区；有几个源表就uinon all 几次 rownum,rowid(不常用) 伪列；

连接表注意笛卡尔积，看表是否有重复；不要忘记提交commid；

存储过程的作用相当于一个小脚本，将自己手里的原始数据经过存储过程的加工后存入到相应的目标表里。

substr函数在oracle中使用表示被截取的字符串或字符串表达式。和instr（）函数不同，instr()函数是要截取的字符串在源字符串中的“位置”，substr（）函数是截取字符串的“内容”。

多用tab键，自动补全；管道命令 | ; kill - 9 ，杀死一个进程；dd整行删除，一般模式下按u,撤销；编辑模式 i 行前输入， o行后输入； n 上下切换， N 向上走。

Hive

Block 1. gfs 2.bigtable Hbase 3. mapreduce --大数据的三篇论文

Storm spark flink hive

Beeline ; 看表 desc ; Hadoop默认 64M Hadoop2 默认128M ； hive表不能update ;

[DISTRIBUTE BY coi_list][SORT BY coi_list] --order by ‘’，CLUSTER BY 用于分局排序

调优：fetch抓取可以避免MapReduce ；join 优化 MAP端join ; 去重推荐先group by再 distinct ; 开启动态分区： set hive.--------(调用脚本 hive -f)主分区一般为静态，子分区一般为动态

产品陷入内卷状态，一点都不实用，不要一味追求功能复杂化

Gbk比utf8 占用空间大，传数据 - d , $DIR 获取动态脚本，脚本错误一般要换路径；

| 分割可能导致数据串联；动态分区必须写在最后；范围必须在0.5~1 ;trim 防止左右两边出现空值；动态建目录、建日志，选个最多的卡住最后，最后 sleep一个时间，保证所有数据导出成功， -ge 大于 -eq 等于 ; 调用的时候路径什么的都要写；加@表示远程连接；先从oracle-linux（sql文件，反之为atl文件）再从 linux-hive , hive-txt;管道命令 | ；set hive.exec.mode.local.auto=true; hive进入本地模式；sh -x p_dwa_d_prd_al_product1 20200708..........

YouTube 的源数据，模型分析案例，自己造的数据，注意多备份

数据治理平台（不存放真实数据，管理岗位，不能随意篡改物理数据）

Spss /图灵联邦，有多少case，设计多少状态；入度，出度：表的被读与被写；没有写别人，出度为0；建立标准--模型设计（元数据）--资源维护--模型设计--数据采集--数据加工--统一调度--数据问题发现处理--数据中心；模型标准化（名称）；现有模式（一次设计，批量处理）；虚拟节点（先建虚拟库，再选择真实节点）；有代码可以自动翻译成图（全流程自动化执行，自动触发器）马尔可夫链接力式（每一个节点都与上一个节点有关）；start--DWD--DWA--DM(数仓)；数仓迁移，交集越高，指标越好；云化BDI；准备，建模，集成，质量，调度，元数据管理；限定词（GB）：把表名拆分；代码集：码表里面的字段；

设计概念模型--逻辑模型--物理模型；可以把一个数据库当好几个资源来用；逻辑设计器：一个模型只能归属一个设计器；用来设计逻辑模型；物理设计器 PD_STG；叶子节点：最下层但不是数据，否的话就是目录；数据集成：批次相当于时间维度，粒度的变化，人为的设置多久跑一次数据。