- 博客(40)
- 收藏
- 关注
原创 Python大数据学习之Hadoop学习——day08_hive函数
注意:cluster by 和 distribute by 字段名 sort by 字段名 受当前设置的reduces数量影响,但是设置的reduce数量对order by 无影响,因为order by 就是全局排序,就是一个reduce。分组查询格式:select 分组字段名,聚合函数(字段名) from 表名 [where 非聚合条件] group by 分组字段名 [having 聚合条件];[CLUSTER BY 字段名 | [DISTRIBUTE BY 字段名 SORT BY 字段名]]
2024-10-09 16:23:47
1029
原创 数据治理——做好数据质控的工作
合理性——检查一些常用字段是否符合规范(身份证、手机、日期)连续上传率——检查一周内有几天上传数据。有效性——检查字典值域是否对接。空值率——检查字段是否为空。关联率——检查主从表关联率。唯一性——检查主键是否重复。
2024-09-02 14:37:08
233
原创 Python大数据之Hadoop学习——day07_Hive分区表和分桶表
创建分区表:create [external] table [if not exists] 表名(字段名 字段类型,字段名 字段类型,...) partitioned by (一级分区字段名 分区字段类型, 二级分区字段名 分区字段类型 , ...);自动生成分区目录并插入数据:load data [local] inpath '文件路径' into table 分区表名 partitioned (一级分区字段名='值',二级分区字段名='值' , ...);
2024-09-02 11:35:45
2034
2
原创 Python大数据之Hadoop学习——day06_hive内外部表
创建外部表:create external table [if not exists] 外部表名(字段名 字段类型,字段名 字段类型,...)[row format delimited fields terminated by '字段分隔符'];[location 'hdfs://域名:8020/user/hive/warehouse/库名.db/表名'] # 默认即可。从其他表查询数据'追加'插入到当前表中:insert into [table] 表名 select 语句;
2024-08-31 11:18:06
1687
原创 Python大数据之Hadoop学习——day05_hive基本操作
优点:可以单独使用外部库(mysql),可以共享元数据,本地可以连接metastore服务也可以连接hiveserver2服务,增加了扩展性(其他依赖hive的软件都可以通过Metastore访问hive)创建数据库:create database [if not exists] 库名 [comment '注释'] [location '路径'] [with dbproperties ('k'='v')];还可以叫非管理或非拖管表。优点:可以单独使用外部的数据库(mysql),元数据共享。
2024-08-27 22:12:29
1650
1
原创 python大数据学习之Hadoop学习——day04_Hadoop
它将每个文件拆分成一系列的数据块进行存储,这个数据块被称为block,除了最后一个,所有的数据块都是同样大小的。hdfs中下载文件到linux本地:hdfs dfs -get hdfs中要下载的目录或者文件的绝对路径 Linux本地目标位置路径。把本地文件内容追加到hdfs指定文件中:hdfs dfs -appendToFile 本地文件路径 hdfs文件绝对路径。管理HDFS元数据(文件路径、文件的大小,文件的名字,文件权限,文件切割后的(block)二代客户端连接命令:!
2024-08-19 11:09:58
593
原创 Python大数据之linux学习总结——day04_hadoop概述
Hadoop简介:是Apache旗下的一个用Java语言实现开源软件框架,是一个存储和计算大规模数据的软件平台。Hadoop起源: Doug Cutting 创建的,最早起源一个Nutch项目。三驾马车: 谷歌的三遍论文加速了hadoop的研发Hadoop框架意义: 作为大数据解决方案,越来越多的企业将Hadoop 技术作为进入大数据领域的必备技术。狭义上来说:Hadoop指Apache这款开源框架,它的核心组件有:HDFS,MR,YANR。
2023-11-10 21:52:16
134
原创 Python大数据之linux学习总结——day03_shell和大数据导论
什么是大数据?狭义上: 对海量数据进行处理的软件技术体系广义上: 数字化、信息化时代的基础支撑,以数据为生活赋能狭义和广义联系: 学习狭义上的大数据软件技术体系,在工作中为广义上的数字化、信息化时代,添砖加瓦大数据解决了什么问题?问题1: 海量数据的存储问题2: 海量数据的计算问题3: 海量数据的传输大数据的核心工作?存储: 利用各类大数据技术栈,妥善保存海量待处理数据计算: 利用各类大数据技术栈,完成海量数据的价值挖掘传输: 利用各类大数据技术栈,协助各个环节的数据传输。
2023-11-10 17:09:44
172
原创 Python大数据之linux学习总结——Hadoop学习任务
(8)在node1中输入 nohup hive --service hiveserver2 & 启动hive新版本 并完成后使用jps -m查看是否成功。(7)在node1中输入 nohup hive --service metastore & 启动hive旧版本 并完成后使用jps -m查看是否成功。(5)利用jps查看所有启动的进程 (后续未启动的均要重新输入对应命令,出现重复的利用 kill -9 命令杀死即可)(1)在虚拟机中启动集群虚拟机node1,node2,node3。
2023-11-10 11:33:45
116
原创 Python大数据之linux学习总结——day02_linux高级
使用修改时区:使用root权限,执行如下命令,修改时区为东八区时区,将系统自带的localtime文件删除,并将/usr/share/zoneinfo/Asia/Shanghai文件链接为localtime文件即可。-符号是可选的,表示是否在切换用户后加载环境变量(后续讲解),建议带上参数:用户名,表示要切换的用户,用户名也可以省略,省略表示切换到root。man查看手册:man 命令 解释:man(manual,手册)命令查看详细手册 举例:man ls。3、输入命令:w(保存) q(退出) q!
2023-11-06 17:22:11
190
原创 Python大数据之linux学习总结——day01_linux基础
计算机组成:硬件和软件硬件组成:冯-诺依曼体系结构(控制器 运算器 存储器 输入设备 输出设备)软件组成:系统软件(操作系统)和应用软件(各种第三方软件)操作系统作用:承上启下(用户使用第三方应用软件和硬件之间的桥梁)linux诞生:林纳斯-拖瓦兹 linux系统组成:linux系统内核 和 系统级应用程序linux发行版:基于开源免费的linux内核开发出的操作系统(本课程主要学习centos版本)虚拟机卡模式:NAT模式 桥接模式 仅主机模式。
2023-11-06 17:19:40
176
原创 算法通关村第一关——1.青铜挑战_小白也能学会的链表(python)
删除的过程不算复杂,也是找到要删除的结点的前驱结点,这里同样要在提前一个位置判断,例如下图中删除40,其前驱结点为7。遍历的时候需要判断cur.next是否为40,如果是,则只要执行cur.next=null即可,此时结点40变得不可达,最终会被JVM回收掉。
2023-11-02 18:15:15
85
原创 python大数据之mysSQL学习总结——day08_linux基础
诞生时间: 1991年创始人: 林纳斯-托瓦兹吉祥物: 小企鹅Linux发行版: centOS redhat ubuntu deepin 中标麒麟 红旗linux...本次课程使用centOS7版本。
2023-10-31 21:37:05
76
原创 python大数据之MySQL学习总结——day07_FineBI的使用
BI是什么:(Business Intelligence)商业智能,一套完整的解决方案BI能干什么: BI能帮助企业管理者做决策FineBI是什么: FineBI是做数据报表的工具FineBI架构:是一款纯 B/S 端的商业智能分析服务平台;
2023-10-31 20:45:19
290
原创 python大数据之MySQL学习总结——day06_kettle的使用
ETL: Extract-Transform-Load 对数据进行抽取,转换,装载到数据仓库的过程ELT: Extract-Load-Transform 对数据进行抽取,装载到数据仓库,最后再转换的过程数据仓库: 面向专业的分析人员,主要对其中的数据进行查询分析操作数据库: 面向操作型的用户,主要对其中的数据进行增删改查kettle: kettle是国外开源的ETL工具,现在已经更名为PDI。
2023-10-29 12:18:50
227
原创 python大数据之MySQL学习总结——day03 查询
聚合查询基础格式: select 聚合函数(字段名) from 表名;注意: 聚合函数(字段名)会自动忽略null值,以后统计个数一般用count(*)统计因为它不会忽略null值。常用聚合函数: sum() count() avg() max() min()基础查询格式: select [distinct] 字段名 | * from 表名;基础查询关键字: select:查什么 from: 从哪儿查。聚合函数: 又叫统计函数,也叫分组函数。*: 对应表的所有字段名。
2023-10-26 11:29:26
112
原创 python大数据之MySQL学习总结——day02表_约束和数据记录操作
【代码】python大数据基础班MySQL学习总结——day02表_约束和数据记录操作。
2023-10-23 10:51:46
135
原创 python大数据之MySQL学习总结——day01_Mysql入门
MySQL: MySQL 是最流行的关系型数据库管理系统之一,在WEB 应用方面,MySQL是最好的 RDBMS (Relational Database Management System,关系数据库管理系统) 应用软件之一。注意: 基础班目前主要学习 MySQL8 开源免费版本SQL: 结构化查询语言, 是所有关系型数据库都要遵循的规范大白话解释: 可以理解成sql是普通话,mysql,oracle等是方言。
2023-10-23 10:42:37
180
原创 Python大数据之Python爬虫学习总结——day17 综合案列
此模块目的是为了重复去读取各个国家疫情数据# 导包# 定义一个函数用于处理和分析各个国家的疫情数据"""此函数用于处理和分析各个国家的疫情数据:param file_path: json文件路径:param rep_str: 要替换的json数据开头子串:return: 返回的是元组(日期数据,确诊数据)"""# 一.数据处理: 抽取 转换 加载# 1.抽取: 读取文件中json数据# 打印数据,测试是否成功读取,注意: 测试完可以注释或者删除。
2023-10-19 21:26:11
101
1
原创 Python大数据之Python爬虫学习总结——day16 数据可视化
注意: 模块的名称不要以数字开头,不要是关键字,一般都是小写,可以字母数字下划线汉字组成(不建议)举例: 当前模块定义名称为:文件操作# 读取文件中的列表,并且把字符串类型转为列表本身# 写列表数据到文件中。
2023-10-19 21:18:34
246
1
原创 Python大数据之Python爬虫学习总结——day15 数据可视化和程序日志
日志优先级: DEBUG < INFO < WARNING < ERROR < CRITICAL。pyecharts: python版本的echarts工具。1.安装: pip install pyecharts。3.使用: 可以制作饼图,折线图,地图等可视化页面。echarts: 百度开源的一个数据可视化工具。2.导包: import pyecharts。python中日志模块: logging。WARNING: 警告信息(默认)CRITICAL: 危险信息。INFO: 正常运行信息。
2023-10-19 21:11:33
157
1
原创 Python大数据之python学习day07——数据容器(元组和字符串)
1.元组的定义知识点:2.元组的下标索引知识点:3.元组的常用操作元组和列表区别:元组是不可变类型知识点:元组是不支持修改(元素的增删改操作不支持的)查:查找元素注意事项:元组由于不可修改的特性,所以其操作方法非常少基础示例: 4.元组嵌套列表:(元组中的列表是可以修改的)5. 元组的遍历1.for循环遍历2.while循环遍历核心思想 :利用while变量作为元组的索引使用3.对比while循环和for循环,都是循环语句,但细节不同:在循环控制上:在无限循环上:在使用场景上:示例:
2023-10-16 19:43:10
78
1
原创 Python大数据之Python爬虫学习总结——day14_爬取图片和数据
网络爬虫:(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 枚举函数自动生成从0开始的编号: enumerate()2.变量接收响应对象 = requests.get(url)枚举函数自动生成从0开始的编号: enumerate()字符串切割方法: split()字符串切割方法: split() 文件操作相关知识点。4.检索自己想要的数据。
2023-10-15 21:53:28
874
1
原创 Python大数据之Python爬虫学习总结——day13 正则表达式
(regular expression)描述了一种字符串匹配的模式,可以用来检查一个大字符串中是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。已知页面部分源码,其中包含了很多图片标签,要求扫描整个字符串,提取每个图片的路径。一种特定的字符串模式,这个模式是通过一些特殊的符号组成的。2.正则表达式通用性很强,能够适用于很多编程语言。1.正则表达式的语法很令人头秃,可读性差。让.匹配到\n,实现真正的任意。匹配前一个字符出现次数。
2023-10-15 21:14:50
947
1
原创 Python大数据之Python爬虫学习总结——day12_web服务器优化
注意: 在web服务器中如果服务器指定的是本地局域网分配的ip地址,那么此局域网内所有的主机都能互相访问。: 查看本机ip地址(局域网或者外网的ip都能查看)2.with open特点: 可以自动关闭文件对象。不用去添加f.close(),比较方便。1.with open格式。
2023-10-15 19:55:01
107
1
原创 Python大数据之Python爬虫学习总结——day11 HTTP协议-HTML页面-web服务器
超文本传输协议(Hypertext Transfer Protocol,HTTP)是一个简单的请求-响应协议,它通常运行在TCP之上。(Hyper Text,HT )是超级文本的中文缩写。超文本是用超链接的方法,将各种不同空间的文字信息组织在一起的网状文本。WWW是基于客户机/服务器方式的信息发现技术和超文本技术的综合。传输控制协议(TCP,Transmission Control Protocol)是一种面向连接的、可靠的、基于字节流的传输层通信协议。
2023-10-11 20:06:42
77
原创 Python大数据之python学习总结day10——文件操作
变量接收文件对象 = open(文件路径,文件模式,文件编码)主要有gbk(汉字国标扩展)和utf-8(通用的万国码)w(覆盖写) 或者 wb(覆盖写二进制内容)a(追加写) 或者 ab(追加写二进制内容)读num个字符: read(num)读所有行内容: readlines()一行行内容写:writelines(内容)r(默认) 或者 rb(读二进制内容)主要有r:读 w:覆盖写 a:追加写。读一行内容: readline()读所有的字符: read()#close():关闭文件对象。
2023-10-10 22:57:44
58
1
原创 Python大数据之python学习总结day09——函数进阶
传入的实参个数可以不定长,*args以元组形式接收数据,**kwargs以字典方式接收数据。return 结束并瑞出当前函数,顺带把后面的返回值返回给调用者。return 后跟多个返回值,默认放到元组中返回此元组。位置参数,缺省参数,可变参数。位置参数传参,关键字参数传参。定义函数的时候,括号中内容。调用函数的时候,括号中内容。顺序必须一致,个数必须一致。
2023-10-10 18:24:12
146
原创 Python大数据之python学习总结day07-08——数据容器汇总
空列表: 列表名=[] 或者 列表名=list()非空列表: 列表名=[元素1,元素2,元素3,...]列表支持嵌套定义空元组: 元组名 = () 或者 元组名 = tuple()定义非空元组: 元组名 = (元素1,元素2,元素3,...) 注意: 如果只有一个元素需要加逗号空字符串:字符串名=str() 字符串名='' 或者 字符串名="" 或者 字符串名='''''' 或者 字符串名=""""""
2023-10-07 11:33:54
109
1
原创 Python大数据基学习总结day06——数据容器(列表)
方法: 本质是一个函数,只是这个函数放到class xxx 类中注意: 可以说方法一定是一个函数,但是不能说函数一定是一个方法在python中,如果将函数定义class(类)的成员,那么函数会称为:方法#函数return x+y#方法(函数定义为class类的成员为方法)#字面量#(元素1,元素2,元素3,元素4,...)#定义变量#变量名称 =[元素1,元素2,元素3,元素4,...]#定义空列表#变量名称 = []#变量名称 = list()list1 = []# 列表的嵌套。
2023-09-30 20:58:56
207
原创 Python大数据学习总结day05——python函数(比较重要)
定义:提前组织好的,可以重复使用的,具有特定功能的代码块#1.函数定义的通用格式def 函数名(形式参数):函数体return 返回值2.函数调用的通用格式变量接收返回值 = 函数名(实际参数)什么是局部变量——作用范围在函数内部,在函数外部无法使用什么是全局变量——在函数内部和外部均可使用如何将函数内定义的变量声明为全局变量——使用global关键字,global 变量。
2023-09-30 16:07:54
95
原创 Python大数据学习总结day04——循环语句(while循环与for循环)
continue语句跳过本次循环体中剩下尚未执行的语句,立即进行下一次的循环条件判定。for 临时变量 in 待处理数据集 # i为临时变量。如果实在需要在循环外访问循环内的临时变量,可以在循环外预先定义。while循环的循环条件是自定义的,自行控制循环条件。break用于跳出一个循环或者完全结束一个循环。for 临时变量 in 待处理数据集。跳过(中止)本次循环,接着开始下一次循环。由于i变量在是在循环之前(外)定义的。循环满足条件是执行的代码。在循环外访问i变量是合理的。
2023-09-30 14:51:31
122
原创 Python大数据学习总结day02——Python基础语法
注:每个print()自带换行操作:print(end='\')3. 三引号定义法:name = “”“黑马程序员”“”可以使用转移字符()来将引号解除效用,变成普通字符串。在[],{},或()中的多行语句,不需要使用反斜杠\。使用三引号(’‘’或“”“)可以指定一个多行字符串。- float(X)——将x转换为一个浮点数。- int(X)——将x转换为一个整数。- str(X)——将对象转换为字符串。多行注释——“”“(注释语句)”“”type()语句——查看数据的类型。type(被查看类型的数据)
2023-09-30 11:57:13
171
原创 Python大数据学习day01——大数据开发概论
计算机硬件主要以CPU(运算器和控制器)、存储器、输入设备、输出设备。大数据框架(Hadoop、Hive、Spark、Flink)海量数据存储 ——海量数据运算——海量数据迁移。编程语言(SQL、Python、Java)2.大数据特点(大、多、值、快、信)操作系统(Linux)明确分析目的思路——计算机组成和编程语言。
2023-09-28 16:40:54
248
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人