Study
文章平均质量分 67
记录大数据相关工具学习笔记。
Forge_ahead
这个作者很懒,什么都没留下…
展开
-
Hive效率优化记录
Hive是工作中常用的数据仓库工具,提供存储在HDFS文件系统,将结构化数据映射为一张张表以及提供查询和分析功能。Hive可以存储大规模数据,但是在运行效率上不如传统数据库,这时需要懂得常见场景下提升存储或查询效率的方法,本文记录工作中常见的情形。原创 2023-11-18 11:09:55 · 637 阅读 · 0 评论 -
Hive建表语法和参数记录
Hive是一个基于Hadoop的数据仓库工具,可以将结构化数据映射到HDFS存储(建表对应在HDFS建了一个文件夹),并提供类SQL查询语言-HiveQL,Hive可以将HQL语句转换为MR任务执行。本文记录Hive建表的常用语法和参数。原创 2023-11-04 14:02:30 · 320 阅读 · 0 评论 -
Hive中explode和lateral view函数使用
UDF:用户自定义标量函数(User Defined Function),使用场景是一进一出(一个数据项一个输出项)。UDAF:用户自定义聚合函数(User Defined Aggregation Function),使用场景是多进一出(多个数据项返回一个结果),常见的是聚合函数UDTF:用户自定义表格函数(User Defined Table Function),使用场景是一进多出(一个输入项转换为多个输出项),lateral和view explode可以实现类似效果。原创 2023-09-23 09:19:18 · 220 阅读 · 0 评论 -
Anaconda创建并管理Python虚拟环境
在使用Python进行一些开发或分析工作时,需要安装并使用大神们写的一些程序包。有的程序包只支持32位Python环境,有的支持64位Python环境;有的包支持最新版本,有的可能只支持以前版本(3.6或2.x),而且不同包之间还有版本依赖性。使用Anaconda可以创建多个不同版本的Python虚拟环境,在不同环境下可以下载不同的包进行管理,安装时就不易产生混乱了。原创 2023-09-15 13:26:24 · 161 阅读 · 0 评论 -
selenium模拟浏览器操作
Selenium是一个用于Web应用程序测试的工具。Selenium主要用于自动化测试,测试直接运行在浏览器中,就像真正的用户在操作一样。同样,selenium可以模拟用户在浏览器的行为,利用网页定位获取网页信息。原创 2023-06-17 09:58:23 · 480 阅读 · 0 评论 -
xpth与BeautifulSoup实现网页解析
在网页内容中快速准确的定位需要的信息,可以使用正则表达式,但是正则表达式书写结构较为复杂,效率不高。可以使用一些选择器快速实现内容查找。原创 2023-06-15 16:05:27 · 184 阅读 · 0 评论 -
Python提取网页信息并保存
使用Python爬取网页内容时,获取网页源码文件后使用一系列解析方法提取我们需要的信息,对于提取到的信息怎么保存下来,本文提供常见的两种方法:保存到本地文件或MySQL数据库。原创 2023-06-15 10:15:03 · 1062 阅读 · 0 评论 -
MySQL8.0 zip版安装教程
下载好的zip文件解压到D盘的全英文路径下。例如:D:\Software\mysql-8.0.32-winx64。注意:basedir后面输入自己MySQL安装路径,datadir是相应安装路径下data文件夹。如上图,选择好相应的版本号和对应的操作系统,点击第一个文件下载。打开解下后的MySQL文件,新建一个文本文档,输入以下内容。首先去官网下载社区版压缩文件。新建一个MySQL路径。右键以管理员身份运行。原创 2023-06-08 13:17:46 · 471 阅读 · 0 评论 -
Tableau可视化教程
找到Tableau安装目录,shapes文件夹,建立一个新的英文文件夹,添加png图像文件。原创 2023-05-17 16:01:34 · 462 阅读 · 0 评论 -
Python爬虫思路模板
使用Python进行爬虫,原理上是共通的,首先先对网站发起数据请求,可以使用requests模块、urllib.request方法,对于动态网站可以使用selenium模拟浏览器登录方法。拿到服务器返回的网页数据后,对数据进行解析,获取感兴趣的信息,可以使用re模块进行正则匹配,xpath或BeautifulSoup选择节点的方法,对于网页数据是json格式的可以直接导入json模块直接进行解析。原创 2023-05-16 13:50:11 · 157 阅读 · 0 评论 -
SQL面试相关知识点
read uncommitted会引起脏读(B事务未提交A事务就能查到数据更新),不可重复读(A事务开启过程中B事务提交,A执行查询会结果不同),幻读问题(B事务提交,A事务查询结果相同但是不可更新);这样可以避免上述的SQL语句,在查询的过程中,出现回表查询。事务是一组操作的集合,是一个不可分割的工作单位,会把所有的操作作为一个整体一起向系统提交或撤销操作请求,保证成批的 SQL 语句要么全部执行,要么全部不执行。聚集索引将数据存储和索引放到一块,一般选择主键索引,第一个唯一索引作为聚集索引,性能更高。原创 2023-05-16 10:39:00 · 47 阅读 · 0 评论 -
Linux 常用命令
记录Linux常用命令,方便使用时检索。原创 2023-05-16 08:33:47 · 36 阅读 · 0 评论 -
SQL学习总结
定义数据库对象(数据库,表,字段)对数据库的常用操作功能SQL查看所有数据库创建数据库选择数据库use mydb;删除数据库修改数据库编码对表结构的常用操作功能SQL创建表create table [if not exists] tableName(字段1 类型[(宽度)] [约束条件] [comment '字段说明'],字段2 类型[(宽度)] [约束条件] [comment '字段说明'])charset=utf8;原创 2023-05-15 11:07:58 · 206 阅读 · 0 评论