༺水墨石༻-CSDN博客

58同城面试盘点1.一张订单表，有user_name,order_id,order_time,order_amount 四个字段，怎么取出每个用户2021年10月以来第一个订单的金额（下单时间格式为’yyyy-MM-dd HH:mm:ss’）？select user_name, order_id, order_amountfrom( select user_name, order_id, order_amount, row_number() over(partition by use

2022-02-21 23:41:36 970

原创 HIVE 数据倾斜浅谈

HIVE 数据倾斜浅谈

2022-02-20 23:28:48 730

原创 HIVE 优化浅谈

HIVE 优化浅谈hive不怕数据量大，导致运行慢的主要原因是数据倾斜。hive的运行机制这里就不再赘述，咱们直入正题，聊一下hive的优化方法。优化点一：业务逻辑优化1.去除冗余逻辑对于复杂业务逻辑来说，在非数据倾斜的情况下，最有效的优化方式就是对业务逻辑的优化，去掉冗余的逻辑过程，能一步完成的不要分两步。尤其对于旧逻辑优化及数据迁移工作中较为常见。2.重复逻辑落临时表复杂的业务场景很可能会有复用的逻辑，把重复的逻辑落入临时表中不仅能减少资源消耗，还能有利于后期的代码维护。优化点二：减少读取

2022-02-16 01:47:12 1460

原创 hive UDF函数取最新分区

hive UDF函数取最新分区1.pom文件<dependencies>  <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId>

2021-10-13 22:13:59 924

原创（一）MySQL优化之索引优化

一、索引的概念我们知道，在查询过程中，如果被查询的表没有索引，数据库会进行全表扫描，而如果添加了相应的索引，数据库会根据索引直接查找符合条件的数据。因此，索引的存在会大大提高查询效率。而索引其实就是一个特殊文件(InnoDB中索引是表空间的一部分)，它包含碰上对表中所有记录的引用指针。二、索引的分类索引可以分为两种：聚簇索引和非聚簇索引。（一）聚簇索引聚簇索引是按照每张表的主键构造一颗B+树，同时叶子节点中存放的就是整张表的行记录数据，也将聚集索引的叶子节点称为数据页。这个特性决定了索引组织表中数

2020-11-20 01:00:34 487 2

原创从mysql到大数据（三）--mysql数据库建模一常用数据类型及引擎

数据库的安装请自行百度。如果你想直捣黄龙练查询，没有表没有数据是不能实现的。我们从建表开始学习。但要知道，我们所有东西都是了解，学习不要有压力，不要必须要求记什么，当然，如果你不累可以记，记不住也没关系，练多了，就这几个词，我们也会计住的。从这节开始，我结尾会总结一下本节常用关键词。建表之前，我们要首先学习数据类型。因为，我们的数据要写入表格中进行高效管理就要分一下类。一、常见数据类型我给大家一组对话，大家看看这里面的文字可以分为哪些类：小明同学在2020-10-23 12：30：00吃完了2个馒

2020-10-23 01:41:37 548

原创从mysql到大数据（二）--数据库的认识

一、数据库的认识数据库顾名思义，是存放数据的库房。二、数据库的分类（了解）可以分为两大类：关系型数据库和非关系型数据库。关系型数据库：关系型数据库，存储的格式可以直观地反映实体间的关系。关系型数据库和常见的表格比较相似，一条记录内的数据彼此之间存在关系。在轻量或者小型的应用中，使用不同的关系型数据库对系统的性能影响不大，但是在构建大型应用时，则需要根据应用的业务需求和性能需求，选择合适的关系型数据库。mysqlOracleMariaDBPercona ServerPostgreSQL

2020-10-23 00:06:37 352

原创从mysql到大数据(一)--开宗明义

一、大数据长什么样长像很普通，至少看两眼后就觉得很平常。举个栗子：一个表格，学生信息表，里面有学号、姓名、性别、年龄、学校、学院、专业、年级、宿舍号等信息如下，但是表在库里，我们想看，跟现实中的表格的唯一区别是，我们不能用手直接拿。那怎么看呢？借助命令–sql-- 查询四年级学生的学号、姓名、性别、年龄、学校、学院、专业、年级SELECT -- 查询 STU_NO,

2020-10-22 22:16:29 217

原创 SQL优化之浅见

SQL优化之浅见一、查询优化二、导入数据时的优化三、INSERT优化用了段mysql/Oracle/hive等数据库,对SQL语言以Mysql为例，总结一下对sql优化方面的见解，欢迎大家补充。一、查询优化1.在关联查询中，关联键的数据类型一定要相同，最常见的是字符串类型的数字被当作INT类型与INT类型的键进行关联，隐性类型转换会使性能受到很大影响。2.模糊查询使用LIKE时尽量不使用左侧模糊，比如“%其实也厉害”，“%其实%”，不如使用右侧模糊查询，如：“软辅其实也%”；3.在关联或者WHER

2020-09-12 00:44:43 198

weixin_44902108的博客

原创 Navicat For Mysql连接Mysql8.0报错：客户端不支持服务器请求的身份验证协议

原创 SVN 修改版本库地址url路径

原创 excel转xmind

原创云效/git 删除特殊字符远程分支

原创双显示器扩展显示自定义鼠标移入方向

原创批量修改mysql数据库、表、字段的编码格式及排序规则

原创 SFTP批量下载与中文文件名乱码问题

原创一个专业搬砖人的幻想：全国实现旬休制度

原创 virtualbox:win11上的deepin如何设置与宿主机共享文件

原创 virtualbox: win11主机安装deepin双向复制问题

原创 58同城面试盘点

原创 HIVE 数据倾斜浅谈

原创 HIVE 优化浅谈

原创 hive UDF函数取最新分区

原创（一）MySQL优化之索引优化

原创从mysql到大数据（三）--mysql数据库建模一常用数据类型及引擎

原创从mysql到大数据（二）--数据库的认识

原创从mysql到大数据(一)--开宗明义

原创 SQL优化之浅见

原创动态分区添加的新字段无法插入数据

原创 Error during job, obtaining debugging information...

原创 mysql/sqlyog导入txt文件的方法

原创开窗函数的意义与用法

原创 hive中导入text文件遇到的坑

原创 sqoop导入hive时间格式问题解决方案

原创 # hive打不开,提示节点过少，进入安全模式~~

空空如也

空空如也