Apache呀
码龄6年
关注
提问 私信
  • 博客:78,021
    78,021
    总访问量
  • 71
    原创
  • 154,632
    排名
  • 69
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2019-05-05
博客简介:

weixin_45017098的博客

查看详细资料
  • 原力等级
    当前等级
    3
    当前总分
    360
    当月
    2
个人成就
  • 获得106次点赞
  • 内容获得9次评论
  • 获得407次收藏
  • 代码片获得1,702次分享
创作历程
  • 3篇
    2024年
  • 85篇
    2023年
成就勋章
TA的专栏
  • 数据库
    21篇
  • Hive
    8篇
  • Spark
    4篇
  • HBase
    2篇
  • Sqoop
    6篇
  • Python
    6篇
  • Java
    17篇
  • 容器
    7篇
  • 其他
    7篇
兴趣领域 设置
  • Python
    pythonnumpypandasconda
  • Java
    javaspringmavenkafkaspring bootspring cloudjvmlog4jmybatisjava-zookeeper
  • 编程语言
    scala开发语言汇编
  • 开发工具
    pycharmvimdockervscodepostmanjupyteridea
  • 数据结构与算法
    最小二乘法b树散列表图搜索算法哈希算法hash-indexr-tree
  • 大数据
    sqlserver数据库mariadbhdfsmapreducesqoopodps大数据数据仓库etl数据库架构dbaetl工程师数据库开发powerbiclickhouse
  • 前端
    前端
  • 后端
    spring boot爬虫后端架构分布式中间件spring cloud
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【python基础语法1】注释,变量与运算符

这里写自定义目录标题一、注释分类注意二、变量变量的声明变量的命名注意变量的交换常量三、数据类型分类六大标准数据类型Number 数字类型 分类:2个内置方法 type 和 id自动类型转换强制类型转换容器类型分类:五个字符串类型 str列表类型 list内置函数 len元组类型 tuple字符串类型的索引取值集合类型 set字典 dict变量的缓存机制容器类型的强制类型转换内置方法 repr (元字符串)类型判断四、运算符分类算数运算符比较运算符成员运算符 in身份运算符逻辑运算符位运算符运算符的优先级欢迎
原创
发布博客 2024.06.14 ·
406 阅读 ·
3 点赞 ·
0 评论 ·
10 收藏

MySQL全文索引揭秘:提升搜索效率的关键

我们都知道 InnoDB 在模糊查询数据时使用 “%xx” 会导致索引失效,但有时需求就是如此,类似这样的需求还有很多,例如,搜索引擎需要根基用户数据的关键字进行全文查找,电子商务网站需要根据用户的查询条件,在可能需要在商品的详细介绍中进行查找,这些都不是B+树索引能很好完成的工作。通过数值比较,范围过滤等就可以完成绝大多数我们需要的查询了。但是,如果希望通过关键字的匹配来进行查询过滤,那么就需要基于相似度的查询,而不是原来的精确数值比较,全文索引就是为这种场景设计的。
转载
发布博客 2024.01.29 ·
269 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

数仓建模理论与规范

数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。从上面的定义可用看到数据仓库主要有四个特点:• 面向主题:面向分析主题,如商家全域分析、交易环节分析等。• 集成的:将业务系统进行集成组装,并整合到数据仓库中。
原创
发布博客 2024.01.16 ·
1323 阅读 ·
20 点赞 ·
0 评论 ·
21 收藏

一篇文章教会你数据仓库之详解拉链表怎么做

上面的拉链表存储方式对于下游使用方存在一定的理解障碍,特别是ODS 数据面向的下游用户包括数据分析师、前端开发人员等,他们不怎么理解维度模型的概念,因此会存在较高的解释成本。1 . 透明化 底层的数据还是历史拉链存储,但是上层做一个视图操作或者在 Hive 里做一个hook ,通过分析语句的语法树,把对极限存储前的表的 查询转换成对极限存储表的查询。但是其本身也有一定的局限性,流水表存放的是一个用户的变更记录,比如在一张流水表中,一天的数据中,会存放一个用户的每条修改记录,但是在拉链表中只有一条记录。
原创
发布博客 2023.12.26 ·
557 阅读 ·
7 点赞 ·
0 评论 ·
8 收藏

​Linux中常用的快捷键

快捷键说明Tab命令补全Ctrl a光标移动到行首Ctrl e光标移动到行尾Ctrl c中断程序运行Ctrl d退出终端Ctrl w剪切光标前面的单词Ctrl u剪切光标前面的所有内容Ctrl k剪切光标处及光标后面的内容Ctrl y粘贴刚才剪切的内容到光标前面Ctrl l清屏Ctrl r在历史命令中从后往前搜索包含指定字符串的命令,再按Ctrl r查找上一个,按向右的箭头选择当前命令到shell,按Ent
原创
发布博客 2023.12.20 ·
458 阅读 ·
8 点赞 ·
0 评论 ·
6 收藏

SQL中 WITH AS 的使用方法

WITH AS短语,也叫做子查询部分(subquery factoring),可以定义一个SQL片断,该SQL片断会被整个SQL语句用到。可以使SQL语句的可读性更高,也可以在UNION ALL的不同部分,作为提供数据的部分。对于UNION ALL,使用WITH AS定义了一个UNION ALL语句,当该片断被调用2次以上,优化器会自动将该WITH AS短语所获取的数据放入一个Temp表中。而提示meterialize则是强制将WITH AS短语的数据放入一个全局临时表中。
原创
发布博客 2023.12.18 ·
1100 阅读 ·
7 点赞 ·
0 评论 ·
11 收藏

四万字Spark性能优化宝典

​ 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。
转载
发布博客 2023.11.08 ·
174 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

如何解决MySQL主从复制延时问题

有时候我们遇到从数据库中获取不到信息的诡异问题时,会纠结于代码中是否有一些逻辑会把之前写入的内容删除,但是你又会发现,过了一段时间再去查询时又可以读到数据了,这基本上就是主从延迟在作怪。主从延迟,其实就是“从库回放” 完成的时间,与 “主库写 binlog” 完成时间的差值,会导致从库查询的数据,和主库的不一致。
原创
发布博客 2023.11.02 ·
123 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

详解 SELECT COUNT(*)

本文通过一个例子深入剖析了 MySQL 的执行计划是如何选择的,以及为什么它的选择未必是我们认为的最优的,这也提醒我们,在生产中如果有多个索引的情况,使用 WHERE 进行过滤未必会选中你认为的索引,我们可以提前使用 EXPLAIN, optimizer trace 来优化我们的查询语句。
转载
发布博客 2023.09.05 ·
1239 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

列存储为什么能够大幅度提高数据的查询性能?

​ 传统的存储数据的方式是逐行存储(Row Store),每一个Page存储多行数据,而列存储(Column Store)把数据表中的每一列单独存储在Page集合中,这意味着,Page集合中存储的是某一列的数据,而不是一行的所有列的数据。​ 列存储索引适合于数据仓库中,主要执行大容量数据加载和只读查询,与传统面向行的存储方式相比,使用列存储索引存储可最多提高 10 倍查询性能 ,与使用非压缩数据大小相比,可提供多达 7 倍数据压缩率。
转载
发布博客 2023.06.28 ·
230 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Hive生产场景的十大经验总结

先转换为Hive内部表再进行删除,注意external的大小写形式。
转载
发布博客 2023.06.26 ·
395 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

看一遍就理解:order by详解

日常开发中,我们经常会使用到order by,亲爱的小伙伴,你是否知道order by 的工作原理呢?order by的优化思路是怎样的呢?使用order by有哪些注意的问题呢?本文将跟大家一起来学习,攻克order by~
转载
发布博客 2023.06.26 ·
1973 阅读 ·
0 点赞 ·
2 评论 ·
6 收藏

看一遍就理解:group by详解

having子句用于分组后筛选,where子句用于行条件筛选having一般都是配合group by和聚合函数一起出现如(where条件子句中不能使用聚集函数,而having子句就可以。having只能用在group by之后,where执行在group by之前。
转载
发布博客 2023.06.26 ·
2827 阅读 ·
8 点赞 ·
0 评论 ·
20 收藏

SQLite 新特性

SQLite 从版本3.25.0开始,在使用over子句的聚合函数中支持了filter子句,但是在使用group by子句的聚合函数中还不支持。事实上,SQLite 是一个非常可靠的数据库,它可以处理 TB 级的数据,但它没有网络层。它不支持的功能在其他一些主要产品中也同样不支持(在聚合中语句中的distinct,width_bucket, respect|ignore nulls和from first|last等语句)。这是一个特有的SQL扩展,即它不是标准SQL的一部分,因此在下面的矩阵中是灰色的。
转载
发布博客 2023.06.26 ·
321 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Sqoop数据导出

sqoop将hdfs数据导入到mysql表中,不会自动创建表,所以需要我们在mysql中,根据hdfs文件中的数据,创建对应的表。以下命令用于hdfs数据(位于HDFS上的/data/xinniu/的文件)导出到mysql中sqoop_db库下的emp表。重新将hive表中的数据导入到mysql中并按照id进行更新。hdfs准备如下数据,放到/data/xinniu目录下。查看hive中hainiu.student表数据。将数据导出到mysql中。
转载
发布博客 2023.06.20 ·
137 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Sqoop应用_导入HBase

修改hbase安装目录的所有者和属组为hadoop用户hadoop用户组。将准备好的hbasejar包导入到sqoop的lib目录下。求MySQL表必须有主键,将主键作为rowkey,标识一行。修改conf目录下的hbase-site.xml配置文件。修改conf目录下的hbase-env.sh配置文件。解压hbase安装包到/usr/local目录下。进入hbase客户端并创建hainiu名称空间。
转载
发布博客 2023.06.20 ·
282 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Sqoop应用_导入Hive

--incremental lastmodified --merge-key的作用:修改过的数据和新增的数据(前提是满足last-value的条件)都会导入进来,并且重复的数据(不需要满足last-value的条件)都会进行合并。如果之前的数据有修改的话可以使用–incremental lastmodified --merge-key进行数据合并执行修改的SQL。现在我们已经实现了 hive的数据导入方式,那么我们怎么实现hive的增量数据导入呢?结果:id=3的数据成功导入。1、append方式。
转载
发布博客 2023.06.20 ·
1610 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Sqoop应用实例

将sqoop_db中的goods_table表每天抽取所有数据并导入到hdfs:/user/hainiu/goods_table目录下。并按照每天的日期生成对应的目录保存表数据。以shell脚本的方式运行每天定时运行。执行时,需要从外界将日期传递过来。
转载
发布博客 2023.06.20 ·
150 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Sqoop原理与安装

来自于Apache软件基金会提供。Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。Hadoop生态系统包括:HDFS、Hive、Hbase等RDBMS体系包括:Mysql、Oracle、DB2等Sqoop可以理解为:“SQL 到 Hadoop 和 Hadoop 到SQL”。
转载
发布博客 2023.06.20 ·
89 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Sqoop应用_导入测试

maptask执行sql副本时,需要在where条件中添加$CONDITIONS条件,这个是linux系统的变量,可以根据sqoop对边界条件的判断,来替换成不同的值,这就是说若split-by id,则sqoop会判断id的最小值和最大值判断id的整体区间,然后根据maptask的个数来进行区间拆分,每个maptask执行一定id区间范围的数值导入任务,如下为示意图。使用sqoop上传字典表数据到hive中与我们的数据进行关联查询。添加hadoop,hive,hbase等环境信息。
转载
发布博客 2023.06.20 ·
81 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多