工作充电🔋
文章平均质量分 89
学习新技能:不断学习新技能是保持竞争力的关键。通过参加课程、阅读书籍、观看培训视频等方式,您可以掌握新技能并进一步提高自己的专业水平。
AIMaynor
个人博客:maynor1024.live,ai网站:api.maynor1024.live
展开
-
提升工作效率1000%之Linux三剑客(grep、sed、awk)
处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。RS:输入记录分隔符;注意:以上都是内置变量,在引用时不需要前面加$,每新建一个变量,都需要加个-v,与变量名之间有无空格都可以,变量可以在引用之后再声明,但那一行的输出会输出空行。下面所说的是Linux中最重要的三个命令在业界被称为“三剑客”,它们是awk,sed,grep。算术操作符:x+y, x-y, x*y, x/y, x^y, x%y。转载 2022-11-02 11:21:10 · 571 阅读 · 0 评论 -
MySQL优化20招
一、查询SQL尽量不要使用select ,而是具体字段1、反例2、正例3、理由。转载 2022-10-08 12:48:08 · 774 阅读 · 0 评论 -
工作常用之Hive 调优【四】HQL 语法优化
列裁剪就是在查询时只读取需要的列,分区裁剪就是只读取需要的分区。成本优化器,代价最小的执行计划就是最好的执行计划。在读数据的时候,可以只读取查询中所需要用到的列,而忽略其他的列。原创 2022-10-01 06:00:00 · 482 阅读 · 0 评论 -
工作常用之Hive 调优【三】 Explain 查看执行计划及建表优化
分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。原创 2022-09-29 16:10:01 · 367 阅读 · 0 评论 -
工作常用之Spark调优【二】资源调优
一般情况下,各个区域的内存比例保持默认值即可。务信息,然后将任务代码再反序列化得到可执行代码,最后再结合其他任务信息创建。当数据过于分散,分布式任务数量会大幅增加,但每个任务需要处理的数据。消耗来说,相比花在数据处理上的比例,任务调度上的开销几乎与。是一般不会这样设置,为了合理利用资源,一般会将并行度(根据官网的描述,那么可以推断出,如果。列化模式,并且需要进程注册类操作。内存资源充足情况下,使用默认级别。显然,在这种情况下,序列化,可以优化存储内存占用。的默认并行度,没有设置时,由。原创 2022-09-13 17:19:08 · 1601 阅读 · 0 评论 -
工作常用之Spark调优【一】
以分隔的方式输出,它会输出更易读的物理执行计划,本原因,才能知道应该在哪儿进行优化,是调整。:展示优化后的逻辑执行计划以及相关的统计。存储库来解析验证语义、列名、类型、表名等。是将执行节点本地的数据进行局部聚合,另一个。为新一代的引擎内核,所有其他子框架如。将各个分区的数据进一步进行聚合计算。,表示需要在集群上移动数据。:展示物理执行计划和逻辑执行计划。优化器根据各种规则进行优化。运算符就是全表扫描本地的表。并展示每个节点的详细信息。不检查表名、不检查列名。运算符表示数据聚合,一般。原创 2022-09-13 16:58:39 · 660 阅读 · 0 评论 -
教你如何成为开源项目SeaTunnel的贡献者
经过阅读源码,发现源码中有 Bug,修改后将代码提交给社区。或者,框架有一个新 的特性亟待开发,你为新功能的实现提供了解决方案,这属于代码贡献,也是一种重要的 参与开源贡献的方式。.........转载 2022-06-14 20:50:57 · 1228 阅读 · 2 评论