Data_Focus-CSDN博客

原创一篇文章帮你回顾spark

一篇文章帮你回顾spark

2024-01-19 17:32:00 1715 1

原创飞算JavaAI需求转SpringBoot项目沉浸式体验

本文介绍使用飞算AI快速开发摄影机位地图网页的全过程。系统可实现：1)在地图上标记城市摄影机位；2)用户可添加/查看机位分布；3)点击地标查看样片及拍摄参数。开发流程包括：需求确认、数据库表结构自动生成（支持自定义修改）、接口文档自动创建、完整代码生成（2分钟内完成）。系统包含前后端完整代码架构，涵盖控制器、服务层、DAO层等，开发者可直接获取开箱即用的项目文件。该方案显著提升开发效率，避免重复造轮子。（149字）

2025-08-12 10:39:58 158

原创飞算JavaAI体验2.0

飞算数据质量检测功能体验：功能分析细致到位，细节展示全面，接口逻辑设计极为精细，远超普通程序员编码规范。源码生成速度快（约1分半），支持完整项目导出，代码规范且注释详尽。该系统能精准实现详细需求描述，但界面美观度有待提升。整体展现了AI编码的新范式，期待后续功能优化。

2025-07-18 10:27:11 208

原创重磅！AI编程再次破局

飞算AI，重新定义编程新格局！

2025-07-11 11:22:59 169

原创大数据面试题—包含真实面经（压力拉满）

从事数据开发，手写面试题5W字，涉及hadoop、zookeeper、kafka、spark、flink、clickhouse等常见的大数据中间件，文档可以后台踢我

2024-08-19 22:51:30 1034

原创 mysql索引B+树可视化演示地址

https://www.cs.usfca.edu/~galles/visualization/BPlusTree.html

2024-06-13 11:32:33 531

原创 mysql高级刷题-01-求项目子任务分组计算

mysql刷题

2024-06-05 17:19:41 500

原创 mysql高级刷题-01-求中位数

刷题记录

2024-06-05 16:46:50 1300

原创大数据开发面试题【数仓篇】

吐血整理，各位佬爷一键三连

2024-05-27 14:37:56 1224

原创大数据开发面试题【Mysql篇】

吐血整理，还请大佬们一键三连

2024-05-27 14:29:49 1273 2

原创大数据开发面试题【ClickHouse篇】

吐血整理，还请大佬们一键三连

2024-05-27 11:45:59 3476 2

原创大数据开发面试题【Flink篇】

吐血整理，还请一键三连

2024-05-27 11:31:50 1560

原创大数据开发面试题【Spark篇】

吐血整理，还请各位大佬们一键三连

2024-05-27 11:02:22 1678

原创大数据开发面试题【Kafka篇】

吐血整理，小编亲身体验

2024-05-27 10:51:36 1040

原创大数据开发面试题【Hive篇】

吐血整理，小编亲身体验

2024-05-20 15:58:24 2500 2

原创大数据开发面试题【Flume篇】

吐血整理，亲身体验

2024-05-20 15:56:33 548 3

原创大数据开发面试题【Zookeeper篇】

吐血整理，小编亲身经历

2024-05-20 15:54:22 1060

原创大数据开发面试题【Yarn篇】

吐血整理，亲身经历

2024-05-20 15:41:14 750 1

原创大数据开发面试题【MapReduce篇】

吐血整理，亲身经历

2024-05-20 15:39:49 2218 1

原创大数据开发面试题【HDFS篇】

吐血整理，作者亲身经历面试题总结

2024-05-20 15:36:32 684 1

原创大数据开发面试题【Hadoop篇】

吐血整理亲身体验的面试题总结

2024-05-20 15:33:27 1343 3

原创大数据面试题—包含真实面经（压力拉满）

大数据最全面试题吐血整理

2024-04-16 11:53:11 1929

原创 ClickHouse中的rollup、cube、totals操作

一文让你搞懂clickhouse中groupby的三大特点

2024-01-31 17:55:30 1183

原创还在纠结两种数仓建模的理论模式吗？一文帮你搞懂

企业数据仓库是企业信息化工厂的枢纽，是原子数据的集成仓库，从各种操作系统集成而来，包含一个确定的的且一致的业务活动表示法，基于原子数据的性质，该仓库尽可能地包括最底层的细节数据;企业数据仓库通常存储于关系型数据库管理系统中华，并且Inmon主张使用第三范式进行数据库设计。

2024-01-29 16:06:56 539

原创还没看懂数仓的维度建模吗？一文帮你搞定

本文涉及数据仓库的维度建模

2024-01-29 15:32:09 720

原创 Spark持久化和检查点的区别？

一问搞懂spark检查点和持久化的区别？

2024-01-26 15:08:20 546 1

原创 Spark物理执行计划生成方法

Spark具体采用3个步骤来生成物理执行计划：首先根据action（）操作顺序将应用划分为作业（job），然后根据每个job的逻辑处理流程中的ShuffleDependency依赖关系，将job划分为执行阶段（stage）。最后在每个stage中，根据最后生成的RDD的分区个数生成多个计算任务（task），具体如下所述。

2024-01-26 15:05:03 873 1

原创一篇文章帮你回顾hadoop

一篇文章帮你回顾hadoop

2024-01-19 17:42:29 499 2

原创 kafka面经

消费者组：由多个消费者组成，消费者组内每个消费者负责消费不同分区的数据，一个分区只能由一个组内消费者消费，消费者组之间互不影响，所有的消费者者都属于某个消费者组分区：一个topic可以分布到多个服务器上，一个topic可以分为多个partition副本：一个topic的每个分区都有若干个副本、一个Leader（副本的主）和若干个Follower生产者发送原理：涉及两个线程，main和sender，在main中创建了一个双端队列（RecordAccumulator）。

2023-11-28 15:27:52 350

原创 Kafka基础

当一个消费者被关闭或者发生崩溃时候，就离开群组，原本由它读取的分区将由群组里的其他消费者来读取，这样的行为被称为再均衡，在再均衡期间，消费者无法读取消息，消费者通过向被指派为群组协调器的broker发送心跳，证明自己还活着，如果超过时间没有报告心跳信息，则被判定为死亡，就会触发再均衡。1、kafka可以保证分区消息的顺序，如果使用同一个生产者往同一个分区写入消息，而且消息B在消息A之后写入，那么kafka可以保证消息B的偏移量比消息A的偏移量大，而且消费者会先读取消息A再读取消息B。

2023-11-28 15:25:52 191

原创 Kafka分区分配

进行分区的键，如果key不为null，则会默认的分区器会对key的哈希取余，将结果传入到对应的分区中，若key为null，那么消息将会以轮询的方式发往主题内的各个可用的人分区。RangeAssignor：是按照消费者总数和分区总数继续宁整除运算得到一个跨度，然后将分区按照跨度进行平均分配，以保证分区尽可能均匀地分配给所有的消费者。分区分配是一个很重要的概念，当遇到分区分配时候，有三个重点——生产者发送消息、消费者消费消息、创建主题。注意：分区是在主题下有的，副本是对于分区而言的。

2023-11-28 15:21:02 198

原创关于kafka报错“不能找到路由”Closing socket connection. Attempting reconnect except it is a SessionExpiredExcept

最后发现是三台机器之间的防火墙没有完全关闭，最后关闭三台机器的防火墙，最终kafka正常，zk正常。以为是kafka版本的问题，然后就各种安装各种版本的kafka，最后还是报错 —“不能找到路由”当启动kafka时候，一直报错不能找到路由，

2023-10-20 15:30:49 1356 1

原创 [满满的干货]大数据生态中间件常见问题描述

2.第二个是选择把什么数据输出到硬盘上，spark会根据数据计算的血缘，来判断某一个RDD对于前置数据是宽依赖还是窄依赖，如果是宽依赖，意味着一个节点的故障，可能会导致大量的数据要进行重新计算，乃至数据网路传输的要求。1.第一个是数据存储上，数据不再是存放在硬盘上，而是可以缓存在内存中，只有当内存不足的时候，才会存储在硬盘上，同时，数据的持久化，也支持硬盘，序列化后的内存存储，以及序列化后java对象的内存存储三种形式，每一种都比另一种占用更多的内存，但计算速度更快。

2023-09-14 16:59:11 648 1

原创大数据技术之spark算子

大数据spark核心--算子

2023-03-10 10:22:38 512

原创大数据scala之函数至简原则（重点）

scala中及其重要的知识点，为scala函数时编程提供基础

2023-03-09 22:12:12 287

原创大数据技术之scala经验

大数据-scala

2023-03-08 15:00:49 205

大数据开发面试题，吐血整理

包含hadoop/hive/kafka/flume/scala/spark/flink等相关大数据中间件面试，并且会不断更新，本资源提供了大数据开发领域常见的面试题和答案，旨在帮助求职者准备面试并提升在大数据开发方面的知识和技能。该文档涵盖了大数据生态系统中的核心技术、工具、理论知识以及实践应用，适用于初级、中级和高级的求职者。基础概念大数据的定义和特点大数据处理的基本原理常见的数据存储格式（如CSV、JSON、Avro、Parquet） Hadoop生态系统 HDFS（Hadoop Distributed File System） HDFS的架构和工作原理数据读写流程 NameNode和DataNode的作用 MapReduce MapReduce的基本概念和工作流程 MapReduce编程模型 Shuffle和Sort机制 YARN（Yet Another Resource Negotiator） YARN的架构和资源管理 ApplicationMaster和NodeManager的角色

2024-05-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人