麦当当MDD-CSDN博客

原创湖仓一体化及冷、热、实时三级存储

湖仓一体化（Lakehouse）是大数据架构的演进方向，结合了数据湖的存储优势和数据仓库的查询能力，同时支持冷热分层存储、ACID 事务、实时数据分析。它解决了传统数据湖和数据仓库的缺陷，成为现代数据架构的主流选择

2025-03-06 09:29:39 968

原创 Kmeans算法来实现RFM指标计算步骤

K-Means（K均值）是一种经典的无监督聚类算法，主要用于将数据集划分为 KKK 个不同的簇（Cluster）。

2025-03-04 10:53:59 471

原创 Minhash 与 Simhash 在做文章去重时的区别？

在进行文章去重时，MinHash 和 SimHash 都是常用的近似算法，用于高效计算文档的相似性，但它们的原理和应用方式有所不同。

2025-02-14 14:16:58 1217

这是 Spark 的默认配置文件，可以在这里设置 Spark 作业的一些默认参数，比如 master URL（yarn）、deploy mode（client 或 cluster）、executor 内存等。这是 Spark 的环境配置文件。你需要设置一些环境变量，比如 SPARK_HOME, HADOOP_CONF_DIR 等。这是 YARN 的配置文件，通常位于 Hadoop 配置目录中。你需要确保这个文件在 Spark 配置中可以访问。

2024-07-15 15:46:09 693

原创 Spark和Hadoop作业之间的区别

Spark和Hadoop是两种广泛使用的大数据处理框架，各自有着不同的设计理念和使用场景。

2024-07-15 15:43:36 511

原创华为面试题及答案——机器学习(二)

偏差是指模型预测值与真实值之间的系统性误差。偏差反映了模型在训练数据上的拟合能力，即模型对数据中模式的捕捉能力。高偏差通常意味着模型过于简单，不能很好地捕捉数据的复杂关系。低偏差：模型能够较好地拟合训练数据，捕捉数据中的模式。高偏差：模型对数据中的模式捕捉不足，通常表现为欠拟合。

2024-06-25 20:05:01 1396 1

原创关于数据倾斜的深度探讨？

数据倾斜是指在分布式数据处理系统（如 Hadoop、Spark）中，数据分布不均衡导致某些节点（或任务）处理的数据量远远大于其他节点（或任务）的现象。这会导致负载不均衡，降低整个系统的性能。具体来说，数据倾斜会引发以下问题

2024-06-24 10:56:10 1403

原创华为面试题及答案——机器学习(一)

内生变量问题是指在回归分析中，自变量与误差项相关联，这会导致回归系数的估计偏误和不一致。内生性问题的存在会破坏普通最小二乘法（OLS）估计量的无偏性和一致性，导致模型结果不可靠。特性参数模型非参数模型参数数量固定随数据量增加而增加假设明确的分布或关系假设无需明确假设计算效率高相对较低灵活性较低较高适用场景小数据集，模型形式明确的情况大数据集，数据结构复杂的情况可解释性强弱。

2024-06-23 09:51:01 1832

原创华为面试题及答案——大数据

在 hadoop-env.sh 文件中，可以增加 JVM 分配给 NameNode 的内存。通常是在 HADOOP_NAMENODE_OPTS 中增加 -Xmx 参数来增加最大堆内存。export HADOOP_NAMENODE_OPTS="-Xmx8g -Xms4g ${HADOOP_NAMENODE_OPTS}"将上面的 8g 和 4g 替换为适合你系统的值。启用高可用配置，可以将元数据分布到多个 NameNode 上，从而减少单个 NameNode 的内存压力。以下参数可以优化 NameNode 的内

2024-06-22 21:18:55 1825

原创数据分析中如何理解透视表

透视表（Pivot Table）是数据分析中一种非常强大的工具，用于快速汇总、分析、探索和展示数据。透视表可以根据数据的不同维度和指标进行重组和计算，帮助用户从大量数据中提取有用的信息和发现数据中的模式和趋势。

2024-06-20 20:35:46 2261

原创在数据分析中，对缺失值解决方案的分析

参数值为int类型，按行去除NaN值，去除NaN值后该行剩余数值的数量（列数）大于等于n，便保留这一行。接收一个列表，列表中的元素为列名: 对特定的列进行缺失值删除处理。1, or 'columns'：删除包含缺失值的列。0, or 'index'：删除包含缺失值的行。all: 如果所有值都是NA，则删除该行或列。inplce=True，对原数据集进行修改。any: 如果存在NA值，则删除该行或列。可选参数，不建议使用这个参数。可选参数，默认为0按行删。subset接收一个列表。可选参数，默认为any。

2024-06-19 21:28:45 922

原创 ReduceTask有几种排序方式以及排序发生的阶段？

（Sort）和（Grouping）。这些排序操作发生在不同的阶段，以确保数据按键进行处理。

2024-06-17 17:09:20 558

原创 MapReduce中shuffle阶段的工作流程，如何优化shuffle阶段？

在MapReduce框架中，shuffle阶段是一个关键步骤，负责将Mapper输出的数据分配给适当的Reducer。

2024-06-17 17:01:24 998

原创 FineReport简单介绍(2)

聚合报表指一个报表中包含多个模块，每一块都类似一张单独的报表或者一张图表，块与块之间相对独立，互不影响。聚合报表特点：空白画布式设计界面，每个模块相互独立，专门解决大报表难题，单元格扩展分离，互不影响。聚合报表还存在一些不足：不支持自适应，单元格扩展分离但组件依旧相互推开。决策报表是 Finereport 设计器支持的模板设计类型其中之一。

2024-06-16 20:15:04 1969

原创 FineReport简单介绍

报表是以表格、图表的形式来动态展示数据，企业通过报表进行数据分析，进而用于辅助经营管理决策。FineReport 是一款用于报表制作，分析和展示的工具，用户通过使用 FineReport 可以轻松的构建出灵活的数据分析和报表系统，大大缩短项目周期，减少实施成本，最终解决企业信息孤岛的问题，使数据真正产生其应用价值。

2024-06-15 21:23:42 1345

原创对于机器学习的回答

机器学习（Machine Learning）是人工智能（AI）的一个子领域，它使计算机系统能够从数据中自动学习和改进，而无需明确编程。机器学习利用统计学和计算技术，构建能够识别数据中的模式并进行预测的算法和模型。机器学习是指通过构建和训练模型，使计算机能够从数据中学习并做出决策和预测的过程。其核心在于使用数据驱动的方法，让机器在没有显式编程指令的情况下提高性能。

2024-06-13 18:50:27 1545

原创数据分析(四)

join = 'inner' 默认 ‘outer’ outer 会保留连接的两张表的所有的信息，有列名、行名不匹配的时候，用NaN填充，如果是inner 只会连接行名、列名相同的部分。需要注意的是， index columns values 都可以传列表， aggfunc 可以针对不同的value 选择不同的聚合方式，此时需要传入字典但是不推荐把表做的过于复杂。作用和散点图类似，当数据量比较大的时候，绘制散点图，好多点会重复绘制到相同的位置，普通的散点图不能读出这个信息来。

2024-06-11 15:12:39 1217

原创数据分析(三)

分组字段，可以有1个多个，默认分组的字段在分组的结果中会作为行索引，如果设置了as_index = False ，分组字段会作为结果的列数据，会使用从0开始的整数索引。df.grouppy([分组字段], as_index= ).agg({‘聚合字段名’:'聚合方法名','聚合字段名’:'聚合方法名'})pd.cut(df['价格'],bins = [0,3000,8500,210000],labels=['便宜','中等','贵'])

2024-06-10 19:00:34 1197

原创数据分析(二)

df_head3.drop_duplicates(subset=['户型','朝向'],keep='last',ignore_index=True)df_head['区县'] = ['朝阳区','朝阳区','西城区','昌平区','朝阳区'] # 传入列表长度和df长度必须一致。charset=utf8'df.rename(index = {'老值':'新值'},columns={'老值':'新值'})df_head3['区域'].apply(func,args=['昌平区','其它区'])

2024-06-07 09:08:32 1126

原创数据分析(一)

values 值， ndarray（注意 pandas2.0以后，底层调用的运算库，可以不是numpy了，可以选择pyarrow）修改数据的API默认不会再原始的数据上进行修改，而是会在副本上进行修改，并且会把这个修改后的副本作为方法的返回值，返回来。如果两行行索引不一样，不能在一起算，如果一个Series里有的行索引，另一个Series没有，返回NaN。可以传入字典 {‘列名’:[值1，值2，值3]，‘列名2’:[值1，值2，值3]}

2024-06-06 21:49:52 901

原创大数据—数据分析概论

数据分析是指使用统计、数学、计算机科学和其他技术手段对数据进行清洗、转换、建模和解释的过程，以提取有用的信息、发现规律、支持决策和解决问题。数据分析可以应用于各种领域，包括商业、医学、工程、社会科学等。确定问题：明确要解决的问题或要回答的业务问题。设定目标：定义分析的具体目标和期望的结果，如提高销售额、降低成本、优化运营等。

2024-06-04 11:33:31 1868 4

原创 Python—面向对象小解(6)-闭包、装饰器

在Python中，闭包（closure）是一个函数对象，即使在其词法作用域外被调用，它仍然能访问该作用域内的变量。闭包通过“捕获”周围作用域的变量，保持这些变量的状态，即使在外部函数已经返回之后，这些变量仍然可以被访问和修改。

2024-06-03 08:42:50 699 1

原创 Python—面向对象小解(5)--多任务介绍

进程是操作系统分配资源的最小单元线程执行程序的的最小单元线程依赖进程，可以获取进程的资源一个程序执行先要创建进程分配资源，然后使用线程执行任务默认情况下一个进程中有一个线程运行多个进程或线程执行代码逻辑多个进程或线程同时执行叫做并行执行多个进程或线程交替执行叫做并发执行必行还是并发有cpu个数决定5个进程 cpu核心是3个计算时时并发执行 5个进程需要抢占cpu资源，谁抢到谁执行代码计算。

2024-06-01 09:13:34 1007

原创进程与线程

线程是进程中的一个执行单元，进程可以包含多个线程。线程共享进程的资源，但有自己的栈和寄存器。

2024-05-31 18:05:31 1088

原创 Python—面向对象小解(4)--模块介绍

网络通讯就是程序之间进行通讯，相互传递数据内容网络通讯三要素：（1）IP地址：网络虚拟环境下的唯一标识，类似于人的身份证号，通过IP可以找到计算机；（2）端口：表示计算机中某软件的地址信息，通过端口可以找到计算机中的软件；（3）协议：协议就是通信规则，程序之间必须按照规则传递信息，否则双方无法识别彼此信本质就是编写一个python文件文件名要符合python的命名规定义一个模块文件# 自定义的模块文件# 封装业务代码name = '张三'data = a+b其他开发人员使用模块文件。

2024-05-31 17:10:48 1101

原创 Python—面向对象小解(3)--多态、文件读写、异常处理

多态指的是一类事物的多中形态相同的方法，产生不同的执行结果运算符 + * 的多态int + int 加法计算str + str 字符串拼接list + list 列表的数据合并在python中可以使用类实现一个多态效果在python中使用重写的方式实现多态（1）定义两个类：老师、车；（2）定义老师类的属性：姓名，定义老师类的方法：开车、停车；（3）定义车类的属性：类型，定义车类的方法：开启、停止；（4）联系：老师开车，执行程序，观察效果。

2024-05-30 19:55:52 952

原创 Python—面向对象小解(2)

关键字class属性变量方法函数默认函数中必须有个self参数self(自己)代表当前对象如何将一项物品放入一个空间内?# 类的定义创建# 指定属性name = '大象'container = '冰箱'# 指定数据的处理方法# self代表当前兑现本身，可以使用self调用类中的属性和方法print(f'打开{self.container}')print(f'将{self.name}放入{self.container}')

2024-05-28 20:19:04 1159

原创 Python—面向对象小解(1)

面向对象编程（Object-Oriented Programming，简称 OOP）是一种程序设计范式，它通过使用“对象”和“类”来组织代码。Python 是一种面向对象的编程语言，支持 OOP 的核心概念。面向过程：侧重点是过程按照一定的顺序步骤完成对某一特定问题的处理如何将大象放入冰箱中？1-打开冰箱门2-将大象放入冰箱3-关上冰箱门如何将老虎放入冰箱中？1-打开冰箱门2-将老虎放入冰箱3-关上冰箱门如何将狮子关在笼子中？1-打开笼子门2-将狮子赶入笼子中3-关上笼子门。

2024-05-28 19:55:56 1193

原创大数据工具——Presto

Presto是一款分布式SQL查询引擎, Presto可以独立提供计算分析操作, 不需要依赖于其他的计算引擎。

2024-05-16 15:26:10 2814

原创大数据——What is 缓慢渐变维？

Slowly Changing Dimensions简称SCD ，"缓慢渐变维" 是一个术语，通常在数据分析和机器学习领域中使用。它指的是将高维数据空间中的点通过某种方式映射到一个较低维的空间中，同时保持尽可能多的原始数据信息。这个映射过程是逐渐的，而不是突然的，因此称为"缓慢渐变"。这个过程通常用于降维技术，例如主成分分析（PCA）和t-分布随机邻域嵌入（t-SNE）等。在实际应用中，通过降维，可以将高维数据转换成更易于理解和可视化的低维表示，同时保留了原始数据的结构和特征。

2024-05-13 21:08:14 1100

原创 Hive优化(4)——数据倾斜优化

数据倾斜是指在数据处理或计算过程中，某些数据分布不均匀，导致部分计算节点负载过重，从而影响整体计算性能。针对数据倾斜进行优化可以提高计算效率和资源利用率。：在数据加载或处理之前，对数据进行预处理，通过数据采样、数据分桶等方法，尽量均匀地分布数据，减少倾斜的可能性。：将数据按照某种规则或算法进行分片，使得每个分片中的数据量相对均匀，降低数据倾斜的程度。：选择合适的数据结构，如哈希表、树结构等，可以减少数据倾斜对计算性能的影响。例如，使用哈希分区可以将数据均匀地分布到不同的节点上。

2024-05-11 09:23:23 1450

原创 Hive优化(3)——索引优化

在创建索引之前，了解数据和查询类型至关重要。识别查询中经常使用的列以及用于过滤、连接和排序的列。Hive支持各种存储格式，如ORC（优化行列式）、Parquet等。这些格式提供了用于数据检索的内置优化。根据数据和查询模式选择适当的格式可以在不需要额外索引的情况下提高性能。分区数据可以通过限制需要扫描的数据量显著减少查询时间。这是一种优化查询的有效方法，特别是对于大型数据集。分区也可以作为一种索引。桶化是另一种将数据组织成更易管理部分的技术。它根据列值的哈希将数据分成桶。

2024-05-11 08:23:58 1373 1

原创 Hive优化(2)——join优化

在Hive中，优化JOIN操作是提高查询性能的关键之一。JOIN操作是将两个或多个数据集中的记录基于某个共同字段进行关联的操作，它可能会消耗大量的计算资源和时间，尤其是在处理大型数据集时。优化Hive JOIN操作可以通过数据预处理、分区、数据倾斜处理、合适的JOIN类型选择、调整并行度和资源配置以及使用索引等方法来提高查询性能和执行效率。根据实际情况选择合适的优化策略，可以有效地提升Hive查询的性能。

2024-05-10 14:54:23 1654 1

原创 Hive优化(1)——分桶采样

它的原理是将数据按照指定字段的哈希值分成固定数量的桶，将每条记录分配到对应的桶中。分桶可以帮助优化特定类型的查询，例如连接查询和聚合操作，因为它可以将数据分布得更加均匀，减少数据倾斜，提高查询效率。当表的数据量比较庞大的时候, 在编写SQL语句后, 需要首先测试 SQL是否可以正常的执行, 需要在表中执行查询操作, 由于表数据量比较庞大, 在测试一条SQL的时候整个运行的时间比较久, 为了提升测试效率, 可以整个表抽样出一部分的数据, 进行测试。这样可以在保持查询效率的同时，减少了对资源的需求。

2024-05-10 11:53:40 695

原创数仓分层——ODS、DW、ADS

ODS（Operational Data Store，运营数据存储）是数据仓库体系结构中的一个重要组成部分，通常作为数据仓库架构中的第一个层次或者与原始数据层紧密相关。ODS 层主要用于存储和处理来自业务应用系统的实时、操作性数据，提供给业务用户和决策者进行日常的操作性查询和分析。数据来源： ODS 层的数据主要来自于组织内部的业务应用系统，如企业资源计划（ERP）、客户关系管理（CRM）、销售、采购、库存管理系统等。这些系统产生的数据通常是实时、操作性的，包含了组织的日常业务活动的详细信息。数据存储。

2024-05-07 20:03:23 9239

空空如也

空空如也