自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

麦当当的博客

一个埋头苦干的大数据攻城狮

  • 博客(65)
  • 收藏
  • 关注

原创 华为面试题及答案——机器学习(二)

偏差是指模型预测值与真实值之间的系统性误差。偏差反映了模型在训练数据上的拟合能力,即模型对数据中模式的捕捉能力。高偏差通常意味着模型过于简单,不能很好地捕捉数据的复杂关系。低偏差:模型能够较好地拟合训练数据,捕捉数据中的模式。高偏差:模型对数据中的模式捕捉不足,通常表现为欠拟合。

2024-06-25 20:05:01 761

原创 关于数据倾斜的深度探讨?

数据倾斜是指在分布式数据处理系统(如 Hadoop、Spark)中,数据分布不均衡导致某些节点(或任务)处理的数据量远远大于其他节点(或任务)的现象。这会导致负载不均衡,降低整个系统的性能。具体来说,数据倾斜会引发以下问题

2024-06-24 10:56:10 1240

原创 华为面试题及答案——机器学习(一)

内生变量问题是指在回归分析中,自变量与误差项相关联,这会导致回归系数的估计偏误和不一致。内生性问题的存在会破坏普通最小二乘法(OLS)估计量的无偏性和一致性,导致模型结果不可靠。特性参数模型非参数模型参数数量固定随数据量增加而增加假设明确的分布或关系假设无需明确假设计算效率高相对较低灵活性较低较高适用场景小数据集,模型形式明确的情况大数据集,数据结构复杂的情况可解释性强弱。

2024-06-23 09:51:01 1435

原创 华为面试题及答案——大数据

在 hadoop-env.sh 文件中,可以增加 JVM 分配给 NameNode 的内存。通常是在 HADOOP_NAMENODE_OPTS 中增加 -Xmx 参数来增加最大堆内存。export HADOOP_NAMENODE_OPTS="-Xmx8g -Xms4g ${HADOOP_NAMENODE_OPTS}"将上面的 8g 和 4g 替换为适合你系统的值。启用高可用配置,可以将元数据分布到多个 NameNode 上,从而减少单个 NameNode 的内存压力。以下参数可以优化 NameNode 的内

2024-06-22 21:18:55 1427

原创 数据分析中如何理解透视表

透视表(Pivot Table)是数据分析中一种非常强大的工具,用于快速汇总、分析、探索和展示数据。透视表可以根据数据的不同维度和指标进行重组和计算,帮助用户从大量数据中提取有用的信息和发现数据中的模式和趋势。

2024-06-20 20:35:46 884

原创 在数据分析中,对缺失值解决方案的分析

参数值为int类型,按行去除NaN值,去除NaN值后该行剩余数值的数量(列数)大于等于n,便保留这一行。接收一个列表,列表中的元素为列名: 对特定的列进行缺失值删除处理。1, or 'columns':删除包含缺失值的列。0, or 'index':删除包含缺失值的行。all: 如果所有值都是NA,则删除该行或列。inplce=True,对原数据集进行修改。any: 如果存在NA值,则删除该行或列。可选参数,不建议使用这个参数。可选参数 ,默认为0按行删。subset接收一个列表。可选参数,默认为any。

2024-06-19 21:28:45 738

原创 ReduceTask有几种排序方式以及排序发生的阶段?

(Sort)和(Grouping)。这些排序操作发生在不同的阶段,以确保数据按键进行处理。

2024-06-17 17:09:20 459

原创 MapReduce中shuffle阶段的工作流程,如何优化shuffle阶段?

在MapReduce框架中,shuffle阶段是一个关键步骤,负责将Mapper输出的数据分配给适当的Reducer。

2024-06-17 17:01:24 702

原创 FineReport简单介绍(2)

聚合报表指一个报表中包含多个模块,每一块都类似一张单独的报表或者一张图表,块与块之间相对独立,互不影响。聚合报表特点:空白画布式设计界面,每个模块相互独立,专门解决大报表难题,单元格扩展分离,互不影响。聚合报表还存在一些不足:不支持自适应,单元格扩展分离但组件依旧相互推开。决策报表是 Finereport 设计器支持的模板设计类型其中之一。

2024-06-16 20:15:04 1416

原创 FineReport简单介绍

报表是以表格、图表的形式来动态展示数据,企业通过报表进行数据分析,进而用于辅助经营管理决策。FineReport 是一款用于报表制作,分析和展示的工具,用户通过使用 FineReport 可以轻松的构建出灵活的数据分析和报表系统,大大缩短项目周期,减少实施成本,最终解决企业信息孤岛的问题,使数据真正产生其应用价值。

2024-06-15 21:23:42 777

原创 对于机器学习的回答

机器学习(Machine Learning)是人工智能(AI)的一个子领域,它使计算机系统能够从数据中自动学习和改进,而无需明确编程。机器学习利用统计学和计算技术,构建能够识别数据中的模式并进行预测的算法和模型。机器学习是指通过构建和训练模型,使计算机能够从数据中学习并做出决策和预测的过程。其核心在于使用数据驱动的方法,让机器在没有显式编程指令的情况下提高性能。

2024-06-13 18:50:27 1417

原创 数据分析(四)

join = 'inner' 默认 ‘outer’ outer 会保留连接的两张表的所有的信息, 有列名、行名不匹配的时候, 用NaN填充, 如果是inner 只会连接 行名、列名相同的部分。需要注意的是, index columns values 都可以传列表, aggfunc 可以针对不同的value 选择不同的聚合方式, 此时需要传入字典 但是不推荐把表做的过于复杂。作用和散点图类似, 当数据量比较大的时候, 绘制散点图, 好多点会重复绘制到相同的位置, 普通的散点图不能读出这个信息来。

2024-06-11 15:12:39 1152

原创 数据分析(三)

分组字段,可以有1个多个, 默认分组的字段在分组的结果中会作为行索引, 如果设置了as_index = False ,分组字段会作为结果的列数据, 会使用从0开始的整数索引。df.grouppy([分组字段], as_index= ).agg({‘聚合字段名’:'聚合方法名','聚合字段名’:'聚合方法名'})pd.cut(df['价格'],bins = [0,3000,8500,210000],labels=['便宜','中等','贵'])

2024-06-10 19:00:34 1138

原创 数据分析(二)

df_head3.drop_duplicates(subset=['户型','朝向'],keep='last',ignore_index=True)df_head['区县'] = ['朝阳区','朝阳区','西城区','昌平区','朝阳区'] # 传入列表长度和df长度必须一致。charset=utf8'df.rename(index = {'老值':'新值'},columns={'老值':'新值'})df_head3['区域'].apply(func,args=['昌平区','其它区'])

2024-06-07 09:08:32 1062

原创 数据分析(一)

values 值, ndarray(注意 pandas2.0以后, 底层调用的运算库,可以不是numpy了, 可以选择pyarrow)修改数据的API默认不会再原始的数据上进行修改, 而是会在副本上进行修改, 并且会把这个修改后的副本作为方法的返回值, 返回来。如果两行行索引不一样,不能在一起算, 如果一个Series里有的行索引, 另一个Series没有, 返回NaN。可以传入字典 {‘列名’:[值1,值2, 值3],‘列名2’:[值1,值2, 值3]}

2024-06-06 21:49:52 831

原创 大数据—数据分析概论

数据分析是指使用统计、数学、计算机科学和其他技术手段对数据进行清洗、转换、建模和解释的过程,以提取有用的信息、发现规律、支持决策和解决问题。数据分析可以应用于各种领域,包括商业、医学、工程、社会科学等。确定问题:明确要解决的问题或要回答的业务问题。设定目标:定义分析的具体目标和期望的结果,如提高销售额、降低成本、优化运营等。

2024-06-04 11:33:31 1486 4

原创 Python—面向对象小解(6)-闭包、装饰器

在Python中,闭包(closure)是一个函数对象,即使在其词法作用域外被调用,它仍然能访问该作用域内的变量。闭包通过“捕获”周围作用域的变量,保持这些变量的状态,即使在外部函数已经返回之后,这些变量仍然可以被访问和修改。

2024-06-03 08:42:50 635 1

原创 Python—面向对象小解(5)--多任务介绍

进程是操作系统分配资源的最小单元线程执行程序的的最小单元线程依赖进程,可以获取进程的资源一个程序执行 先要创建进程分配资源,然后使用线程执行任务默认情况下一个进程中有一个线程运行多个进程或线程执行代码逻辑多个进程或线程同时执行叫做并行执行多个进程或线程交替执行叫做并发执行必行还是并发有cpu个数决定5个进程 cpu核心是3个 计算时时并发执行 5个进程需要抢占cpu资源,谁抢到谁执行代码计算。

2024-06-01 09:13:34 942

原创 进程与线程

线程是进程中的一个执行单元,进程可以包含多个线程。线程共享进程的资源,但有自己的栈和寄存器。

2024-05-31 18:05:31 1060

原创 Python—面向对象小解(4)--模块介绍

网络通讯就是程序之间进行通讯,相互传递数据内容网络通讯三要素:(1)IP地址:网络虚拟环境下的唯一标识,类似于人的身份证号,通过IP可以找到计算机;(2)端口:表示计算机中某软件的地址信息,通过端口可以找到计算机中的软件;(3)协议:协议就是通信规则,程序之间必须按照规则传递信息,否则双方无法识别彼此信本质就是编写一个python文件文件名要符合python的命名规定义一个模块文件# 自定义的模块文件# 封装业务代码name = '张三'data = a+b其他开发人员使用模块文件。

2024-05-31 17:10:48 1040

原创 Python—面向对象小解(3)--多态、文件读写、异常处理

多态指的是一类事物的多中形态相同的方法,产生不同的执行结果运算符 + * 的多态int + int 加法计算str + str 字符串拼接list + list 列表的数据合并在python中可以使用类实现一个多态效果在python中使用重写的方式实现多态(1)定义两个类:老师、车;(2)定义老师类的属性:姓名,定义老师类的方法:开车、停车;(3)定义车类的属性:类型,定义车类的方法:开启、停止;(4)联系:老师开车,执行程序,观察效果。

2024-05-30 19:55:52 889

原创 Python—面向对象小解(2)

关键字class属性变量方法函数默认函数中必须有个self参数self(自己)代表当前对象如何将一项物品放入一个空间内?# 类的定义创建# 指定属性name = '大象'container = '冰箱'# 指定数据的处理方法# self代表当前兑现本身,可以使用self调用类中的属性和方法print(f'打开{self.container}')print(f'将{self.name}放入{self.container}')

2024-05-28 20:19:04 1114

原创 Python—面向对象小解(1)

面向对象编程(Object-Oriented Programming,简称 OOP)是一种程序设计范式,它通过使用“对象”和“类”来组织代码。Python 是一种面向对象的编程语言,支持 OOP 的核心概念。面向过程:侧重点是过程按照一定的顺序步骤完成对某一特定问题的处理如何将大象放入冰箱中?1-打开冰箱门2-将大象放入冰箱3-关上冰箱门如何将老虎放入冰箱中?1-打开冰箱门2-将老虎放入冰箱3-关上冰箱门如何将狮子关在笼子中?1-打开笼子门2-将狮子赶入笼子中3-关上笼子门。

2024-05-28 19:55:56 1109

原创 大数据工具——Presto

Presto是一款分布式SQL查询引擎, Presto可以独立提供计算分析操作, 不需要依赖于其他的计算引擎。

2024-05-16 15:26:10 1160

原创 大数据——What is 缓慢渐变维?

Slowly Changing Dimensions简称SCD ,"缓慢渐变维" 是一个术语,通常在数据分析和机器学习领域中使用。它指的是将高维数据空间中的点通过某种方式映射到一个较低维的空间中,同时保持尽可能多的原始数据信息。这个映射过程是逐渐的,而不是突然的,因此称为"缓慢渐变"。这个过程通常用于降维技术,例如主成分分析(PCA)和t-分布随机邻域嵌入(t-SNE)等。在实际应用中,通过降维,可以将高维数据转换成更易于理解和可视化的低维表示,同时保留了原始数据的结构和特征。

2024-05-13 21:08:14 905

原创 Hive优化(4)——数据倾斜优化

数据倾斜是指在数据处理或计算过程中,某些数据分布不均匀,导致部分计算节点负载过重,从而影响整体计算性能。针对数据倾斜进行优化可以提高计算效率和资源利用率。:在数据加载或处理之前,对数据进行预处理,通过数据采样、数据分桶等方法,尽量均匀地分布数据,减少倾斜的可能性。:将数据按照某种规则或算法进行分片,使得每个分片中的数据量相对均匀,降低数据倾斜的程度。:选择合适的数据结构,如哈希表、树结构等,可以减少数据倾斜对计算性能的影响。例如,使用哈希分区可以将数据均匀地分布到不同的节点上。

2024-05-11 09:23:23 1289

原创 Hive优化(3)——索引优化

在创建索引之前,了解数据和查询类型至关重要。识别查询中经常使用的列以及用于过滤、连接和排序的列。Hive支持各种存储格式,如ORC(优化行列式)、Parquet等。这些格式提供了用于数据检索的内置优化。根据数据和查询模式选择适当的格式可以在不需要额外索引的情况下提高性能。分区数据可以通过限制需要扫描的数据量显著减少查询时间。这是一种优化查询的有效方法,特别是对于大型数据集。分区也可以作为一种索引。桶化是另一种将数据组织成更易管理部分的技术。它根据列值的哈希将数据分成桶。

2024-05-11 08:23:58 1163 1

原创 Hive优化(2)——join优化

在Hive中,优化JOIN操作是提高查询性能的关键之一。JOIN操作是将两个或多个数据集中的记录基于某个共同字段进行关联的操作,它可能会消耗大量的计算资源和时间,尤其是在处理大型数据集时。优化Hive JOIN操作可以通过数据预处理、分区、数据倾斜处理、合适的JOIN类型选择、调整并行度和资源配置以及使用索引等方法来提高查询性能和执行效率。根据实际情况选择合适的优化策略,可以有效地提升Hive查询的性能。

2024-05-10 14:54:23 999 1

原创 Hive优化(1)——分桶采样

它的原理是将数据按照指定字段的哈希值分成固定数量的桶,将每条记录分配到对应的桶中。分桶可以帮助优化特定类型的查询,例如连接查询和聚合操作,因为它可以将数据分布得更加均匀,减少数据倾斜,提高查询效率。当表的数据量比较庞大的时候, 在编写SQL语句后, 需要首先测试 SQL是否可以正常的执行, 需要在表中执行查询操作, 由于表数据量比较庞大, 在测试一条SQL的时候整个运行的时间比较久, 为了提升测试效率, 可以整个表抽样出一部分的数据, 进行测试。这样可以在保持查询效率的同时,减少了对资源的需求。

2024-05-10 11:53:40 526

原创 数仓分层——ODS、DW、ADS

ODS(Operational Data Store,运营数据存储)是数据仓库体系结构中的一个重要组成部分,通常作为数据仓库架构中的第一个层次或者与原始数据层紧密相关。ODS 层主要用于存储和处理来自业务应用系统的实时、操作性数据,提供给业务用户和决策者进行日常的操作性查询和分析。数据来源: ODS 层的数据主要来自于组织内部的业务应用系统,如企业资源计划(ERP)、客户关系管理(CRM)、销售、采购、库存管理系统等。这些系统产生的数据通常是实时、操作性的,包含了组织的日常业务活动的详细信息。数据存储。

2024-05-07 20:03:23 1950

原创 大数据工具——DolphinScheduler

DolphinScheduler是一个开源的分布式任务调度平台,专为大数据场景下的工作流调度和数据治理而设计。它的设计目标是提供一个可靠、高效、易用的任务调度系统,帮助用户实现任务的自动化调度和监控,从而提高工作效率和数据处理能力。

2024-05-05 21:12:12 1463 2

原创 Zookeeper服务

Zookeeper 是一个分布式应用程序的协调服务,它提供了一个高性能的分布式配置管理、分布式锁服务和分布式协调服务。它是 Apache 软件基金会的一个项目,被设计用来处理大规模的分布式系统中的一些关键问题。

2024-05-04 10:34:04 1314 2

原创 大数据开发——PostgreSQL

PostgreSQL是一个强大的开源对象关系型数据库管理系统(ORDBMS),它是由PostgreSQL全球开发团队开发的。它在功能上与其他商业数据库系统相媲美,如Oracle、MySQL等。PostgreSQL采用了许多先进的数据库技术,包括多版本并发控制(MVCC),具有高级特性和丰富的扩展性。它支持大部分SQL标准,并且提供了许多额外的特性,如复杂查询、事务、触发器、视图、外键等。

2024-04-30 15:46:24 1233

原创 使用Hive时几个重要配置

【代码】使用Hive时几个重要配置。

2024-04-30 14:30:39 321 2

原创 数据集市与数据仓库

数据仓库是一个面向主题的、集成的、相对稳定的数据存储库,用于支持企业决策制定。它从不同的数据源中提取、转换和加载数据,以创建一个一致的、可信的数据集。数据仓库通常面向企业全局,包含各个部门的数据,是整个企业数据的集中存储。数据仓库通常采用星型或雪花型的模式,用于支持多维分析(OLAP)。

2024-04-29 14:53:29 1705 1

原创 大数据—数仓分层概论

数据仓库的发展背景源于企业对大规模数据集成、数据分析和决策支持的需求,以及数据分析技术的不断发展和成熟,标志着企业逐渐转向数据驱动的企业文化。数据仓库作为一个面向主题的、集成的、非易失的数据集合,为企业提供了一个统一的数据视图和分析环境,促进了数据资产的价值最大化。

2024-04-27 10:51:15 1443 1

原创 大数据—数据采集DataX

DataX 是阿里云DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。

2024-04-26 11:00:34 2115 2

原创 Oracle—PLSQL函数

在 Oracle 数据库中,存储函数(Stored Function)是一种用户自定义的数据库对象,它们类似于程序中的函数或方法,可以接受参数并返回一个值。存储函数通常用于执行特定的计算、数据转换或其他操作,并且可以在 SQL 查询、PL/SQL 块以及其他存储过程或函数中使用。存储函数在创建后存储在数据库中,并且可以在需要时被调用。它们可以访问数据库中的数据,并且可以执行各种计算、查询和其他操作。存储函数还可以使用 SQL 和 PL/SQL 语言的所有功能,包括条件语句、循环、异常处理等。

2024-04-25 00:04:23 990

原创 好帅的解题思路!!几行代码解决

编写解决方案找出"2013-10-01"至"2013-10-03"期间非禁止用户(乘客和司机都必须未被禁止)的取消率。非禁止用户即 banned 为 No 的用户,禁止用户即 banned 为 Yes 的用户。其中取消率Cancellation Rate需要四舍五入保留两位小数。

2024-04-24 08:17:42 441

原创 拼多多面试题——力扣版测试用例纠错

最近我看到力扣上这个题目,用了三种方法,结果没有一种正确,我就纳闷儿了,为何总有一个测试用例过不了,结果我发现这个测试用例确实有问题啊。

2024-04-23 13:43:39 421

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除