![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
基础
文章平均质量分 73
大数据海中游泳的鱼
大数据海中游泳的鱼,对Spark、Hadoop、HDFS、Kafka、Hive、HQL、SQL都有兴趣。
展开
-
DW每层设计要点
(3)DWS层表名的命名规范为dws_数据域_统计粒度_业务过程_统计周期(1d/nd/td)(3)DWD层表名的命名规范为dwd_数据域_表名_单分区增量全量标识(inc/full)(3)ODS层表名的命名规范为:ods_表名_单分区增量全量标识(inc/full)。(3)DIM层表名的命名规范为dim_表名_全量表或者拉链表标识(full/zip)(1)DIM层的设计依据是维度建模理论,该层存储维度模型的维度表。(1)DWD层的设计依据是维度建模理论,该层存储维度模型的事实表。原创 2023-04-19 21:13:04 · 469 阅读 · 0 评论 -
Python文件操作
在 Python 中清空某个文件有多种方法,可以根据不同的需求选择不同的方法。需要注意的是,以上方法都是清空文件内容,而不是删除文件本身。原创 2023-04-19 00:00:00 · 99 阅读 · 0 评论 -
Python基础(先写个框架)
Python核心编程语言学习内容(明白要学什么)Python基础语法:了解Python的基本语法,如变量、数据类型、运算符、控制语句等。函数和模块:掌握函数和模块的使用,了解Python中的内置函数和标准模块。面向对象编程:学习面向对象编程的基本概念及其在Python中的实现方式。异常处理:掌握Python中的异常处理机制,学会如何处理和抛出异常。文件操作:了解如何在Python中进行文件读写操作。数据结构和算法:学习Python中的常见数据结构和算法,如列表、字典、集合、排序、搜索等。GU原创 2023-04-11 23:15:14 · 67 阅读 · 0 评论 -
大数据集群规划、规模、版本、端口号
3.客户端尽量放在1到2台服务器上,一是风险隔离,导致集群内部受到不必要的干扰。2)每条日志1K左右,每天1亿条: 100000000/1024/1024 = 约100G。假设每台服务器8T磁盘,128G内存。3)一年内不扩容服务器来算: 100G * 360天 = 约36T。5)预留20%~30%Buf = 108T/0.7 = 154T。2.kafka、ZK、Flume传输数据比较紧密的放在一起。1)每台日活跃用户100万,每人一天平均100条: 100万。6)算到这: 约 8T*20 台服务器。原创 2023-04-11 22:46:33 · 548 阅读 · 0 评论 -
什么是Kubernetes
Kubernetes是一个开源的容器编排引擎,用于自动化部署、扩展和管理容器化应用程序。它提供了一种平台无关的方式来管理容器化应用程序,使开发人员可以专注于编写应用程序,而不必担心底层基础架构的细节。Kubernetes是一个开源的容器编排引擎,用于自动化部署、扩展和管理容器化应用程序。它由Master节点和多个Node节点组成,Master节点用于管理和监控节点、容器和应用程序,Node节点用于运行容器和应用程序。在使用Kubernetes时,需要监控相关指标,以确保应用程序的稳定和高效运行。原创 2023-04-17 00:30:00 · 167 阅读 · 0 评论 -
Flink是什么
其中,JobManager和TaskManager进程是Flink的核心进程,负责实际的任务执行和作业管理。Flink是一个分布式的、高性能的、可伸缩的、容错的流处理引擎,它支持批处理和流处理,并提供了丰富的API和库,是实时数据处理的理想选择。JobManager进程:负责接收提交的作业并分配任务,监控作业的执行情况,并在节点故障时重新分配任务;JobManager:负责接收提交的作业并分配任务,监控作业的执行情况,并在节点故障时重新分配任务;3.数据流的状态,包括数据的读取速率、处理速率、输出速率等;原创 2023-04-11 22:15:01 · 3559 阅读 · 0 评论 -
HQL中的JOIN操作
Hive支持多种JOIN方式将多个表连接起来,从而进行复杂的查询操作,包括INNER JOIN、LEFT JOIN、RIGHT JOIN、FULL OUTER JOIN、CROSS JOIN和SELF JOIN等。在Hive中,可以使用SELF JOIN方式进行递归查询,从而查询出某个节点的所有子节点或父节点等信息。其中,子查询部分查询出初始条件下的员工信息,使用UNION ALL和JOIN子查询部分进行递归查询。查询结果中,包含每个下属员工的姓名和深度等信息,深度表示该员工相对于初始条件员工的层数。原创 2023-04-19 00:15:00 · 739 阅读 · 0 评论 -
HQL中ACID表
在Hive中,ACID(原子性、一致性、隔离性和持久性)表是指支持事务的表。ACID表在执行INSERT、UPDATE、DELETE等操作时,会自动创建一个事务,确保操作的原子性、一致性、隔离性和持久性。同时,ACID表还支持快照读取和多版本并发控制等功能,可以提高数据的访问效率和安全性。原创 2023-04-10 23:34:02 · 164 阅读 · 0 评论 -
K8S的DaemonSet部署和安全删除
这些步骤将最小化风险地删除DaemonSet以及它的所有Pods、Persistent Volumes和Service。暂停更新可以确保在删除DaemonSet之前不会启动新的Pods,从而减少删除DaemonSet的风险。原创 2023-04-10 23:00:52 · 798 阅读 · 0 评论 -
Spark SQL实现数据脱敏和加密(python)
下面代码实现对姓名和电话号码的脱敏:使用Spark的函数和函数对姓名和电话号码进行了脱敏,并将自定义的脱敏函数和注册为UDF函数。然后,在读取数据后,使用函数将脱敏后的姓名和电话号码替换原有的列,并将脱敏后的数据保存到目标路径。Spark SQL的Python版也可以使用库来实现数据加密。下面实现对姓名和电话号码的加密:上述代码中,使用Spark SQL的函数对姓名进行了加密,使用自定义的加密函数对电话号码进行加密,并将加密后的数据保存到目标路径。其中,加密函数使用了库中的类,该类提供了AES加密算法的原创 2023-04-10 22:58:56 · 583 阅读 · 0 评论 -
什么是Tableau(BI工具)
Tableau是一款商业智能工具,用于数据可视化和分析。它可以通过简单易用的界面和交互式的视图来探索和分析数据,帮助用户快速发现数据中的模式和趋势,并支持数据驱动的决策和行动。原创 2023-04-16 00:00:00 · 476 阅读 · 0 评论 -
jps命令
当Hadoop集群中出现故障时,可以通过jps命令来查找故障的进程,并排除故障。原创 2023-04-09 23:53:28 · 4767 阅读 · 0 评论 -
什么是JMX
JMX(Java Management Extensions)是一种Java平台的管理和监控API,它提供了一种可插拔的框架,使得Java应用程序、设备、系统等都可以通过一个统一的接口进行管理和监控。JMX是一种Java平台的管理和监控API,它提供了一种可插拔的框架,使得Java应用程序、设备、系统等都可以通过一个统一的接口进行管理和监控。在使用JMX时,需要定义和注册MBean,启动MBean Server和MBean Client,并监控相关指标,以确保Java应用程序的稳定和高效运行。原创 2023-04-09 23:48:31 · 377 阅读 · 0 评论 -
JVM是什么
使用JIT编译器:使用JIT编译器可以优化JVM的执行速度,将Java字节码编译成本地机器代码,以提高程序的执行效率。使用合适的数据结构:使用合适的数据结构可以减少JVM的内存使用率和CPU使用率,以便提高程序的性能和响应速度。调整GC策略:调整GC策略可以优化JVM的垃圾回收,包括选择合适的GC算法、调整GC的频率和GC的参数等。运维人员:负责管理JVM的部署、维护和安全性,包括JVM的配置、监控和优化等。避免创建过多的对象:避免创建过多的对象可以减少GC的负载,提高程序的执行效率。原创 2023-04-09 23:45:16 · 912 阅读 · 0 评论 -
什么是Sqoop
开发人员:编写Sqoop导入导出任务,包括数据源的选择、数据转换和数据的输出方式,以实现数据在Hadoop和关系型数据库之间的传输。Sqoop是Hadoop生态系统中的一个重要组件,它可以帮助用户轻松地将现有的数据导入到Hadoop中,方便后续的数据分析和处理。此外,Sqoop是Hadoop生态系统中的一个重要组件,它可以与Hadoop集成使用,提高Hadoop的数据处理能力。运维人员:监控Sqoop的运行状态,包括任务的执行情况、数据传输速率等,以及对Sqoop进行故障排除和性能优化。原创 2023-04-15 00:15:00 · 994 阅读 · 0 评论 -
什么是Pipeline(和大数据无关)
Pipeline是一种软件开发流程,它将软件开发过程中的不同阶段(如编译、测试、部署等)自动化并连接起来,从而实现快速、可靠的软件交付。Pipeline将软件开发过程中的每个步骤都定义为一个阶段,并在每个阶段中执行一系列的任务,以达到自动化流程的目的。Pipeline是一种自动化的软件开发流程,它将软件开发过程中的不同阶段(如编译、测试、部署等)自动化并连接起来,从而实现快速、可靠的软件交付。在使用Pipeline时,需要监控相关指标,以确保Pipeline的稳定和高效运行。原创 2023-04-14 00:15:00 · 1434 阅读 · 0 评论 -
什么是Kafka
Kafka是一款高吞吐量的分布式消息队列系统,能够处理大量的实时数据。它可以将数据持久化到磁盘,同时支持数据的发布和订阅,是一种可靠的、高效的消息传递系统。Kafka是一款高吞吐量的分布式消息队列系统,支持消息的发布和订阅,并提供了多种客户端库和API。在使用Kafka时,需要配置Producer和Consumer以及Kafka Broker,并监控相关指标,以确保Kafka集群的稳定和高效运行。原创 2023-04-13 12:45:00 · 407 阅读 · 0 评论 -
什么是Prometheus
Prometheus是一款开源的监控和告警系统,可以对分布式系统进行监控和警报。它是一个独立于存储的时序数据管理系统,可帮助您轻松地查询、分析和警报有关应用程序的数据。Prometheus具有强大的查询语言和可视化工具,可帮助您快速了解系统的运行状况。云原生可使用睿智云(付费)。原创 2023-04-13 00:15:00 · 311 阅读 · 0 评论 -
Spark SQL是什么
1.Spark SQL应用程序的运行状态:可以通过Spark SQL的监控工具来实时监控应用程序的运行状态,包括任务的执行情况、资源的使用情况等。运维人员:管理Spark集群的部署、维护和安全性,包括Spark SQL的配置、监控和优化等,以保证Spark SQL的正常运行和安全性。2.Spark SQL应用程序的性能:可以通过Spark SQL的监控工具来监控应用程序的性能指标,包括任务的执行时间、吞吐量等。Executor进程:负责执行Spark SQL应用程序中的任务,包括数据的读取、处理和写入等。原创 2023-04-10 23:06:29 · 397 阅读 · 0 评论 -
什么是SPARK
Spark是一款基于内存计算的开源分布式计算框架,支持批处理、流处理和机器学习等各种计算模式。它可以在Hadoop集群中运行,也可以独立运行。原创 2023-04-06 23:02:02 · 780 阅读 · 0 评论 -
什么是Zookeeper
Zookeeper是一个开源的分布式协调服务,它可以提供诸如配置管理、命名服务、分布式同步、组服务等功能。在Hadoop集群中,Zookeeper主要用于协调管理分布式锁和监控Hadoop集群的状态。Apache 顶级项目之一。原创 2023-04-06 22:59:07 · 872 阅读 · 0 评论 -
什么是Ambari
Ambari是一个开源的Hadoop管理工具,提供了一个Web界面来管理和监控Hadoop集群的各个组件。Hadoop定级项目之一。原创 2023-04-06 22:50:27 · 548 阅读 · 0 评论 -
什么是HBase
HBase是一个基于Hadoop的分布式列式存储系统,可以存储非结构化和半结构化的大数据,具有高可用性、高扩展性、高性能等特点,常用于大规模实时数据处理。原创 2023-04-10 23:45:36 · 1706 阅读 · 0 评论 -
什么是YARN
YARN原创 2023-04-06 22:43:31 · 744 阅读 · 0 评论 -
什么是HQL
Hadoop管理员:管理Hadoop集群的部署、维护和安全性,包括用户管理、数据源管理和HQL查询优化等,以保证Hadoop集群的正常运行和数据的安全性。数据分析师:使用HQL进行数据分析和可视化,包括数据的导入、清洗、转换、建模和报表设计等,以实现数据的探索和发现。优化查询语句:优化查询语句可以减少查询的响应时间,包括使用合适的查询条件、减少不必要的表连接和使用索引等。调整查询计划:调整查询计划可以优化查询性能,包括使用合适的分区、调整数据分布和使用合适的并行度等。原创 2023-04-06 22:37:07 · 2308 阅读 · 0 评论 -
什么是Hive
Hive是基于Hadoop的数据仓库工具,可以通过类SQL语言HiveQL来查询和分析集群中的大规模数据,并将查询转换成MapReduce任务进行执行。Hive支持多种数据源,包括HDFS、HBase、本地文件等,是一个强大的数据分析工具。原创 2023-04-06 22:30:34 · 105 阅读 · 0 评论 -
什么是Hadoop
Hadoop是一个开源的分布式计算平台,可以处理大规模数据集并提供高可靠性、高可扩展性、高效性等特性。Hadoop由HDFS(分布式文件系统)和MapReduce(分布式计算框架)两部分组成,同时还包括YARN、Zookeeper等组件。原创 2023-04-06 22:24:37 · 1402 阅读 · 0 评论 -
大数据海中的鱼(大目录)
大数据组件和概念,作为目录使用原创 2023-04-06 22:33:47 · 108 阅读 · 0 评论 -
Hadoop集群中常用组件的命令(后续补充)
提交Spark应用程序:spark-submit --class com.example.Application /path/to/app.jar arg1 arg2。上传本地文件到HDFS:hdfs dfs -put /path/to/local/file /path/to/hdfs/directory。下载HDFS文件到本地:hdfs dfs -get /path/to/hdfs/file /path/to/local/directory。原创 2023-04-12 00:15:00 · 424 阅读 · 0 评论 -
大数据离线分析的完整流程
大数据分析大概流程,和对应的组件原创 2023-04-16 00:15:00 · 1542 阅读 · 0 评论 -
RDD的创建方式(Python)
【代码】RDD的创建方式(Python)原创 2023-04-05 12:49:02 · 729 阅读 · 0 评论 -
IDEA创建MAVEN项目过慢解决方案
1.直接在设置里找到MAVEN设置(File -> Settings -> Build -> BuildTools -> Maven -> Runner)在VM Options框中添加 -DarchetypeCatalog=internal,应用生效即可。IDEA一般状态下创建MAVEN项目非常慢的原因是:archetypeCatalog的默认值为remote,即指定archetype-catalog.xml从远程网络加载,所以非常慢。IDEA创建MAVEN项目过慢解决方案。原创 2023-04-05 01:09:07 · 1916 阅读 · 0 评论 -
PySpark中RDD的行动操作(行动算子)
以上是pyspark中所有行动操作(行动算子)的详细说明,了解这些操作可以帮助理解如何使用PySpark进行数据处理和分析。方法将结果转换为包含一个元素的DataSet对象,从而得到一个DataSet对象,其中只包含一个名为。方法将结果转换为包含该整数的RDD对象,从而得到一个RDD对象,其中只包含一个元素6。例如,对于一个包含整数的RDD,可以使用以下代码来判断。对于一个包含字符串的RDD,可以使用以下代码来判断。的列,该列的值为DataFrame中的行数。在上面的代码中,我们使用。原创 2023-04-11 00:15:00 · 593 阅读 · 0 评论 -
Spark中数据预处理和清洗的高级方法(Python)
1. 窗口函数2. UDF3. 聚合函数4. 多表联接原创 2023-04-03 22:04:09 · 632 阅读 · 0 评论 -
SparkSQL中数据转换的方法
以上代码中,我们按照"department"列对DataFrame进行分组,并计算每个部门的平均工资和总工资。以上是SparkSQL中常见的数据转换方法,可以根据实际需要进行选择和组合,完成复杂的数据处理和分析任务。,并将其应用于DataFrame中的"salary"列,计算每个员工的奖金。以上代码中,我们选择了DataFrame中的"name"和"age"列。以上代码中,我们将DataFrame中的"age"列转换为整数类型。以上代码中,我们过滤了DataFrame中年龄大于18岁的行。原创 2023-04-03 21:27:47 · 1862 阅读 · 0 评论 -
SparkSQL中的内置函数和高级函数和用法举例(Python)
SparkSQL中的内置函数和高级函数和用法举例(Python)原创 2023-04-03 21:23:48 · 907 阅读 · 1 评论 -
SparkSQL中应该学习哪些知识
SparkSQL中应该学习哪些知识原创 2023-04-03 21:08:42 · 152 阅读 · 1 评论 -
Spark SQL在大数据中主要作用和扮演的角色
Spark生态系统中的一个组件Spark SQL在大数据中主要作用和扮演的角色原创 2023-04-03 21:00:02 · 458 阅读 · 1 评论