自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(89)
  • 收藏
  • 关注

原创 《PySpark大数据分析实战》图书上线啦

Apache Spark是一个分布式处理引擎,用于在大规模数据集上执行数据工程、数据科学和机器学习任务。作为数据科学爱好者,您可能熟悉在本地机器上存储文件并使用Python对其进行处理,但是,本地机器有其局限性,无法处理大规模的数据集。要处理PB级的大规模数据集,仅了解Python框架是不够的。分布式处理是一种使用多台计算机来运行应用程序的方式,无需尝试在单台计算机上处理大型数据集,而是可以在相互通信的多台计算机之间分配任务。借助Spark,您可以实现单台计算机上不可能做到的事情,实现对PB级数据进行处理。

2023-12-09 17:51:25 1060 4

原创 《PySpark大数据分析实战》-27.数据可视化图表Pyecharts介绍

大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第4节的内容:数据可视化图表Pyecharts介绍。

2024-01-10 13:44:17 1111 1

原创 《PySpark大数据分析实战》-26.数据可视化图表Seaborn介绍

大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第4节的内容:数据可视化图表Seaborn介绍。

2024-01-09 13:40:59 1170 2

原创 《PySpark大数据分析实战》-25.数据可视化图表Matplotlib介绍

大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第4节的内容:数据可视化图表Matplotlib介绍。

2024-01-05 13:36:20 1203 1

原创 《PySpark大数据分析实战》-24.数据可视化图表介绍

大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第3节的内容:数据可视化图表介绍。

2024-01-04 13:31:33 1058

原创 《PySpark大数据分析实战》-23.Pandas介绍DataFrame介绍

大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第2节的内容:Pandas介绍DataFrame介绍。

2024-01-03 13:44:19 787

原创 《PySpark大数据分析实战》-22.Pandas介绍Series介绍

大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第2节的内容:Pandas介绍Series介绍。

2024-01-02 13:44:07 815

原创 《PySpark大数据分析实战》-21.NumPy介绍数组的运算

大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第2节的内容:NumPy介绍数组的运算。

2023-12-27 13:46:12 812 2

原创 《PySpark大数据分析实战》-20.NumPy介绍数组的生成

大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第2节的内容:NumPy介绍数组的生成。

2023-12-26 13:16:47 774 2

原创 《PySpark大数据分析实战》-19.NumPy介绍ndarray介绍

大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第2节的内容:NumPy介绍ndarray介绍。

2023-12-25 22:50:46 827

原创 《PySpark大数据分析实战》-18.什么是数据分析

大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第1节的内容:什么是数据分析。

2023-12-23 16:25:52 1636 1

原创 《PySpark大数据分析实战》-17.云服务模式Databricks介绍运行作业

大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第5节的内容:云服务模式Databricks介绍运行作业。

2023-12-21 12:42:18 963 2

原创 《PySpark大数据分析实战》-16.云服务模式Databricks介绍运行案例

大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第5节的内容:云服务模式Databricks介绍运行案例。

2023-12-20 23:03:07 1011

原创 《PySpark大数据分析实战》-15.云服务模式Databricks介绍创建集群

大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第5节的内容:云服务模式Databricks介绍创建集群。

2023-12-19 22:45:21 1163

原创 《PySpark大数据分析实战》-14.云服务模式Databricks介绍基本概念

大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第5节的内容:云服务模式Databricks介绍基本概念。

2023-12-18 23:02:58 1012 1

原创 《PySpark大数据分析实战》-13.Spark on YARN模式代码运行流程

大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第4节的内容:Spark on YARN模式代码运行流程。

2023-12-17 18:10:34 844

原创 《PySpark大数据分析实战》-12.Spark on YARN配置Spark运行在YARN上

大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第4节的内容:Spark on YARN配置Spark运行在YARN上。

2023-12-16 17:35:14 1271 1

原创 《PySpark大数据分析实战》-11.Spark on YARN模式安装Hadoop

大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第4节的内容:Spark on YARN模式安装Hadoop。

2023-12-16 16:57:24 1425

原创 《PySpark大数据分析实战》-10.独立集群模式的代码运行

大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第3节的内容:独立集群模式的代码运行。

2023-12-15 12:11:33 685

原创 《PySpark大数据分析实战》-09.Spark独立集群安装

大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第3节的内容:Spark独立集群安装。

2023-12-15 09:03:14 1219

原创 《PySpark大数据分析实战》-08.宽窄依赖和阶段划分

大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第2节的内容:宽窄依赖和阶段划分。

2023-12-14 13:19:47 863

原创 《PySpark大数据分析实战》-07.Spark本地模式安装

大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第2节的内容:Spark本地模式安装。

2023-12-14 13:17:29 1074

原创 《PySpark大数据分析实战》-06.安装环境准备

大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第1节的内容:安装环境准备。

2023-12-13 22:45:41 967 4

原创 《PySpark大数据分析实战》-05.PySpark库介绍

大家好!今天为大家分享的是《PySpark大数据分析实战》第1章第5节的内容:PySpark库介绍。

2023-12-12 11:44:48 1023

原创 《PySpark大数据分析实战》-04.了解Spark

大家好!今天为大家分享的是《PySpark大数据分析实战》第1章第4节的内容:了解Spark。

2023-12-12 11:24:39 1132

原创 《PySpark大数据分析实战》-03.了解Hive

大家好!今天为大家分享的是《PySpark大数据分析实战》第1章第3节的内容:了解Hive。

2023-12-11 22:43:13 1001

原创 《PySpark大数据分析实战》-02.了解Hadoop

大家好!今天为大家分享的是《PySpark大数据分析实战》第1章第2节的内容:了解Hadoop。

2023-12-11 22:27:50 1142 2

原创 《PySpark大数据分析实战》-01.关于数据

大家好!今天为大家分享的是《PySpark大数据分析实战》第1章第1节的内容:关于数据。

2023-12-09 23:21:33 1394

原创 大数据FusionInsightHD-05.HBase从C50迁移到6.5.1(01)迁移概述

项目上最近全新部署了FusionInsight HD 6.5.1大数据集群,并且希望将老集群FusinInsight HD C50的所有业务都迁移到新集群上。由于在老集群C50上的HDFS、HBase中存在有大量的业务数据,因此将业务从C50迁移到6.5.1的过程中,就需要将C50上的业务数据同步迁移到新集群6.5.1上。

2023-09-07 14:43:29 1083 11

原创 大数据FusionInsightHD-07.HBase从C50迁移到6.5.1(03)6.5.1上准备Loader

在FusionInsight HD集群的HBase数据迁移过程中,需要通过Loader将老集群FusinInsight C50上获取HBase的数据加载到新集群FusionInsight 6.5.1,因此需要在新集群FusionInsight 6.5.1中添加Loader以及具有相应权限的用户loaderUser。本文主要介绍如何在新集群FusionInsight 6.5.1中创建loaderUser用户以及如何添加配置Loader。

2023-09-05 12:06:28 509 6

原创 大数据FusionInsightHD-06.HBase从C50迁移到6.5.1(02)C50上准备FTP Server

在FusionInsight HD集群的HBase数据迁移过程中,需要通过FTP-Server从老集群FusinInsight C50上获取HBase的数据,因此需要在老集群FusinInsight C50中添加FTP-Server以及具有相应权限的用户ftpUser。本文主要介绍如何在老集群FusinInsight C50中创建ftpUser用户以及如何添加配置FTP-Server。

2023-09-04 12:02:41 660 2

原创 大数据FusionInsightHD-04.FusionInsight HD 6.5.1 集群中遇到的问题(01)

在读取数据的时候,我们遇到了org.apache.phoenix.jdbc.PhoenixDriver类不存在的问题,我们添加了依赖包phoenix-core-4.13.1-HBase-1.3.jar。这个问题的主要原因是:在安全模式下,如果需要通过Spark操作HBase,即Spark-on-HBase,则需要启动HBase的验证功能,该配置默认是false的,需要将其修改为true。在Spark应用程序中,如果操作了HBase或者Phoenix,那么在提交程序到集群运行的时候可能会遇到认证失败的问题。

2023-08-18 18:15:49 403

原创 大数据FusionInsightHD-02.FusionInsight HD 6.5.1 创建集群-Yarn

本文主要介绍FusionInsight HD集群的创建。我们先从最小化集群、Yarn集群开始,创建一个FusionInsight HD集群。

2023-07-27 18:08:23 271

原创 大数据FusionInsightHD-01.FusionInsight HD 6.5.1 安装集群

Fusionlnsight HD是华为开发的大数据平台,基于开源社区软件进行功能增强,对外提供大容量的数据存储、查询和分析能力,可运行在X86服务器或华为TaiShan服务器上。

2023-07-20 11:11:34 246

原创 大数据FusionInsightHD-03.FusionInsight HD 6.5.1 客户端安装

本文主要介绍FusionInsight HD 651客户端软件的安装。包括客户端安装、自定义用户认证、环境验证等内容。

2023-07-14 14:48:48 619

原创 【数据分析:工具篇】NumPy(3)NumPy深度使用详解-2

NumPy提供了丰富的数组操作、数学函数、线性代数、随机数生成等功能,为科学计算和数据分析提供了强大的支持。以上列出的仅仅是一些常见的操作,还有更多更强大的功能我们下次继续探索。

2023-03-15 09:36:49 206 14

原创 【数据分析:工具篇】NumPy(2)NumPy深度使用详解-1

NumPy是Python的一个常用科学计算库,它是Numerical Python的缩写。它的核心是一个多维数组对象(ndarray),这个对象是一个快速而灵活的容器,可以用于大量数据集和矩阵计算。

2023-03-14 11:44:27 467 12

原创 【数据分析:工具篇】NumPy(1)NumPy介绍

NumPy是Python中非常重要的科学计算库之一,它提供了丰富的多维数组对象、高效的向量化计算、数组操作、数组切片和索引、广播机制、矩阵计算、随机数生成、通用函数、数学函数和统计函数、数据类型转换等各种强大的功能,可以方便地进行数据处理、科学计算、统计分析和机器学习等任务。如果你想要在Python中进行数据科学或机器学习的任务,那么学习和掌握NumPy是非常有必要的。

2023-03-10 16:09:12 2350 10

原创 【编程基础之Python】12、Python中的语句

Python是一种高级编程语言,具有简单易学的语法,适用于各种编程任务,包括数据分析、机器学习和Web开发等。本文将详细介绍Python中的语句,包括赋值语句、条件语句、循环语句、函数语句和异常处理语句等。本文介绍Python中不同类型的语句及其用法。

2023-03-08 16:17:21 1467 21

原创 【编程基础之Python】11、Python中的表达式

在Python中,表达式是由操作数、运算符和函数调用等组成的语法结构,可以进行各种数学运算、逻辑判断、字符串操作等。表达式可以被解释器求值,其结果可以赋值给变量、作为函数参数等。

2023-03-07 11:25:40 4332 11

Cars.zip

Cars.zip

2023-12-27

mongodb-1.15.zip

DataGrip连接MongoDB的驱动程序,1.15版本的。可用于连接MongoDB数据库,操作MongoDB数据库。

2023-03-13

PicGo-Setup-2.3.1.exe

一款比较优秀的图床工具,它是一款用 Electron-vue 开发的软件,可以支持微博,七牛云,腾讯云COS,又拍云,GitHub,阿里云OSS,SM.MS,imgur 等8种常用图床,功能强大,简单易用。非常适合做为博客文档中的插图图床。

2023-01-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除