数据分析
文章平均质量分 74
阿龙的代码在报错
在校大专生,慢慢沉淀做自己的大佬
展开
-
jupyter notebook的使用
1.1新增单元格:使用在选中单元格的上方创建新的单元格使用>在选中单元个的下方创建新的单元格删除cell删除单元格删除选用的单元格>剪切(有时候剪切也可以代替删除)复制cell> 复制选中的单元格粘贴粘贴已经复制的cell的下方转换为markdown选中单元格转换为markdown 格式转为code 模式选中单元格转为 Code 模式转为Raw NBConvert 模式转为Raw NBConvert 模式撤销单元格撤销单元格前提:单元格一定要在被选中的状态。原创 2024-04-16 15:59:37 · 481 阅读 · 0 评论 -
数据分析-numpy
numpy是一个基于python的扩展库原创 2023-11-10 20:01:59 · 1239 阅读 · 0 评论 -
MySQL数据库免安装版
数据库免安装原创 2023-08-04 17:12:36 · 512 阅读 · 0 评论 -
hive数据仓库配置
hive数据仓库的配置原创 2023-07-13 16:52:24 · 984 阅读 · 0 评论 -
hadoop 集群搭建(详细版)
hadoop 大户据平台的搭建,内容自认为比较详细原创 2023-03-16 23:00:00 · 1567 阅读 · 0 评论 -
解决maven 在IDEA 下载依赖包速度慢的问题
当再次idea在使用idea下载依赖报包的时候速度就可以提升很多了。解决方法:在idea界面按两下shift建,然后搜索。原因:movn可能时因为idea用的时外部的镜像源。当我们用idea下载maven的依赖的时候会很慢。时可以创建一个然后将内容复制进去即可。产出原有的内容复制以下内容就后重启。当我们搜索后没有这个。原创 2023-03-25 09:32:22 · 4548 阅读 · 1 评论 -
ERROR SparkContext: Error initializing SparkContext. ()
在配置yarn的配置文件中设置的内存过小,不能够支持spark程序的运行所以出现了报错。在将spark程序提交到yarn中运行的时出现以下报错。原创 2023-03-20 16:46:20 · 1961 阅读 · 0 评论 -
pyspark出现Java.io.IOException: Cannot run program “python“: CreateProcess error=2问题的解决办法
在centos7系统中,将spark运行在yarn上出现以下报错。$python :python可执行文件的位置。1、可能是真没有python3的文件。下载python3并且设置环境变量。2、环境变量的配置出现问题。2、直接配置环境变量。原创 2023-03-19 16:14:39 · 3233 阅读 · 0 评论 -
Action算子
定义:返回值不是rdd的就是action算子。原创 2023-02-15 11:12:37 · 361 阅读 · 0 评论 -
Transformation(转换算子)
算子:分布式集合对象的api称之为算子方法函数:本地对象的API,叫做方法\函数算子:分布式对象的API叫做算子。原创 2023-02-13 21:00:42 · 1136 阅读 · 0 评论 -
Transformation(转换算子)
Transformation(转换算子)原创 2023-02-09 23:14:59 · 1200 阅读 · 0 评论 -
PythonRDD[1] at RDD at PythonRDD.scala:53
PythonRDD[1] at RDD at PythonRDD.scala:53 简单明了原创 2023-02-08 09:44:39 · 1145 阅读 · 0 评论 -
Apache Hive 使用
Apache Hive 使用原创 2023-01-08 16:07:14 · 491 阅读 · 0 评论 -
数据仓库介绍
数据仓库介绍原创 2023-01-04 12:06:30 · 340 阅读 · 0 评论 -
Hadoop HDFS
文件系统是一种存储和组织数据的方法,实现了数据的存储、分级组织、访问和获取等操作,使得用户对文件访问 和查找变得容易,以树形目录的抽象逻辑来对硬盘的数据块进行表示。我们大家都知道大数据之所以叫大数据进士因为它具有海量的数据,但是这种海量的数据该如何进行储存呢,我们的计算机的硬盘物理接口也是有限的,不能够无限制的去加硬盘,在这样的环境下分布式文件系统就诞生了。文件自身属性信息: 文件名称、权限,修改时间,文件大小,复制因子,数据块大小。元数据:也叫解释性数据,也就是记录数据的数据,也就记录数据的各种信息。原创 2023-01-03 18:18:45 · 235 阅读 · 0 评论 -
Hadoop MapReduce 介绍
MapReduce最早出现在Google于2004年在一篇名为《MapReduce:Simplified Data Processingon Large Clusters 》的论文中被提出MapReduce是一种分布式计算框架,那什么是分布式计算呢?分布式计算是将该应用分解成许多小的部分,分配给多台计算机进行处理,以达到提交计算效率的目的,减少大规模数据计算的时间。MapReduce是面向超大规模数据设计的一种计算框架,如果我们用MapReduce处理小规模数据的化还不如不用,会起到适得其反的作用,原创 2023-01-03 15:57:43 · 1037 阅读 · 0 评论 -
hadoop 集群搭建(详细版)
hadoop 集群搭建(详细版)非常详细原创 2023-01-02 17:25:32 · 565 阅读 · 1 评论 -
Linux系统基础
user-images\image-20230101150648576.png)]故名思意文件系统就是管理和存储的的的系统,因为文件的结构的非常向树的枝干,所以叫做树目录,目录从根目录。参数 :-p :在创建目录的前一级目录不存在时自动创建。-r 将目录下的文件或目录全部递归删除。原创 2023-01-01 15:38:48 · 561 阅读 · 0 评论 -
数据分析的大体思路
1、一切围绕于数据,一切结果源于数据2、核心步骤:采集、处理、分析、应用。原创 2023-01-01 14:39:42 · 591 阅读 · 0 评论