自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 收藏
  • 关注

原创 使用Yarn做简单的词频统计

词频统计。

2023-06-08 15:10:59 196

原创 安装完全分布式(安装伪分布式前提下)

/向第一个从节点同步文件 如果rsync 没有找到命令,在三个节点安装 yum install rsync即可解决,rsync会进行校验 备份两个目录不同的部分。把主节点的公用秘钥追加到公钥库中,一定是追加 >> , 严禁覆盖 >cat id_rsa.pub.master >> authorized_keys。在主节点tdh-1上,向从主节点tdh-2同步安装文件。把主节点的公用秘钥拷贝到当前节点 注意替换为你自己的主节点ip。在主节点tdh-1上,向从主节点tdh-3同步安装文件。

2023-06-08 15:07:24 137

原创 Hadoop常用命令

hdfs dfs -getmerge hdfs://Master:9000/data/SogouResult.txt CombinedResult 把hdfs里面的多个文件合并成一个文件,合并后文件位于本地系统。hdfs dfs -mv /path/a.txt /path/b.txt 把文件从a目录移动到b目录,可用于回收站恢复文件。hdfs dfs -copyToLocal /hdfs/a.txt /local/a.txt 从hdfs拷贝到本地。

2023-06-08 15:01:36 1584

原创 搭建伪分布式

Hadoop的伪分布式即搭建一个节点的分布式系统。

2023-06-08 14:58:00 107

原创 当某一条数据为0时,将这一行的另一个数据也改为零

当某一列数据 l1 有0有非0的时候,我们想要另一列数据中 l2 ,如果 l1 == 0 的话那么想令 l2对应的数据也变成我们指定的数据时候,可以参考以上代码,其中0也可以指定为其他数据,我们将想要修改的数组下标提取出来之后,将我们需要修改的对象下标中的数据改为对应的值,我填的是0,也可以修改为其他值。列名时我们参照的那一列,df_1 为DataFream对象,如果根据多个列的话可以将上面循环加上一列:如。

2023-06-08 12:00:24 117

原创 去掉datafream中的0

比如b中的数据为[1,0,0,2,1,2,5,0,41,0,5]执行完之后结果为 [1,2,1,2,5,41,5]这行代码表示运行b中非0的数据。

2023-06-08 11:41:18 176

原创 datafream中间隔取数据

这行代码中df_1为要操作的datafeam对象,列名为对象的列索引名,m为要取的间隔数量,比如我一次取6条数据我就填6,n为一次的跳跃数据,比如我取完一次数据,我下一次想从第二条数据开始取我就填1,代表往后跳一格,我如果想取完一条数据下一条想往后面数第六条数据开始取的话我就填6。

2023-06-08 11:37:36 272

原创 将时间序列按自己要求定义

df为有时间列的对象,可能会出现时间列有分钟或者秒钟,我们定义开始时间以及结束时间,和间隔。然后匹配当前df对象中的时间列,可以得到我们需要的时间,可以用来做数据清洗。time定义一个时间区间。

2023-06-08 11:30:55 61

原创 去除掉一组数据中不为零的数据

执行代码:(axis是控制轴的)得到的数据可以进行计算。执行前:(左边是索引)

2023-06-02 14:34:43 46

原创 numpy将数据中数据不为零的数量统计出来

我在找的时候找很久,有astype(bool).sum的,但是我用起来感觉不方便。当时要过滤datafream中满足五个数据,有的带有空值。用这个方法直接过滤掉了。

2023-06-02 14:02:41 141

原创 sqlserver中我在根据查询结果创建新表时候,我的orderby语句排序的,在新表中没有排序

select * into dbo.Test2 (select * from dbo.Test1 a where a.class = 'a' order by a.时间) b。select * into dbo.Test2 (select * from dbo.Test1 a order by a.时间) b。因为之前写mysql没有遇到过这种情况,这次写sqlserver碰到这种解决不了,大佬们看一看。但是我将查询结果放进新表的时候,这个时间显示是乱的。

2023-05-26 11:13:54 177

原创 sqlserver建表语句后面加个b什么意思

后来大致了解一下,这个b应该是一种命名的情况,是吧旧表进行命名,我在实际操作的时候,我不加上最后这个命名,还会出现报错的情况。SELECT * into 新表 from (select * from 旧表 where 字段 = 过滤条件) b。我在纠结最后的b什么意思呢,因为之前大部分写的mysql语句没有见过这种情况,我在查找sql根据查询结果创建新表的时候,我看有的博客上写的。

2023-05-26 10:42:18 155

原创 使用jupyter

2. 打开C:\Users\Lenovo\AppData\Roaming\Python\Python39\Scripts。在命令行输入jupyter notebook打开jupyter并打开浏览器界面。这里看到我下载的版本是3.9版本的,这个版本一般自带有jupyter。4.新建一个文件夹,在文件目录搜索jupyter notebook。这个是jupyter的路径,我们需要配置环境变量。1.检查一下自己装的python版本。将上图中的路径配置到。

2023-05-22 17:44:31 157

原创 横纵表之间的转换

CASE s.subject WHEN '语文' THEN s.score ELSE NULL END AS '语文',CASE s.subject WHEN '数学' THEN s.score ELSE NULL END AS '数学',CASE s.subject WHEN '英语' THEN s.score ELSE NULL END AS '英语'

2023-05-22 09:59:03 345

原创 mysql乐观锁悲观锁

select * from 表 where 数据(列名) for update;select * from 表 for update;加锁之后数据是无法修改的,因为锁没有释放。提交之后别的事务才能执行。乐观锁在应用层,悲观锁在数据库层。提交之后就把锁释放,可以进行修改。关键字:for update。关键字:for update。

2023-05-22 09:52:59 69

原创 虚拟机网络配置

DNS是域名系统,Domain Name System的缩写,是一个服务。DNS就是把域名解析为IP地址,提供我们上网,我们能够上网最终是找到IP地址。xxxx.com 对应的IP地址,然后通过IP地址进行访问。当然一般选择dns时我们都会选择一些大服务商的公共dns一般都是纯洁dns无劫持或插入广告等等。下面分享一下我在配置虚拟机网络的时间流程,具体的ipv4地址要根据你所连接的网络来配置。子网网段跟ens33里的网段一致。然后尝试ping百度。

2023-05-22 09:51:03 160

原创 组(组的增删改查)

linux系统中组相当于角色的概念,可以对一些有共有特征的用户进行统一管理:每一个用户至少属于一个组,不能独立于组的存在,用户也可以属于多个组。比如:某程序员会开发,也会运维,那他可能属于开发组,也会属于运维组文件的所有者:一般为文件的创建者,谁创建了该文件,就自然的成为该文件的所有者,默认情况下所有者所在的组也即使文件所在的组。

2023-05-22 09:48:23 81

原创 linux用户管理(用户的增删改查)

增加用户:useradd 名字删除用户:userdel 名字改变用户:su 用户名查询用户:id 用户名/cat 文件地址。

2023-05-22 09:45:47 131

原创 linux的三种解压缩格式

root@localhost test2]# gunzip t2.txt.gz 解压单个文件。[root@localhost test2]# gzip t2.txt 压缩单个文件。gzip和gunzip 只能压缩和解压单个文件,解压或压缩后原来的文件会被删除。也可以一次压缩或解压多个文件,只是压缩或解压的时候各自操作自己的文件,不会打包。-f:指定压缩后的文件名-Z:打包同时压缩。一次解压多个文件,各自解压各自的。-c:产生.tar.gz打包文件。-x:解压.tar.gz文件。-C:指定解压到哪个目录。

2023-05-22 09:43:11 231

原创 FineBI显示连接不上内置数据库

打开D:\finebi服务器部署版\tomcat-windows-x64\jdk\jre\lib\security 这个路径打开这个文件夹。这个版本有两种服务器部署模式,一种是自动搭建Tomcat跟JDK,另一种是自己下载TomCat跟JDK,JDK要注意下载的版本,在使用可视化工具FineBI是我在一台新的电脑上部署FineBI时,一直显示未连接内置数据库。将这两个删除,然后保存退出,最后就能成功连接数据库了。最后我在官网下载了另一个。

2023-05-19 17:07:28 1025

原创 linux系统根目录下各文件的功能

dev: dev是Device(设备)的缩写, 该目录下存放的是Linux的外部设备,Linux中的设备也是以文件的形式存在。home:用户的主目录,在Linux中,每个用户都有一个自己的目录,一般该目录名以用户的账号命名,叫作用户的根目录;var : 这个目录存放着在不断扩充着的东西,我们习惯将那些经常被修改的文件存放在该目录下,比如运行的各种日志文件。bin ->usr/bin : 存放系统预装的可执行程序,这里存放的可执行文件可以在系统的任何目录下执行。tmp: 这个目录是用来存放一些临时文件的。

2023-04-15 21:42:15 580

原创 hbase-shell命令

2.1创建表命令格式1:create ‘表名’,‘列簇名1’,‘列簇名2’…命名格式2:create ‘表名’,{NAME=>‘列簇名1’},{NAME=>‘列簇名2’}…#创建一张名为Student的表,包含基本信息(baseinfo)、学校信息(schoolinfo)两个列簇2.2删除表#删除表前需要先禁用表#删除表2.3修改表名命令格式:snapshot '表名’,‘镜像名’clone_snapshot‘镜像名’,‘新表名’delect_snapshot‘镜像名’

2023-04-15 21:37:43 362

原创 zookeeper安装教程(linux)

20. 所有节点都执行以上语句后,再在每台节点上执行以下语句,查看每台服务器的状态,leader时随机分配的,且只有一个leader,其余节点为follwer。18. 在tdh-1、tdh-2、tdh-3的每台主机/data/zookeeper目录中添加增加文件myid,内容分别是1,2,3。11. 在从节点tdh-2上建立软连接,在tdh-2上执行。15. 在从节点tdh-3上建立软连接,在tdh-3上执行。12. 在从节点tdh-2上,修改环境变量。16. 在从节点tdh-3上,修改环境变量。

2023-04-15 21:36:03 597

原创 IDEA的jdbc连接hive(1、 IDEA中通过API操作hive)

/在左上角输入框中输入:maven,单击下方菜单中的Maven,在右侧的设置界面中,Maven home directory中选择:D:\maven\apache-maven-3.3.9,User settings file中选择:D:\maven\apache-maven-3.3.9\conf\settings.xml,并勾选上Override,Local repository为默认即可,然后单击ok。在IDEA上方的菜单栏中选中File,将光标移动的New上,在弹出的子菜单中选择Project。

2023-04-15 21:33:36 981

原创 hive的两种连接方式1.Cli 2.Beeline

l 任务:启动hiveserver2服务,并通过beeline命令连接hive和基本的HQL操作。//DISTRIBUTE BY类似于mysql的group by,进行分区操作。2. 用beeline客户端连接hive 注意替换为自己的主机名。//hive不区分大小写,这里将关键字用大写表示,以作提示之用。在xshell中,直接输入hive,即可连接hive。// 执行TDH Client的init.sh脚本。1. 通过hive命令来连接hive。//sort进行的时map端排序。

2023-04-15 21:28:32 1073

原创 hive的安装教程

hive安装教程

2023-04-15 21:25:39 427

原创 安装spark时候启动spark里没有spark-shell文件

打开spark目录 ,找了一下发现在bin目录,输入spark-shell启动。

2023-04-14 23:27:51 374

原创 装spark时候从节点的word无法启动

经过查找发现这个节点的网络配置改了,它的ip不是确定的。然后关了重启一下就好了。

2023-04-14 23:19:10 36

原创 mysql没有更改权限,导致hive连接不上mysql

更改root用户的密码。配置root用户可以从所有IP登录,如果要限定从指定IP登录,则需要把%换成具体IP。2.没有初始化hive 初始化hive的元数据(表结构)到mysql中。1.mysql没有更改权限,导致hive连接不上mysql。

2023-03-29 00:11:50 174

原创 mapreduce理论知识

一个Reduce节点所处理的数据可能会来自多个 Map节点,为了避免Reduce计算阶段发生数据相关性,Map节点输出的中间结果需使用一定的策略进行适当的划分处理,保证相关性数据发送到同一个 Reduce节点;它提供了一个庞大但设计精良的并行计算软件框架,能自动完成计算任务的并行化处理,自动划分计算数据和计算任务,在集群节点上自动分配和执行任务以及收集计算结果,将数据分布存储、数据通信、容错处理等并行计算涉及到的很多系统底层的复杂细节交由系统负责处理,大大减少了软件开发人员的负担。

2023-03-29 00:10:37 288

原创 hive的连接方式

是一种用于执行SQL语句的Java API,可以为多种数据库提供统一访问,由一组用Java语言编写的类和接口组成,定义了一种访问标准,使开发人员能够基于这种标准编写数据库应用程序。打开另一个客户端2 beeline -ujdbc:hive2://node2:10000/default。是一种基于SQLLine的JDBC客户端,一般需要配合hivesever2一起进行使用。xshell客户端1 hiveserver2。4.获取Statement。hive有两种连接方式。

2023-03-29 00:10:34 1281

原创 yarn执行计算任务的命令

appOwner 应用的所有者(如果没有指定就是当前用户)应用程序的ID可以在yarn.resourcemanager.webapp.address配置的路径查看(即:User)-applicationId 指定应用程序ID,应用程序的ID可以在yarn.resourcemanager.webapp.address配置的路径查看(即:ID)-list 从RM返回的应用程序列表,使用-appTypes参数,支持基于应用程序类型的过滤,使用-appStates参数,支持对应用程序状态的过滤。

2023-03-29 00:06:54 105

原创 hdfs安装

/查看是否有(openssh-server + openssh-clients + openssh)这些yum安装包。//将会生成~/.ssh文件夹,里面有id_rsa(私钥) 和 id_rsa.pub(公钥)2个文件。//将会生成~/.ssh文件夹,里面有id_rsa(私钥) 和 id_rsa.pub(公钥)2个文件。//将会生成~/.ssh文件夹,里面有id_rsa(私钥) 和 id_rsa.pub(公钥)2个文件。4. 追加公钥到~/.ssh/authorized_keys文件中。

2023-03-29 00:06:43 852

原创 核心类 FileSystem 还有哪些方法,可以尝试调用

否则会抛出异常ProviderNotFoundException。4)newFileSystem(URI uri, Map env, ClassLoader loader):和上面的方法比,如果找不到对应的provider,会在抛出异常前先尝试根据给定的ClassLoader去定位provider。1)getDefault():返回默认的文件系统,默认的文件系统,创建的对象可以提供对“能被JVM访问的文件系统”的访问,它的工作目录是系统属性"user.dir"指定的目录,允许和File类的互操作性。

2023-03-29 00:05:26 213

原创 hdfs理论知识

Hive:-Hadoop数据仓库:企业决策支持-SQL引擎:对海量结构化数据进行高性能的SQL查询。-通用易用:适用于批处理、交互式计算、流处理、机器学习、图计算等多种场景。-高可用:ResourceManager高可用、HDFS高可用。-通用:适用各种计算框架,如:MapReduce、Spark。-高扩展:数据自动切分和分布,可动态扩容,无需停机。特点:-高容错:数据多副本,副本丢失后自动恢复。-高可用:HDFS高可用、Region高可用。-高可用:NameNode HA,安全模式。

2023-03-29 00:04:03 59

原创 windows安装maven

maven后边跟的是你的maven安装路径,变量名使用大写。前提:电脑已经安装jdk,可参考角度看安装教程。将文件命名为maven。首先添加maven如图。然后配置path变量。最后验证是否安装成功。

2023-03-29 00:02:04 50

原创 windows安装hadoop

1 在目录D:\hadoop-2.7.3\etc\hadoop下,修改文件hadoop-env.sh和hadoop-env.cmd中的JAVA_HOME,都设置为:D:\java 具体以自己的jdk目录为准,一般在第二十五行左右。将hadoop.dll及winutils.exe 2个文件分别拷贝到D:\hadoop-2.7.3\bin目录下和C:\Windows\System32 目录下。3 将yarn-site.xml中的虚拟机名字变为具体的IP地址(同上)我们使用虚拟机里安装的hadoop。

2023-03-29 00:01:06 288

原创 idea的maven配置

设置组id组件id,版本不同设置的地方也可能不同,2后的版本可能需要下拉列表。找到pom.xml的1.0-SNAPSHOT后输入如下内容。然后给工程命名并选择本地文件,可根据自己选择。等一会报错没了即为安装成功,已经可以填写代码。这里填写自己maven的安装路径。左侧选择maven项目。第一步:打开idea。

2023-03-28 23:58:25 286

原创 linux常用命令:

①普通文件(regular file ),一般我们在进行存取的类型的文件,可大致分为纯文本文件(ASCII)、二进制文件(binary)、数据可是文件(data)等。/var,主要放置的是针对系统执行过程中,常态性变动的档案放置的目录,如:缓存文件 (cache) 或者随时变更的登录文件 (log file)等。/usr,系统存放程序的目录,如:系统主要程序、图形接口所需档案、额外的函式库、本机端所自行安装的软件等。/bin,该目录下存放了标准的(或者说是缺省的)linux的工具,如:ls。

2023-03-28 23:50:28 31

原创 hdfs文件损坏 现象:安装完 hbase之后,进入16010界面后发现 regionserver只有一个

hbase 会依赖 hdfs ,hbase在启动regionserver的时候会看对应节点 hdfs 的服务 datanode是否是健康的,如果datanode未启动,或者是进入了安全模式,hbase 的regionserver就不会启动。3 使用这条命令完成 坏块的清理,重启hbase ,hbase会对hdfs的状态进行重新检查,发现是健康的,就会启动regionserver了。挂起恢复: 静态的先读进来,内存的信息文件,直接都会内存中,运行起来。关闭服务:越上层的 服务,先关闭,最后在关闭底层服务。

2023-03-28 23:48:12 367

java基础相关学习笔记

java基础相关学习笔记

2023-03-30

java基础相关学习笔记

java基础相关学习笔记

2023-03-30

java基础相关学习笔记

java基础相关学习笔记

2023-03-30

java基础相关学习笔记

java基础相关学习笔记

2023-03-30

java基础相关学习笔记

java基础相关学习笔记

2023-03-30

java基础相关学习笔记

java基础相关学习笔记

2023-03-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除