沐风797-CSDN博客

原创 nvidia --msi发现显卡驱动建议cuda版本11.4，nvcc发现实际版本是12.3，最后成功安装pytorch1.13.0，以及解决了pip，conda安装时显示空间不足的问题

发现驱动版本较低，cuda版本建议的是11.4，或者更低，因为cuda向下兼容nvcc -V发现实际版本12.3，由于是服务器，咱也不敢升级驱动，只能摸索着装环境。试了不行又试了成功你可以尝试先清理缓存空间是一个在基于 Conda 包管理器和环境管理器的系统中使用的命令，它用于清理不必要的文件和释放空间。这个命令会删除许多不同类型的不需要的文件，包括缓存的包、索引缓存、锁文件、日志文件等。以下是：删除下载的包文件，这些文件通常存储在或目录下。

2024-04-23 16:42:12 528

原创 pip 安装软件包报错空间不够

可能是tmp空间不够，于是，新建一个tmp文件夹/tj_dev/lu/temp，不再使用全局的，使用。新建一个文件夹/tj_dev/lu/envs/pt1/.cache。试用版export TMPDIR=/tj_dev/lu/temp。磁盘空间dh -h充足，结点inode 充足。感觉有可能是pip cache空间不够的原因。环境已激活，python pip都正常。

2024-04-19 16:50:23 204

原创虚拟环境建好后，python使用的是虚拟环境的python，但是pip却不是虚拟环境的pip。

复制粘贴了其他人的.bashrc 文件的内容，但是后来我发现其实不用，因为启动终端时，会自动将etc/profile的内容执行一遍，一般管理员会把你需要的软件的路径放到这个里面，你打开终端的时候就会自动运行，/tj/lzm/envs/pt/bin/pip，而是别人的文件夹下的一个pip，这是由于我在之前为了使用服务器上已经安装好的anaconda，我激活环境后，conda init过程并没有将我的/tj/lzm/envs/pt/bin,放在path路径的最前面，而是放在了中间，跟。

2024-04-19 16:41:37 320

原创 12，以文件和socket为数据源的Spark streaming实践

以Socket为数据源Pom文件源代码：import org.apache.spark.streaming.{Seconds, StreamingContext}object SocketWordCount { def main(args :Array[String]) = { //创建一个streamingContext对象，在本地运行，两个线程 //设置划分数据流为片段的时间间隔为20秒，可以根据需要更改时间，但是不宜太慢...

2021-07-16 13:07:04 473

原创 11，基于pySpark的TF-IDF算法实现

from pyspark import SparkConf, SparkContextimport math#以下为计算过程中需要用到的几个函数# 该函数主要是统计一个文档中包含哪些单词def word_contains(words_list): words_set=set(words_list)#将列表转为set,去除重复的单词 return list(words_set)#再将set转为列表返回# 计算每个单词的逆文档频率idfdef computeI...

2021-07-16 13:04:26 813

原创 pySpark与Kmeans算法实现

一、实践Spark的共享变量不使用广播变量时：Spark的执行过程中，Spark的一个或者多个函数操作会作为一个Task分发到某个节点上的Executor中去执行，当函数用到程序中定义的变量，那么那么Spark会将这些变量创建一个副本，并与这些函数一起打包到相应的task中。那么当有很多个task都应用到同一个变量时，spark会多次复制并打包传输这些变量，但变量本身有可能是一个很大的字典或者集合，这就会引起大量的网络传输，也有可能会造成一个Executor的内存溢出。广播变量的意义：就

2021-07-16 13:02:04 1706

原创 9，基于Scala的wordcount Spark程序

一，在IDEA中安装Scala插件与SDK安装插件在IDEA欢迎页面，点击右下角Configure选项，并选择其中的Plugins选项，选择browse repositories按钮，在新弹出的窗口的左上角的输入框中输入Scala，找到Scala插件，点击右边的install.加载Scala插件与SDKSpark中已经自带了Scala开发套件，因此无需重新下载安装Scala SDK。Scala插件上面已经下载，自动加载完毕；SDK需要在新建项目时加载。二、基于IDEA编辑和运行w

2021-07-16 12:56:40 482

原创基于Spark Shell的worldcount程序

（一），基于Spark Shell的worldcount程序1.启动spark首先进入/usr/local/spark/bin目录，执行spark-shell 启动spark便成功进入Spark Shell提供以Scala和Python语言为接口的交互式Spark编程环境。2.创建example.txt文件新打开一个终端，进入/home/hadoop创建一个example文件，并输入内容。3.在交互式面板依次输入并执行程序val textFile = sc.t

2021-07-16 12:54:00 486

原创 Spark的安装部署与基本原理总结（linux系统）

安装部署Spark1. 将安装包拖入到Linux虚拟机的桌面，然后进入桌面所在的文件路径，对Spark进行解压和重命名等操作2.通过如下Linux命令进入Spark解压文件中的conf文件夹，并根据Spark自带的模板创建spark-env.sh配置文件3.通过在Linux终端使用命令“vim spark-env.sh”修改配置文件spark-env.sh。在配置文件的空白处，添加如下内容4.在spark-env.sh修改完成之后，我们进一步配置Spark的环境变量。使

2021-07-16 12:43:03 1302

原创 Hbase的实践操作（虚拟机Linux系统）

（一）.Hbase的shell操作1.进入hbase shell在启动HDFS和Hbase之后，在Linux客户端输入“hbase shell”命令将进入Hbase Shell。打开Hbase Shell之后，首先输入“help”命令，Hbase Shell会显示Hbase所提供的所有Shell命令。2．创建、查看、删除命名空间建立一个test的命名空间，具体的命令如下通过如下describe命令来查看所建立的命名空间的详细信息我们也可以通过如下命令来查看当前Hba.

2021-07-16 12:40:34 3643

原创 5，Hbase的安装部署

（1）安装部署hbase1：安装zookeeper（1）将压缩包拷贝进主目录。打开终端将压缩包解压安装但未输入安装路径，默认安装在当前目录。mv命令将zookeeper 改名，再用mv命令将zookeeper转移到/usr/localcd命令进入/usr/local。Ls查看当前目录。用chown命令赋予hadoop用户使用当前目录的权限。但是因为当前用户是guan所以后面发生权限不够的问题。文件夹无法建立。重新赋予guan用户使用当前目录的权限。

2021-07-16 12:37:21 573

原创 4，wordcount 多MapReduce任务的串联

一，combiner实验: Map阶段结束后，产生的键值对的value全为1，为了减少map将键值对传到节点上时用过多的时间和内存，减少reduce端聚合的次数，在map之后reduce之前，先将每个map任务产生的相同key值的value进行一次合并。由于在wordcount中combiner操作与reduce操作是一样的，所以Mycombiner类代码内容与reducer一样。在编写完combiner类之后，要在主类下进行设置。如下图：其他类不变。二，多mapRedu...

2021-07-16 12:25:32 563

原创 3，自定义Hadoop数据类型实践

尝试改变wordcount程序的结构，mapper和reducer类独立出来。首先新建立两个类，分别将WordCount类中的mapper类,reducer类和包含main 方法的wordcount类的内容粘贴到新类中，同时删除static 关键字。MyMapper类：MYReducer类：注意独立出mapper ,reducer和包含main方法的主类要在一个包里。新建一个WordCountAndLen类，实现hadoop数据类型的自定义。修改 MyReducer类：.

2021-07-16 12:12:59 516

原创 1，虚拟机下安装hadoop生态系统

2.1虚拟机的创建... 172.1.1 虚拟化软件的安装... 172.1.2 虚拟机的创建... 172.1.3 Vmware tools的安装... 232.2 Linux的常用命令... 252.3 JDK的安装... 252.4 IDEA+Maven的安装... 272.4.1 IDEA的安装... 272.4.2 Maven的安装... 282.4.3 在IDEA项目中配置JDK和Maven. 292.5 Hadoop的安装... 312.5.1 SS

2021-07-15 12:44:33 125

原创 2，HDFS的操作实践 ,（1）、HDFS Shell 实践（2）、HDFS Web客户端（3）、HDFS Java API 实践

实验目的：了解HDFS分布式文件系统学会建立maven项目，查看文件系统实验环境（硬件和软件）普通PC机，wondows10系统，VMware，ubuntu虚拟机，idea编译器实验步骤：hadoop生态系统安装过程比较复杂，建议拷贝同学的，或者去一点一点的搜步骤。此实验是在虚拟机环境下运行的。HDFS Shell 实践执行start-all.s...

2021-07-15 09:34:32 344

wonderboyLU的博客