自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 资源 (2)
  • 收藏
  • 关注

原创 VMware中CentOS 7 扩容

需求:前期在虚拟机中安装了CentOS,在创建虚拟机时分配的硬盘空间为50G,在安装CentOS系统时,分盘时分配了20多G的容量,在所有开发环境都配置好后,在编译一个较大的工程代码时,下载了超多的依赖包,导致整个磁盘被占满,且工程还没有编译完成,因此需要对磁盘扩容,这里是将未分配的20多G的容量扩容到系统中。此篇记录下为磁盘扩容的过程,方便有扩容需求的小伙伴查阅参考。如有表述不当之处,请指正。参考链接:链接1,链接2一、分区处理1.查看当前已分配的空间使用以下命令查看,可以发现只有20G左右的空间

2021-06-10 19:19:00 652 1

原创 GeoTools计算经纬度图形面积

文章目录前言一、pom.xml二、经纬度坐标转Mactor三、解析GeoJson,计算面积总结前言项目中需要对经纬度的矢量图形数据计算面积,由于项目开发中主体部分使用的是Java语言,因此这里采用开源的Geotools工具包实现提示:以下是本篇文章正文内容,下面案例可供参考一、pom.xml该工程使用maven构建,这里贴出pom文件内容。<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w

2021-05-15 11:47:06 5409 4

原创 Spark SQL学习笔记1:DataFrame使用

使用SQLContext,可以从RDD、Hive表或者其他数据源,来创建一个DataFrame。以下是一个使用JSON文件创建DataFrame的例子1.Json文件内容{"id":1, "name":"leo", "age":18}{"id":2, "name":"jack", "age":19}{"id":3, "name":"marry", "age":17}{"id":4, "name":"tom", "age":19}2.Scala版object DataFrameOperatio

2021-04-10 11:30:49 246

原创 Presto(Trino)集群安装

由于项目需要,故在公司集群环境中尝试安装了Presto(Trino),为方便有安装需要的小伙伴少走弯路,这里将安装的步骤记录下。参考了Trino的官方文档,关于Presto和Trino名字的历史可自行百度了解。这里给出Trino的使用文档链接:https://trino.io/docs/current/installation.html1. 下载Trino包下载trino-server-354.tar.gz2.下载jdk11由于该版本的trino对jdk的版本有要求,Trino需要Java 11的6

2021-04-08 19:46:13 4335 10

原创 Linux命令--文件权限

1.Linux用户和组的关系用户和用户组的对应关系有以下 4 种:一对一:一个用户可以存在一个组中,是组中的唯一成员;一对多:一个用户可以存在多个用户组中,此用户具有这多个组的共同 权限;多对一:多个用户可以存在一个组中,这些用户具有和组相同的权限;多对多:多个用户可以存在多个组中,也就是以上 3 种关系的扩展。关于用户和组的关系的更详细的说明可参考以下链接:http://c.biancheng.net/view/3038.html2.常用命令2.1 文件权限ls -l中显示的内容如下

2021-04-08 19:43:20 209

原创 Spark Core学习笔记6: RDD持久化

1.RDD持久化原理Spark非常重要的一个功能特性就是可以将RDD持久化到内存中。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存缓存的partition。要持久化一个RDD,只要调用cache()或persist()方法即可。在该RDD第一次被计算出来时,就会直接缓存在每个节点中。cache()和persist()的区别在于,cache()是persist()的一种简化方式,cache()的底层

2021-04-02 18:39:55 197

原创 Spark Core学习笔记5:action操作实例

常用action操作reduce:将RDD中的所有元素进行聚合操作。第一个元素与第二个元素聚合,得到的值再与第三个元素聚合,以此类推collect:将RDD中所有元素获取到本地客户端count:获取RDD元素总数take(n):获取RDD中前n个元素savaAsTextFile:将RDD元素保存到文件中,对每个元素调用toString方法countByKey:对每个key对应的值进行count计数foreach:遍历RDD中的每个元素...

2021-03-30 19:51:35 138

原创 Spark Core学习笔记4:transformation操作实例

常用transformation操作map:将RDD中的每个元素传入自定义函数,获取一个新的元素,并将新的元素组成新的RDDfilter:对RDD中每个元素进行判断,如果返回true则保留,如果返回false则剔除。flatMap:与map类似,但对每个元素都可以返回一个或多个新元素groupByKey:根据key进行分组,每个key对应一个IterablereduceByKey:对每个key对应的value进行reduce操作sortByKey:对每个key对应的value进行排序操作jo

2021-03-30 19:45:36 191

原创 Spark Core学习笔记3:操作RDD--transformation、action案例

1.transformation和action介绍Spark支持两种RDD操作:transformation和actiontransformation操作会针对已有RDD创建一个新的RDDaction操作,主要是对RDD进行最后的操作,如遍历、reduce、保存到文件中等,并可以返回结果给Driver程序例子:map就是一种transformation操作,用于将已有RDD中的每个元素传入一个自定义的函数,并获取一个新的元素,然后将所有元素组成一个新的RDD;reduce就是一种action操

2021-03-30 19:15:32 218

原创 Spark Core学习笔记2:创建RDD(集合、本地文件、HDFS文件)

1.创建RDD进行Spark核心编程时,首先要做的第一件事,就是创建一个初始的RDD。该RDD中,通常就代表和包含了Spark应用程序的输入源数据。然后在创建了初始的RDD之后,才可以通过Spark Core提供的transformation算子,对该RDD进行转换,来获取其他的RDDSpark Core提供了三种创建RDD的方式,包括:使用程序中的集合创建RDD使用本地文件创建RDD使用HDFS文件创建RDD经验总结:使用程序中的集合创建RDD,主要用于进行测试,可以在实际

2021-03-30 19:09:15 507

原创 Spark Core学习笔记1:使用Java、Scala开发wordcount

使用Java、Scala开发wordcount1.Java版本wordcount编写Spark应用程序,本地执行是可以使用eclipse中的main方法运行的。开发应用程序步骤如下**第1步:**创建SparkConf对象,设置Spark应用配置信息。使用setMaster()可设置Spark应用程序要连接的Spark集群的master节点的url,但是如果设置为local则代表在本地执行SparkConf conf = new SparkConf() .setAppName("Word

2021-03-26 18:45:04 428

原创 Geopandas与PostGIS连接

1.GeoPandas 安装pip install geopandas2.psycopg2安装pip install psycopg23. 导入第三方库import geopandas as gpdimport psycopg2import matplotlib.pyplot as plt4.建立数据库连接conn = psycopg2.connect(database="your database", user="user", password="password", host="

2021-03-19 18:22:48 701

原创 Scala学习笔记八:数组转换

1. 使用yield和函数式编程转换数组对Array进行转换,获取的依旧是Array(需要说明的是,使用yield来转换时,for循环里边遍历的数组它本来是什么类型的,转换出来也是什么类型的,如a是Array,yield转换出来也是Array,b是ArrayBuffer,则yield转化出来是ArrayBuffer)val a = Array(1,2,3,4,5)val a2 = for(ele <- a) yield ele * ele...

2021-03-19 08:14:59 272

原创 Scala学习笔记七:数组操作Array、ArrayBuffer、数组遍历

1.ArrayScala中,Array代表的含义与Java中类似,表示的是长度不可变的数组。由于Scala与Java都是运行在JVM中,双方可以互相调用,因此,Scala数组的底层实际上是Java数组。如字符串数组在底层就是Java的String[],整数数组在底层就是Java的Int[]。数组初始化后,数组长度就固定下来了,而且数组元素全部根据其类型初始化 val a = new Array[Int](10) val b = new Array[String](10)...

2021-03-19 08:12:50 707

原创 Scala学习笔记六:过程、lazy值和异常

1.过程在定义函数时,如果函数体直接包裹在花括号里,而没有使用“=”连接,则函数的返回值类型就是Unit,此类型函数就称之为过程。过程通常用于不需要返回值的函数。过程的另一种写法,将函数的返回值类型定义为Unit有返回值例子,def sayHello(name:String)="hello," + name[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Q87U6K9V-1615508079038)(C:\Users\admin\AppData\Roamin

2021-03-12 08:15:29 144

原创 Scala学习笔记五:变长参数

1.变长参数在scala中,有时需要将函数定义为参数个数可变的形式,则此时便可使用变长参数来定义函数def sum(nums:Int*)={var res = 0for(num <- nums){res += num}res}[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ObX8JxHJ-1615420958809)(C:\Users\admin\AppData\Roaming\Typora\typora-user-images\image-202

2021-03-11 08:03:15 230

原创 Scala学习笔记四:默认参数和带名参数

1.默认参数在scala中,有时调用某些函数时,不想给出参数的具体值,而想使用参数自身默认的值,此时在定义函数时就可使用默认参数的功能def sayHello(firstName:String, middleName:String="William", lastName:String="Croft") = firstName + " " + middleName + " " + lastName如果给出的参数不够,则会从左往右依次应用参数2.Java和Scala实现默认参数区别Jav

2021-03-09 19:38:10 348

原创 Scala学习笔记三:函数基础入门

1.函数的定义与调用scala定义函数时,需定义函数的函数名、参数、函数体scala中必须给出所有参数的类型,但函数的返回值类型不一定给出,只要函数体中不包含递归语句,scala就可根据右侧的表达式推断出返回值类型。单行函数def sayHello (name:String)=print("hello," + name)函数体中包含多行代码,则可以使用代码块的方式包裹多行代码,代码块中最后一行的返回值就是整个函数的返回值,这点与java不同,java使用return来返回值。

2021-03-09 19:18:00 173

原创 Scala学习笔记二:条件语句、循环

1. if表达式if表达式的定义:在scala中,if表达式是有值的,就是if或else中最后一行语句的返回值val age = 30;if(age > 18) 1 else 0可将if表达式赋予一变量,如val isAdult = if(age > 18) 1 else 0写法二,val isAdult = -1; if(age > 18) isAdult=1 else isAdult=0,但通常用第一种写法if表达式的类型推断:if和else的值类型可能不同

2021-03-08 19:09:46 191

原创 Scala学习笔记一:Scala基本操作

Scala 基础语法1.Scala安装window环境下安装Scala,官网下载scala-2.11.11.msi文件,使用下载下来的msi文件,根据安装向导完成Scala的安装。配置Scala环境变量,配置$SCALA_HOME/bin目录cmd命令行,键入scala -version,验证配置是否正确有效命令行键入scala,打开scala命令行,可进行scala编程2.Scala解释器的使用REPL:Read(取值)->Evaluation(求值)-&gt

2021-03-06 15:58:58 438

原创 GeoTools计算线与面的交点

文章目录前言一、maven引入GeoTools依赖二、方法实现1.实现思路2.面转换为线3.计算交点坐标4.wkt转Geometry5.完整代码6.测试结果总结前言最近在做一个项目,涉及到求线与面的交点问题,查阅了API,没有发现符合需求的函数,于是就动手实现了求线与面交点的功能。注意:这里的线与面的交点仅指二维平面的交点,而非三维的参考链接:GeoTools官方文档提示:以下是本篇文章正文内容,下面案例可供参考一、maven引入GeoTools依赖项目中用到的Geotools中的依赖都在

2020-11-28 12:02:40 2920 2

原创 Pycharm中搭建PySpark开发环境

文章目录前言一、本机环境二、PySpark安装步骤1.命令提示符中使用Anaconda创建虚拟环境2.使用以下命令查看Anaconda中创建的虚拟环境3.使用以下命令进入到新创建的虚拟环境中4.查找对应版本的PySpark版本,命令如下:5.安装PySpark6.测试PySpark库是否安装成功三、Pycharm开发环境搭建1.打开pycharm,File-->New Project2.创建项目3.配置项目运行环境4.项目中新建.py文件5.命名.py文件名6.编写Spark单词统计的代码7.解决Wa

2020-09-05 12:04:21 8016 5

原创 Cannot open D:\xxx\Anaconda3\Scripts\conda-script.py

问题描述准备使用conda search pyspark搜索pyspark的版本,结果报错了,报错如下:Cannot open D:\xxx\Anaconda3\Scripts\conda-script.py解决方法通过报错的路径,定位到D:\xxx\Anaconda3\Scripts目录下,发现不存在conda-script.py这个文件,在网上搜的最简单的办法就是重新安装Anaconda,想起自己在这个Anaconda下安装了很多的第三方库,记得有同事的电脑上安装了和我一样版本的Anac

2020-08-24 15:19:17 2014 1

原创 GDAL--读取GDB文件

GDAL解析SHP、GDB,获取坐标系本文主要介绍使用GDAL-Python解析shp文件

2020-08-12 20:49:30 5255 2

原创 GDAL--读取SHP文件

本文主要内容是使用GDAL-Python读取shp文件数据,主要介绍GDAL的一些常用操作,也是对近段时间学习GDAL的一点总结。导入GDAL第三方库import sysfrom osgeo import ogr载入Shapefile驱动driver = ogr.GetDriverByName('ESRI Shapefile')打开数据源# shp文件路径file_name = 'D:/xjxzq.shp'# Open方法第二个参数0表示只读data_source = driver.

2020-07-18 15:58:49 3437 1

Presto(Trino354)安装包.zip

包含了trino-server-354.tar.gz、trino-cli-354-executable.jar、zulu11.45.27-ca-jdk11.0.10-linux_x64.tar.gz(trino官网推荐的jdk11)

2021-04-09

百面机器学习--算法工程师带你去面试--带书签

书中收录了超过100道机器学习算法工程师的面试题目和解答,其中大部分源于Hulu算法研究岗位的真实场景。从日常工作、生活中各种有趣的现象出发,不仅囊括了机器学习的基本知识 ,而且还包含了成为出众算法工程师的相关技能,更重要的是凝聚了笔者对人工智能领域的一颗热忱之心,旨在培养读者发现问题、解决问题、扩展问题的能力,建立对机器学习的热爱,共绘人工智能世界的宏伟蓝图。

2019-02-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除