自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

直到世界的尽头

计算机的世界有无数道门窗 无论我们打开哪一道 都能收获无穷尽的风景

原创 Debian系统apt-get使用的sourcelist选择梳理

对Debian 源的理解 使用Debian系统apt-get在线安装软件,首先需要配置source.list文件。 source.list文件位于"/etc/apt"或者目录下,可以使用"vi"编辑去编辑此文件。 查看和编辑 使用命令 cat /etc/ap...

2020-05-15 17:06:59 100 0

原创 遇到问题---pod使用pvc存储时报错---had volume affinity conflict

遇到问题 使用yaml创建mysql服务时使用pvc作为持久存储,使用的yaml如下: storageclass.yml kind: StorageClass apiVersion: storage.k8s.io/v1 metadata: name: nfs provisioner: kub...

2020-05-11 15:58:15 63 0

原创 kubernetes--k8s--web管理界面使用--dashboardv1.8.3版本安装详细步骤

安装dashboard监控界面 (仅主节点运行) dashboard官网参考 使用命令 kubectl create -f https://raw.githubusercontent.com/kubernetes/dashboard/master/src/deploy/recommended/ku...

2020-04-27 17:48:39 523 0

转载 Kubernetes--k8s---kubectl安装和设置

使用Kubernetes命令行工具kubectl可以在Kubernetes上部署和管理应用程序。 使用kubectl,可以检查集群资源; 创建,删除和更新组件。 以下是安装kubectl的几种方法。 通过curl安装kubectl二进制文件 MacOS 下载最新版本的命令: curl -LO h...

2020-04-27 17:38:17 87 0

原创 遇到问题--Cannot make a static reference to the non-static field logMongoTemplate-----Spring注入静态方法

有时候 我们需要在静态的方法中使用 spring 注入的 数据库 实例。 但是通过@Autowired注入的实例变量 是不能直接用于 静态static的方法中的。 会提示 Cannot make a static reference to the non-static field logMongo...

2020-04-27 16:49:21 88 0

原创 docker---通过images的镜像反推出Dockerfile

没有命令直接 通过image镜像 就能反编译 获得 Dockerfile。 但是 我们可以根据 docker history命令 进行反推。 docker history --help Usage: docker history [OPTIONS] IMAGE Show the history...

2020-04-27 16:11:13 178 0

原创 遇到问题---spark on k8s部分spark_home的conf配置不生效

遇到的问题 部分pod 执行s3操作和日志打印debug失败,没有读取配置的log4j.properties文件和spark-defaults.conf的配置。 比如在conf目录中放入log4j.properties文件,已经在spark-defaults.conf中指定配置如下: spark....

2020-04-24 15:15:43 118 0

转载 pyspark dataframe 去重

pyspark dataframe 去重 两种去重,一种是整行每一项完全相同去除重复行,另一种是某一列相同去除重复行。 整行去重 dataframe1 = dataframe1.distinct() 某一列或者多列相同的去除重复 df = df.select("course_id&qu...

2020-04-09 18:33:19 106 0

原创 遇到问题----hadoop组件---spark实战-----spark on k8s---hail--Expected n part files but found 0

遇到问题 在jupyter notebook中使用hail进行操作,使用命令如下: import hail as hl mt = hl.import_vcf("s3a://test-env/tmp/zzq/20200317072357") mt.show() 可以成功运行,并...

2020-03-26 18:25:57 304 0

原创 aws--efs---使用efs创建k8s的动态pvc
原力计划

我们之前使用EBS作为k8s的动态pvc的pv,但是EBS不支持ReadWriteMany类型的声明。 所以尝试使用efs作为存储底层来声明pvc。 动态pvc声明方案 创建efs文件存储系统 使用命令 # 创建EFS Security group VPC_ID=$(aws eks describ...

2020-03-24 18:14:52 383 0

转载 通过 Amazon EFS 对 NFS 文件系统权限进行细粒度控制

传统的NFS服务是企业应用里非常常见的网络存储服务。用户在搭建NFS服务时,需要对权限进行相应的设置,以防止未授权的客户端非法访问远程文件存储。NFS的权限管理主要依赖Linux文件系统的文件权限管理机制,并通过 /etc/exports 进行文件系统共享的参数设置,如授权客户端的网段,是否只读等...

2020-03-24 17:28:30 175 0

转载 如何测试 Amazon Elastic File System

许多客户对 Amazon EFS 倍加推崇,因为它使得在云中创建并运行高度可扩展、高度可用且高持久性的共享文件系统变得格外轻松。只需短短数秒,就可以创建一个符合 NFSv4 的文件系统,并将其挂载到多个(多达数千个)Amazon EC2 实例或本地服务器上。 Amazon EFS 为基于 Linu...

2020-03-24 16:46:15 109 0

转载 利用 EFS 快速搭建 NFS 文件系统

Amazon Elastic File System (Amazon EFS) 是AWS云上一个全托管的弹性NFS文件系统服务。EFS具有简单易用并可扩展的特性,与AWS的其他云服务紧密集成,同时也可以被本地数据中心所使用。EFS设计为可根据文件存储变化而自动进行扩缩容,同时对应用不产生中断。用户...

2020-03-24 16:33:32 169 0

原创 aws----块存储efs的全面了解

efs简介 Amazon Elastic File System 可扩展的、弹性原生云 NFS 文件系统,每月 0.08 USD/GB Amazon EFS 是一项完全托管的服务,让您可以轻松地在 Amazon 云中设置和扩展文件存储,并对其进行成本优化。只需在 AWS 管理控制台中单击几次,您就...

2020-03-24 15:47:28 454 0

原创 k8s--kubernetes--argo----使用动态存储PVC---基于nfs 的storageclass

PVC简介 Docker中有 volumes的概念,在Docker中,volume是 对 物理节点服务器node路径目录的一种映射,也就是 我们可以把服务器的一个目录挂载给镜像使用。 同样的,k8s创建的pod也可以挂载volume,而且不仅仅支持 pod所在的服务器node的目录映射,也可以挂载...

2020-03-20 15:41:59 291 0

原创 docker--k8s---终端terminal和普通程序以及jupyter notebook-创建永久的静态环境变量--创建动态的环境变量

终端terminal和普通程序 linux系统的中主要有两种启用系统环境的情况,一种是 用户登录,比如进入bash或者sh等命令行操作shell界面,一种是 用户不登录,而是程序自动运行。 根据 两种情况,适用的创建永久的环境变量的方式就会有所不同。 创建永久的静态环境变量 静态环境变量 是指 内...

2020-03-19 16:54:02 170 0

原创 hadoop组件---spark实战-----airflow----调度工具airflow定时运行任务的理解

我们在前面已经初步了解了 airflow: hadoop组件—spark实战-----airflow----调度工具airflow的介绍和使用示例 但是 我们开始 尝试使用 airflow的 定时任务的时候 ,常常遇到一个尴尬的情况, 任务没有成功运行,或者说 设置开始时间是今天,但是 明天 才开...

2020-03-12 18:32:43 256 0

原创 hadoop组件---spark实战-----airflow----调度工具airflow部署到k8s中使用

在之前的文章中 我们已经了解了airflow 和 它的工作原理。 hadoop组件—spark实战-----airflow----调度工具airflow的介绍和使用示例 Scheduler进程,WebServer进程和Worker进程需要单独启动。Scheduler和WebServer可以跑在一个...

2020-02-27 23:20:07 335 0

原创 hadoop组件---spark实战-----airflow----调度工具airflow的介绍和使用示例

Airflow是什么 Airflow是一个可编程,调度和监控的工作流平台,基于有向无环图(DAG),airflow可以定义一组有依赖的任务,按照依赖依次执行。airflow提供了丰富的命令行工具用于系统管控,而其web管理界面同样也可以方便的管控调度任务,并且对任务运行状态进行实时监控,方便了系统...

2020-02-27 15:18:33 751 0

原创 k8s---使用ingress配置域名转发时的traefik路径规则详解

ingress中traefik的使用方式如下: apiVersion: extensions/v1beta1 kind: Ingress metadata: name: spark-client-test namespace: default annotations: kube...

2020-02-25 19:42:02 995 0

原创 hadoop组件---spark实战----spark on k8s模式k8s原生方式spark2.4.4 通过web UI界面查看任务运行情况

一般我们在运行spark任务时,需要查看他的运行情况。 比较常用的方式就是在spark的UI界面上查看。 一般的spark 因为driver所在的node是固定的,ip也就是固定的,所以能够通过ip或者域名映射后即可很方便的进行访问。 spark on k8s比较特别的是 driver是一个在k8...

2020-02-25 19:38:48 206 0

原创 数据挖掘(七) -----在python程序中使用hail

我们在之前的文章中已经尝试安装了hail和简单的使用 数据挖掘(五) -----基于Spark的可伸缩基因数据分析平台开源存储运算架构hail全面了解和安装 但是 我们发现 这种hail的运行方式 是需要进入到conda的hail的虚拟环境中才能运行的。 我们业务一般来说 都是在外层执行,还有其他...

2020-02-22 13:19:52 335 0

原创 数据挖掘(五) -----基于Spark的可伸缩基因数据分析平台开源存储运算架构hail全面了解和安装

hail简介 hail是一个开源的、通用的、面向python数据类型的处理基因数据专用的分析库和方法解决方案。 hail的存在是 为了 支持 多维度的复杂的数据结构,比如 全基因组关联数据研究(GWAS). GWAS Tutorial hail的底层是通过python,scala,java和apa...

2020-02-21 18:32:29 161 0

原创 hadoop组件---spark实战----spark on k8s模式k8s原生方式spark2.4.4在python程序中通过conf创建sparkSession

我们在之前的文章中已经尝试了使用spark on k8s。 hadoop组件—spark实战----spark on k8s模式k8s原生方式安装spark2.4.4 client mode提交python程序和运行pyspark 不过 使用的方式 是spark-submit 或者 pyspark...

2020-02-20 21:12:49 196 0

转载 数据挖掘----基础--conda安装---miniconda

conda简介 Conda 是一个开源的软件包管理系统和环境管理系统,用于安装多个版本的软件包及其依赖关系,并在它们之间轻松切换。 Conda 是为 Python 程序创建的,适用于 Linux,OS X 和Windows,也可以打包和分发其他软件。 安装conda conda分为anaconda...

2020-02-14 17:19:26 313 0

原创 hadoop组件---spark实战----spark on k8s模式k8s原生方式安装spark2.4.4 client mode提交python程序在spark中访问s3

我们在上篇文章中已经成功运行使用spark-submit提交了python程序运行spark。 hadoop组件—spark实战----spark on k8s模式k8s原生方式安装spark2.4.4 client mode提交python程序和运行pyspark 本篇文章记录 在client ...

2020-02-10 17:19:37 209 0

原创 hadoop组件---spark实战----spark on k8s模式k8s原生方式安装spark2.4.4 client mode提交python程序和运行pyspark

我们在上篇文章已经学习使用spark on k8s的client mode 运行了spark shell 和提交jar包运行任务。 hadoop组件—spark实战----spark on k8s模式k8s原生方式安装spark2.4.4 client mode和使用 本篇文章记录运行pyspar...

2020-02-08 22:49:50 315 0

原创 hadoop组件---spark实战----遇到问题---executor无法删除

遇到问题----executor无法删除一直重启序号自增 如下: [zzq@localhost spark-2.4.4-bin-hadoop2.7]$ kubectl get pods |grep spark spark-1529-1581160495887-exec-51856 ...

2020-02-08 19:34:21 192 0

原创 hadoop组件---spark实战----spark on k8s模式k8s原生方式安装spark2.4.4 client mode和使用

我们在之前的文章中已经安装了cluster mode模式和尝试了使用。 hadoop组件—spark实战----spark on k8s模式k8s原生方式安装spark2.4.4 cluster mode hadoop组件—spark实战----spark on k8s模式k8s原生方式—clus...

2020-02-06 00:56:14 492 0

原创 hadoop组件---spark实战----spark on k8s模式k8s原生方式---cluster mode调用运行spark程序

我们在上篇文章中已经记录了 如果 安装spark on k8s模式k8s原生方式—cluster mode。 hadoop组件—spark实战----spark on k8s模式k8s原生方式安装spark2.4.4 cluster mode 本章记录 cluster mode这种方式的spark...

2020-02-05 17:45:30 867 0

原创 hadoop组件---spark实战----spark on k8s模式k8s原生方式安装spark2.4.4 cluster mode

目前最新稳定版本2.4.4的官方安装文档 环境准备 1、使用spark2.3以上的spark版本 2、已经在运行的k8s集群版本需要大于1.6 使用命令查询 kubectl version 输出为: zhangxiaofans-MacBook-Pro:Downloads joe$ kubectl...

2020-01-20 16:24:24 416 0

原创 hadoop组件---spark理论----spark on k8s模式的三种方式全面了解

我们在之前的文章中 已经了解了 spark支持的模式,其中一种就是 使用k8s进行管理。 hadoop组件—spark----全面了解spark以及与hadoop的区别 是时候考虑让你的 Spark 跑在K8s 上了 spark on k8s的优势–为什么要把Spark部署在k8s上 大数据和云计...

2020-01-19 18:05:34 2357 0

转载 hadoop组件---spark实战----spark on k8s模式Spark Standalone on Docker方式安装spark

在本文的例子中,你将使用 Kubernetes 和 Docker 创建一个功能型 Apache Spark 集群。 你将使用 Spark standalone 模式 安装一个 Spark master 服务和一组 Spark workers 。 源代码 Docker 镜像主要基于 https://...

2020-01-19 15:35:08 402 0

原创 hadoop基础----hadoop实战(十四)-----hadoop管理工具---CDH移除主机

注意事项 在CDH的Hadoop集群中提供有主机解除授权和将节点移除集群的操作 正常情况下节点的解除授权不会导致blocks丢失的情况,但是在某些特殊场景中还是会出现小量blocks的丢失。 比如: 1、同时下线的节点数量太多,如果副本数为3,建议最多同时停用2个DataNode进行下线操作,等待...

2020-01-17 15:15:38 330 0

原创 hadoop组件---spark----全面了解spark以及与hadoop的区别

Spark是什么 Spark (全称 Apache Spark™) 是一个专门处理大数据量分析任务的通用数据分析引擎。 spark官网 Spark核心代码是用scala语言开发的,不过支持使用多种语言进行开发调用比如scala,java,python。 spark github Spark文档2....

2020-01-16 16:47:12 1825 0

原创 hadoop组件---面向列的开源数据库(十)--使用phoenix自带工具执行sql脚本以及批量导入数据到hbase中

我们在之前的文章中,记录了 在phoenix命令行工具中运行命令,使用java连接phoenix,使用图形界面化客户端连接phoenix。 hadoop组件—面向列的开源数据库(七)–phoenix查询hbase–映射和常用命令 hadoop组件—面向列的开源数据库(八)–java使用phoeni...

2020-01-09 15:27:27 212 0

原创 hadoop组件---面向列的开源数据库(九)--使用phoenix图形界面客户端查询hbase

我们在之前的文章中已经学习了 使用phoenix的shell命令行 和 使用java使用phoenix进行操作。 如果我们没有权限进入到安装有phoenix命令行的服务器,也不想写java项目进行操作,那我们可以直接使用phoenix的客户端图形界面化操作工具。 本篇文章记录 Squirrel G...

2020-01-08 17:20:52 144 0

原创 hadoop组件---面向列的开源数据库(八)--java使用phoenix查询hbase

我们在上篇文章中已经学习了 如果使用phoenix的shell命令行工具进行 增删改查,同时明确了 phoenix要查询hbase原生建立的表 需要创建映射表或者 映射视图。 hadoop组件—面向列的开源数据库(七)–phoenix查询hbase–映射和常用命令 本篇 记录 使用 java使用p...

2020-01-08 11:56:48 225 0

原创 hadoop组件---面向列的开源数据库(七)--phoenix查询hbase--映射和常用命令

我们在之前得文章中已经 成功安装了 phoenix,本章需要学习使用phoenix进行增删改查等常用操作。 hadoop组件—面向列的开源数据库(六)–使用sql访问hbase的组件–phoenix全面了解和安装 关于映射和注意事项–看不到原hbase的表和查询不到数据的问题解决 需要注意得一点是...

2020-01-08 11:41:50 154 0

原创 hadoop组件---面向列的开源数据库(六)--使用sql访问hbase的组件--phoenix全面了解和安装

phoenix简介 我们在之前得文章中已经学习了thrift 以及使用 thrift 对hbase进行访问。 hadoop组件—面向列的开源数据库(三)—hbase的接口thrift简介和安装 hadoop组件—面向列的开源数据库(五)–java–SpringMVC查询hbase 使用过程中 可以...

2020-01-02 17:16:06 194 0

提示
确定要删除当前文章?
取消 删除