大数据与云计算
文章平均质量分 71
大数据与云计算
舒克与贝克
AI 学习与生活
展开
-
[Kubernetes]k8s部署minio单机版
默认账号/密码:minioadmin/minioadmin。原创 2023-06-12 18:09:55 · 691 阅读 · 0 评论 -
[Kubernetes]使用开源工具 k8tz设置 Pod 时区
然后将emptyDir挂载到 Pod 每个容器的 /etc/localtime和 /usr/share/zoneinfo。为了确保所需的时区有效,它向所有容器添加了 TZ环境变量。在主机的内核上运行,并获得时钟,但时区不是来自内核,而是来自用户空间。时区的不一致,会带来很多困扰。一些应用程序使用机器的时区作为默认时区,并希望用户设置时区。下载与保存相关文件copy到真正在安装的集群机器上。在一台可以联网的机器上下载与保存相关文件。中容器的时区不一致时,管理会很不容易。创建 Pod 的过程。原创 2023-03-27 14:23:43 · 608 阅读 · 0 评论 -
[Spark]PySpark入门学习教程---例子RDD与DataFrame
原创 2022-02-15 16:44:11 · 1126 阅读 · 0 评论 -
[Hadoop] mac搭建hadoop3.X 伪分布模式
首先需要安装一个mac神器:Homebrew,相信使用mac的童鞋都知道吧!Homebrew是一个包管理器,是Mac上的软件安装管理工具,类似于Linux中的apt-get,拥有安装、卸载、更新、查看等很多实用的功能。简单的一条指令,就可以实现包管理,十分方便....原创 2022-01-11 12:16:35 · 1562 阅读 · 1 评论 -
[Spark]PySpark入门学习教程---RDD介绍(2)
一 RDDpyspark.RDD:http://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.html#pyspark.RDD本节将介绍RDD数据结构的常用函数。包括如下内容:创建RDD 常用Action操作 常用Transformation操作 常用PairRDD的转换操作 缓存操作 共享变量 分区操作这些函数中,常用的是如下15个函数,需要认真掌握其用法。map flatMap m.原创 2021-04-17 13:41:16 · 735 阅读 · 0 评论 -
[Spark]PySpark入门学习教程---介绍(1)
一 安装指引安装这块本文就不展开具体的步骤了,毕竟大家的机子环境都不尽相同。不过可以简单说几点重要的步骤,然后节末放上一些安装示例供大家参考。1)要使用PySpark,机子上要有Java开发环境2)环境变量记得要配置完整3)Mac下的/usr/local/ 路径一般是隐藏的,PyCharm配置py4j和pyspark的时候可以使用 shift+command+G 来使用路径访问。4)Mac下如果修改了 ~/.bash_profile 的话,记得要重启下PyCharm才会生效的哈5)版原创 2021-04-16 18:45:08 · 5136 阅读 · 0 评论 -
[Kubernetes] 在K8S上部署MySQL 8.0并数据持久化
在K8S上安装MySQL1、创建PVapiVersion: v1kind: PersistentVolumemetadata: name: model-db-pvspec: accessModes: - ReadWriteOnce capacity: storage: 5Gi claimRef: apiVersion: v1 kind: PersistentVolumeClaim name: model-db-pv-claim na原创 2021-01-05 17:06:10 · 8693 阅读 · 0 评论 -
[大数据]PySpark原理与基本操作
spark的flatMapflatMap,有着一对多的表现,输入一输出多。并且会将每一个输入对应的多个输出整合成一个大的集合,当然不用担心这个集合会超出内存的范围,因为spark会自觉地将过多的内容溢写到磁盘。当然如果对运行的机器的内存有着足够的信心,也可以将内容存储到内存中。spark的map用同样的方法来展示map操作,与flatMap不同的是,map通常是一对一,即输入一个,对应输出一个。但是输出的结果可以是一个元组,一个元组则可能包含多个数据,但是一个元组是一个整体,因此算是一个元素原创 2020-07-20 17:00:39 · 1886 阅读 · 2 评论 -
[HIVE] shell调用hive客户端导致nohup后台进程stopped
nohup启动java进程调用shell执行hive客户端命令导致nohup进程stopped,java进程消失了。环境变量增加如下之后解决。export HADOOP_CLIENT_OPTS="$HADOOP_CLIENT_OPTS -Djline.terminal=jline.UnsupportedTerminal"看网上说:如果后台程序试图读取终端,这并不是一个错误,但是终端驱动程序将检测这种情况,并向后台作业发送一个特定信号SIGTTIN,该信号会停止此后台程序,并向用户发送通知。.原创 2020-06-16 12:24:32 · 1339 阅读 · 4 评论 -
[Docker] Centos7 安装docker-18.03.1-ce(离线安装)
一、引言为了实现离线安装docker-18.03.1-ce这个想法,我遍寻网络,什么 RPM 搜索大法啦,yum local install 方法啦,都是复杂到不行。二、终极解决直接上网址:Install Docker CE from binaries (官方文档:通过二进制包安装 docker 社区版)简单介绍下安装步骤:1. 通过 FileZilla 等文件传输工具将 docker-18.03.1-ce.tar 放到用户目录下,并移动到该目录执行下述命令解压二进制包$ ...原创 2020-05-26 11:04:34 · 6089 阅读 · 1 评论 -
[Kubernetes] Taint和Toleration(污点和容忍)
Taint(污点)和 Toleration(容忍)可以作用于 node 和 pod 上,其目的是优化 pod 在集群间的调度,这跟节点亲和性类似,只不过它们作用的方式相反,具有 taint 的 node 和 pod 是互斥关系,而具有节点亲和性关系的 node 和 pod 是相吸的。另外还有可以给 node 节点设置 label,通过给 pod 设置 nodeSelector 将 pod 调度...原创 2019-11-28 10:43:09 · 778 阅读 · 0 评论 -
[kubernetes] 常用命令总结
1.1 Common CommandsName Command Run curl test temporarily kubectl run --rm mytest --image=yauritux/busybox-curl -it Run wget test temporarily kubectl run --rm mytest --image=busybox -it...转载 2019-11-13 12:15:23 · 1181 阅读 · 0 评论 -
[kubernetes] kubectl proxy 让外部网络访问K8S service的ClusterIP
使用kubectl proxy命令就可以使API server监听在本地的8001端口上:$ kubectl proxy --port=8009Starting to serve on 127.0.0.1:8009如果想通过其它主机访问就需要指定监听的地址:$ kubectl proxy --address=0.0.0.0 --port=8009Starting to ser...原创 2019-02-21 17:36:16 · 35232 阅读 · 2 评论 -
[Kubernetes] 如何关联PVC到特定的PV
如何关联pvc到特定的pv?我们可以使用对 pv 打 label 的方式,具体如下:创建 pv,指定 label[root@server PV]# cat pv-test1.yaml kind: PersistentVolumeapiVersion: v1metadata: name: test1-pv namespace: kubeflow labels: ...原创 2019-03-01 11:00:59 · 4679 阅读 · 0 评论 -
[kubernetes] 解决k8s.gcr.io Image 导入导出 等问题
k8s.gcr.io Pull失败安装新版本的Kubernetes过程中,需要从k8s.grc.io仓库中拉取所需镜像文件,但由于GFW导致无法正常拉取本文将介绍如何绕过此问题,来完成业务的部署。 [ERROR ImagePull]: failed to pull image k8s.gcr.io/kube-apiserver:v1.14.1 [ERROR ImageP...原创 2019-04-15 14:25:36 · 2783 阅读 · 0 评论 -
[kubernetes] 资源管理 ---- 资源请求和限制
当Kubernetes调度Pod时,容器是否有足够的资源来实际运行是很重要的。 如果大型应用程序被调度到资源有限的节点上,则节点可能会耗尽内存或CPU资源,并且可能会停止工作!请求和限制请求和限制是Kubernetes用于控制CPU和内存等资源的机制。 请求是保证容器能够得到的资源。 如果容器请求资源,Kubernetes会将其调度到可以为其提供该资源的节点上。 另一方面,限制则是确...原创 2019-06-05 11:20:27 · 1641 阅读 · 0 评论 -
[kubernetes] Schedule --- Node调度与隔离
目录1. NodeSelector2. 亲和与反亲和 Affinity and Anti-affinity节点Node 亲和性pod 亲和性和反亲和性3. 污点(Taints)与容忍(tolerations)1、设置污点:2、去除污点:3、Pod 容忍污点示例:4. effect的类型5. 使用场景1. NodeSelector如果需要限制Pod到...原创 2019-05-29 14:24:51 · 2828 阅读 · 1 评论 -
[kubernetes] 证书详细总结
目录一 证书简介二 证书类型分类三 证书说明四 TLSbootstrapping简化kubelet证书制作五 证书制作步骤1 创建CA证书2 创建K8S证书2.1. 创建kubernetes证书2.2 创建kube-controller-manager证书2.3 创建kube-scheduler证书3 创建ADMIN证书4 创建ETC...原创 2019-09-23 18:46:37 · 5807 阅读 · 2 评论 -
使用Hadoop Streaming 完成MapReduce(Python代码)
一 Map和Reduce 首先看下MR的工作原理 MapReduce的好处是它可以把在内存中不能完成的事转变成可以在硬盘上高效完成。Map-‐Reduce 对于集群的好处:1,在多节点上冗余地存储数据,以保证数据的持续性和一直可取性2, 将计算移向数据端,以最大程度减少数据移动3,简单的程序模型隐藏所有的复杂度Map,Reduce一般的流程:Map阶段:a, 逐...原创 2018-12-14 11:25:32 · 2752 阅读 · 0 评论