spark
abothli
拥有五年的开发工作经验,曾从事过开发,分析,算法,人工智能,机器学习,运维的相关开发工作。
展开
-
spark中sqlcontext的用法
vi people.json{"name":"zhangsan","job number":"101","age":33,"gender":"male","deptno":1,"sal":18000}{"name":"lisi","job number":"10原创 2018-07-06 02:14:43 · 13554 阅读 · 1 评论 -
flume到spark-streaming时遇到Failed to bind to: /IP:PORT错误时解决办法
spark-streaming连接flume时报错org.jboss.netty.channel.ChannelException: Failed to bind to: /IP:PORT连接flume是通过JavaReceiverInputDStream<SparkFlumeEvent> flumeStream = FlumeUtils.createStream(jssc, ...原创 2018-08-23 22:09:52 · 1275 阅读 · 1 评论 -
CDH5.15.0升级spark2服务
严格来说不是将spark1.6升级到spark2.3,而是安装一个新的spark2.3一、JDK1.7升级到JDK1.8由于之前CDH中安装了spark1.6,为了适配,我安装jdk1.7,但是在spark2.3中jdk1.7的支持已经被移除了,所以我们第一件事需要将jdk版本升级到jdk1.81、停掉所有节点的cloudera manager/opt/cm-5.15.0/etc...原创 2018-08-22 17:18:41 · 3778 阅读 · 2 评论 -
pycharm远程连接Linux pyspark
1、确保remote端Python、spark安装正确 设置必要的环境变量2、本地Pycharm设置File > Settings > Project Interpreter:Project Interpreter > Add remote(前提:remote端python安装成功):注意,这里的Python路径为python interpreter p...原创 2018-08-26 15:53:07 · 1904 阅读 · 0 评论 -
在centos7离线安装CDH5.15
一、配置hostname和hosts1. 三台机器分别设置hostname为(需要重启ECS):master.bd.cn slave1.bd.cn slave2.bd.cn2. 然后三台的/etc/hosts统一配置如下映射:<master.bd.cn的内网IP> master.bd.cn<slave1.bd.cn的内网IP> slave1.bd....原创 2018-08-14 16:04:16 · 5414 阅读 · 1 评论 -
Scala的编程基础
Scala编程基础1.声明变量package cn.itcast.scala /** * Created by ZX on 2015/11/6. */ object VariableDemo { def main(args: Array[String]) { //使用val定义的变量值是不可变的,相当于java里用final修饰的变量 val i = 1...原创 2018-07-07 00:34:05 · 347 阅读 · 0 评论 -
Scala编译器的安装
1. Scala编译器安装1.1. 安装JDK因为Scala是运行在JVM平台上的,所以安装Scala之前要安装JDK1.2. 安装Scala1.2.1. Windows安装Scala编译器访问Scala官网http://www.scala-lang.org/下载Scala编译器安装包,目前最新版本是2.12.x,但是目前大多数的框架都是用2.10.x编写开发的,所以这里推荐2.10.x版本,...原创 2018-07-07 00:33:52 · 2503 阅读 · 0 评论 -
什么吗是Scala?为什么要学Scala?
ScalaScala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。1.优雅:这是框架设计师第一个要考虑的问题,框架的用户是应用开发程序员,API是否优雅直接影响用户体验。2.速度快:Scala语言表达能力强,一行代码抵得上Java多行,开发速度快;Scala是静态编译的,所以和JRuby,G...原创 2018-07-07 00:31:35 · 5492 阅读 · 0 评论 -
spark的搭建
spark 安装模式local(本地模式):常用于本地开发测试,本地还分为local单线程和local-cluster多线程standalone(集群模式):典型的Mater/slave模式,不过也能看出Master是有单点故障的;Spark支持ZooKeeper来实现 HAon yarn(集群模式): 运行在 yarn 资源管理器框架之上,由 yarn 负责资源管理,Spark 负责任务调度和计...原创 2018-07-07 00:30:50 · 141 阅读 · 0 评论 -
yarn资源调度参数配置(内存,cpu)
Hadoop YARN同时支持内存和CPU两种资源的调度(默认只支持内存,如果想进一步调度CPU,需要自己进行一些配置),本文将介绍YARN是如何对这些资源进行调度和隔离的。在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManager中的调度器负责资源的分配,而NodeManager则负责资源的供给和隔离。ResourceMan...原创 2018-10-25 11:05:11 · 1402 阅读 · 0 评论