自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (5)
  • 问答 (1)
  • 收藏
  • 关注

原创 RDD操作aggregate学习

//利用aggregate操作计算均值 public static void aggregateDemo(JavaSparkContext sc){ /** * 创建RDD 最简单的方式就是把程序中一个已有的集合传给SparkContext 的parallelize()方法 * Scala:val lines = sc.parallel...

2019-11-21 18:56:13 411

原创 RDD操作combineByKey学习

public static void combineByKeyDemo(JavaSparkContext sc){ // JavaPairRDD input = sc.parallelize(Arrays.asList((1,2),(4,1))); JavaPairRDD pariRdd = sc.parallelize(Arrays.asList("a a a d...

2019-11-21 18:52:08 314

原创 java.util.Arrays$ArrayList cannot be cast to java.util.Iterator

报错:java.util.Arrays$ArrayList cannot be cast to java.util.Iterator原代码JavaRDD<String> words=input.flatMap(new FlatMapFunction<String, String>() { @Override public...

2019-11-18 20:08:00 1918

原创 java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.<init>()V

原因:Stopwatch在google的guava包下,检查guava,原因就是guava包冲突解决:1、 找到guava包位置,删除多余包2、 使用spark时,可能会遇上该问题,因为spark依赖低版本的guava,删除高版本,在Maven中添加低版本guava依赖:<dependency> <groupId>com.google.guava</gr...

2019-11-18 19:07:17 3993 1

原创 Spark学习笔记(二)Spark工作模式

Spark on YARNClient模式Spark Yarn Client向YARN的ResourceManager申请启动Application Master。同时在SparkContent初始化中将创建DAGScheduler和TASKScheduler等,由于是Yarn-Client模式,程序会选择YarnClientClusterScheduler和YarnClientSchedu...

2019-11-14 20:09:17 168

原创 python开启http服务&nohup报错

Python中自带http服务器程序Python2:SimpleHTTPServerPython3:http.server基本使用在python3中使用方法是在web目录下运行命令:python -m http.server如果需要后台运行,可在命令后加"&"符号,Ctrl+C不会关闭服务如下:python -m http.server &如果要保持服务,则在命令...

2019-11-14 11:27:27 1139

转载 解决linux环境下nohup: redirecting stderr to stdout问题

转载链接:https://blog.csdn.net/educast/article/details/28273301在生产环境下启动Weblogic时,发现原来好好的nohup信息输出到指定文件中的功能,突然出问题了。现象是控制台输出的信息一部分输出到了我指定的文件,另一部分却输出到了nohup.out,而我是不想让它产生nohup.out文件,不知道是什么原因。我的启动命令是这样的:no...

2019-11-14 11:18:52 163

原创 YARN架构学习

YARN架构YARN是Hadoop2.0版本新引入的资源管理系统,直接从MR1演化而来。核心思想:将MP1中JobTracker的资源管理和作业调度两个功能分开,分别由ResourceManager(全局)和ApplicationMaster(每个应用程序都有一个)进程来实现。YARN的出现,使得多个计算框架可以运行在一个集群当中(每个应用程序对应一个ApplicationMaster)。目前可...

2019-11-09 16:20:13 393

原创 调度器学习(一)

FIFO早期的Hadoop使用FIFO(先进先出)调度算法,典型情况下,每个作业都会使用整个集群,因此其他作业必须等待。问题是有些生产作业需要及时完成,同时还要保证正在进行较小临时查询的用户能够在合理时间内得到返回结果。后来,设置了作业优先级的功能,可以通过设置mapred.job.priority属性或者JobClient的setJobPriority()方法来设置优先级。在作业调度器在选...

2019-11-09 16:13:46 172

原创 MapReduce1.0作业提交过程

客户端提交MapReduce程序到Job,job的submit()方法,创建一个JobSummiter实例,并且调用其submitJobInternal()方法。注:jobtracker是一个java应用程序,它的主类是JobTracker。Job会向jobtracker请求作业ID(通过调用JobTracker的getnewJobId()方法获取)。接下来它会做检查操作,这个检查就是确定...

2019-11-07 19:49:50 183

原创 spark学习笔记(一)基础

参考链接https://www.jianshu.com/p/3aa52ee3a802https://www.cnblogs.com/Mayny/p/9330436.htmlhttps://www.cnblogs.com/tgzhu/p/5818374.html计算框架Spark架构采用了分布式计算中的Master-Slave模型,Master是对应集群中的含有Master进程的节点,S...

2019-11-07 19:42:18 215

原创 IDEA 报错 Module is not specified

估计原因:重新导入 module时,idea没有识别出 module选项解决:Edit Configuration -> Configuration -> Use classpath of module -> 选择正确的module

2019-11-05 11:23:55 862

Spark机器学习.pdf

每章都设计了案例研究,以机器学习算法为主线,结合实例探讨了Spark 的实际应用。书中没有让人抓狂的数据公式,而是从准备和正确认识数据开始讲起,全面涵盖了推荐系统、回归、聚类、降维等经典的机器学习算法及其实际应用

2019-07-17

Spring 3.x企业应用开发实战(带目录).rar

本书是在《精通Spring 2.x——企业应用开发详解》的基础上,经过历时一年的重大调整改版而成的,本书延续了上一版本追求深度,注重原理,不停留在技术表面的写作风格,力求使读者在熟练使用Spring的各项功能的同时,还能透彻理解Spring的内部实现,真正做到知其然知其所以然。此外,本书重点突出了“实战性”的主题,力求使全书“从实际项目中来,到实际项目中去”。

2019-07-17

SpringBoot实战(带目录).rar

本书以Spring应用程序开发为中心,全面讲解如何运用Spring Boot提高效率,使应用程序的开发和管理更加轻松有趣。作者行文亲切流畅,以大量示例讲解了Spring Boot在各类情境中的应用,内容涵盖起步依赖、Spring Boot CLI、Groovy、Grails、Actuator。对于Spring Boot开发应用中较为繁琐的内容,附录奉上整理完毕的表格,一目了然,方便读者查阅。

2019-07-17

数据挖掘:概念与技术 原书第03版(

2017-04-24

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除