- 博客(12)
- 资源 (5)
- 问答 (1)
- 收藏
- 关注
原创 RDD操作aggregate学习
//利用aggregate操作计算均值 public static void aggregateDemo(JavaSparkContext sc){ /** * 创建RDD 最简单的方式就是把程序中一个已有的集合传给SparkContext 的parallelize()方法 * Scala:val lines = sc.parallel...
2019-11-21 18:56:13 427
原创 RDD操作combineByKey学习
public static void combineByKeyDemo(JavaSparkContext sc){ // JavaPairRDD input = sc.parallelize(Arrays.asList((1,2),(4,1))); JavaPairRDD pariRdd = sc.parallelize(Arrays.asList("a a a d...
2019-11-21 18:52:08 342
原创 java.util.Arrays$ArrayList cannot be cast to java.util.Iterator
报错:java.util.Arrays$ArrayList cannot be cast to java.util.Iterator原代码JavaRDD<String> words=input.flatMap(new FlatMapFunction<String, String>() { @Override public...
2019-11-18 20:08:00 1959
原创 java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.<init>()V
原因:Stopwatch在google的guava包下,检查guava,原因就是guava包冲突解决:1、 找到guava包位置,删除多余包2、 使用spark时,可能会遇上该问题,因为spark依赖低版本的guava,删除高版本,在Maven中添加低版本guava依赖:<dependency> <groupId>com.google.guava</gr...
2019-11-18 19:07:17 4139 1
原创 Spark学习笔记(二)Spark工作模式
Spark on YARNClient模式Spark Yarn Client向YARN的ResourceManager申请启动Application Master。同时在SparkContent初始化中将创建DAGScheduler和TASKScheduler等,由于是Yarn-Client模式,程序会选择YarnClientClusterScheduler和YarnClientSchedu...
2019-11-14 20:09:17 178
原创 python开启http服务&nohup报错
Python中自带http服务器程序Python2:SimpleHTTPServerPython3:http.server基本使用在python3中使用方法是在web目录下运行命令:python -m http.server如果需要后台运行,可在命令后加"&"符号,Ctrl+C不会关闭服务如下:python -m http.server &如果要保持服务,则在命令...
2019-11-14 11:27:27 1190
转载 解决linux环境下nohup: redirecting stderr to stdout问题
转载链接:https://blog.csdn.net/educast/article/details/28273301在生产环境下启动Weblogic时,发现原来好好的nohup信息输出到指定文件中的功能,突然出问题了。现象是控制台输出的信息一部分输出到了我指定的文件,另一部分却输出到了nohup.out,而我是不想让它产生nohup.out文件,不知道是什么原因。我的启动命令是这样的:no...
2019-11-14 11:18:52 181
原创 YARN架构学习
YARN架构YARN是Hadoop2.0版本新引入的资源管理系统,直接从MR1演化而来。核心思想:将MP1中JobTracker的资源管理和作业调度两个功能分开,分别由ResourceManager(全局)和ApplicationMaster(每个应用程序都有一个)进程来实现。YARN的出现,使得多个计算框架可以运行在一个集群当中(每个应用程序对应一个ApplicationMaster)。目前可...
2019-11-09 16:20:13 467
原创 调度器学习(一)
FIFO早期的Hadoop使用FIFO(先进先出)调度算法,典型情况下,每个作业都会使用整个集群,因此其他作业必须等待。问题是有些生产作业需要及时完成,同时还要保证正在进行较小临时查询的用户能够在合理时间内得到返回结果。后来,设置了作业优先级的功能,可以通过设置mapred.job.priority属性或者JobClient的setJobPriority()方法来设置优先级。在作业调度器在选...
2019-11-09 16:13:46 184
原创 MapReduce1.0作业提交过程
客户端提交MapReduce程序到Job,job的submit()方法,创建一个JobSummiter实例,并且调用其submitJobInternal()方法。注:jobtracker是一个java应用程序,它的主类是JobTracker。Job会向jobtracker请求作业ID(通过调用JobTracker的getnewJobId()方法获取)。接下来它会做检查操作,这个检查就是确定...
2019-11-07 19:49:50 198
原创 spark学习笔记(一)基础
参考链接https://www.jianshu.com/p/3aa52ee3a802https://www.cnblogs.com/Mayny/p/9330436.htmlhttps://www.cnblogs.com/tgzhu/p/5818374.html计算框架Spark架构采用了分布式计算中的Master-Slave模型,Master是对应集群中的含有Master进程的节点,S...
2019-11-07 19:42:18 230
原创 IDEA 报错 Module is not specified
估计原因:重新导入 module时,idea没有识别出 module选项解决:Edit Configuration -> Configuration -> Use classpath of module -> 选择正确的module
2019-11-05 11:23:55 886
Spark机器学习.pdf
2019-07-17
Spring 3.x企业应用开发实战(带目录).rar
2019-07-17
SpringBoot实战(带目录).rar
2019-07-17
数据挖掘:概念与技术 原书第03版(
2017-04-24
map 和 reduce0%就失败了,能帮我看看是什么原因吗?
2017-06-13
TA创建的收藏夹 TA关注的收藏夹
TA关注的人