wildfire8966-CSDN博客

原创 maven基本应用小记

maven，最强大的功能就是自动包依赖管理。包的引用依赖是复杂的、层次的、网状的，人工进行打包会耗费大量精力，这也是maven所专注解决的事情，让包管理变得eary。我一直对打包有明确的需求，却不会使用maven来实现这些清晰的任务点：环境上没有的包，在编译打包时要一起打入jar包；环境上已经有的包，在编译打包时，忽略。原因很简单，程序需要找到所有的依赖的jar包才能运行，否则会运行错误，此处，有些

2016-11-16 15:07:21 310

原创 scala开发spark应用程序

之前开发spark程序，一般会使用java作为开发语言，主要是由于惯性，对于java的那一套比较熟悉，不愿意去接触scala这一套东西，但是最近发现很多示例程序都是以scala写的，因此，未雨绸缪，早做些scala方面的了解。先说些环境方面的准备及概念上理解的误区。目前开发在mac平台上使用intellij idea的比较多。因此我也主要以idea为开发工具，其集成了maven，sbt，scala

2016-11-15 18:13:15 978

原创 XGBoost工程探索小记

由于工作需要，最近接触xgboost，尝试使用xgboost来提升推荐博文点击预测的准确度，因此对xgboost进行了一段时间的工程探索。由于有现成的spark集群，使用其提供的xgboost4j-spark方案来进行处理会方便很多，对集群的改动和要求很少，只要打好包进行上传即可运行。但是发现坑很多，并且这方面xgboost做法并不是很成熟。具体有以下几个坑：xgboost与平台强相关，没有已经编

2016-11-15 16:29:30 541

原创 java编写的hadoop wordcount，单MR任务实现按照词频排序输出结果

由于之前写MR任务都是采用Streamming方式，以python语言编写，因此对于整个MR的过程细节要求不高，也不需要理解。但是java作为hadoop的原生语言，无论是性能效率、规范性、输出工具的易用性和完整性上，都是python无法比拟的，因此学习如何采用java进行编写MR任务。第一个WordCount任务就遇到了麻烦，单纯的进行词频统计是非常简单的，但是如果要将最后的结果按照频次排序倒序输

2016-10-11 11:18:51 1878

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人