自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 maven基本应用小记

maven,最强大的功能就是自动包依赖管理。包的引用依赖是复杂的、层次的、网状的,人工进行打包会耗费大量精力,这也是maven所专注解决的事情,让包管理变得eary。我一直对打包有明确的需求,却不会使用maven来实现这些清晰的任务点:环境上没有的包,在编译打包时要一起打入jar包;环境上已经有的包,在编译打包时,忽略。原因很简单,程序需要找到所有的依赖的jar包才能运行,否则会运行错误,此处,有些

2016-11-16 15:07:21 310

原创 scala开发spark应用程序

之前开发spark程序,一般会使用java作为开发语言,主要是由于惯性,对于java的那一套比较熟悉,不愿意去接触scala这一套东西,但是最近发现很多示例程序都是以scala写的,因此,未雨绸缪,早做些scala方面的了解。先说些环境方面的准备及概念上理解的误区。目前开发在mac平台上使用intellij idea的比较多。因此我也主要以idea为开发工具,其集成了maven,sbt,scala

2016-11-15 18:13:15 978

原创 XGBoost工程探索小记

由于工作需要,最近接触xgboost,尝试使用xgboost来提升推荐博文点击预测的准确度,因此对xgboost进行了一段时间的工程探索。由于有现成的spark集群,使用其提供的xgboost4j-spark方案来进行处理会方便很多,对集群的改动和要求很少,只要打好包进行上传即可运行。但是发现坑很多,并且这方面xgboost做法并不是很成熟。具体有以下几个坑:xgboost与平台强相关,没有已经编

2016-11-15 16:29:30 541

原创 java编写的hadoop wordcount,单MR任务实现按照词频排序输出结果

由于之前写MR任务都是采用Streamming方式,以python语言编写,因此对于整个MR的过程细节要求不高,也不需要理解。但是java作为hadoop的原生语言,无论是性能效率、规范性、输出工具的易用性和完整性上,都是python无法比拟的,因此学习如何采用java进行编写MR任务。第一个WordCount任务就遇到了麻烦,单纯的进行词频统计是非常简单的,但是如果要将最后的结果按照频次排序倒序输

2016-10-11 11:18:51 1878

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除