自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (1)
  • 收藏
  • 关注

原创 推荐系统入门

推荐系统入门推荐系统:推荐算法或者推荐机制并不严格等同推荐系统,推荐系统是一个相对复杂的业务系统,里头涉及到数据的处理、架构的构成、推荐的逻辑机制,反馈数据的回收、效果的跟踪、AB测试等等。很多我们耳熟能详的推荐算法,他只是解决的某种特定情况下的推荐机制问题,而整个系统很多时候是复合了多种算法结果,综合呈现的一种结果。推荐算法概述:一、基于内容属性的推荐比较简单的推荐

2018-01-19 17:02:26 272

原创 Spark K-means实践

K-Means聚类算法原理聚类分析是一个无监督的学习的过程,一般用来对数据对象按照其特征属性进行分组。适用场景:客户分群、欺诈检测、图像分析等领域K-Means算法是一个迭代式算法,主要步骤如下:第一步,选K个点作为初始聚类中心。第二步,计算其余所有点到聚类中心的距离,并把每个点划分到离它最近的聚类中心所在的聚类中去。第三步,重新计算每个聚类中所有点的平均直,并将其作为

2018-01-12 15:07:38 516

原创 java读写excel

之前写过spark读取excel的博客,必须要转csv,但是用java直接处理csv(涉及按“,”分割字符串,字符串中也有“,”),这种情况就很麻烦了,还不具有通用性,故重新采用jxl来处理excel.dependencies> dependency> groupId>net.sourceforge.jexcelapigroupId>

2018-01-11 18:16:47 150

原创 Spark2.1.0 向MongoDB写入json数据

需求:1、从外部文件读取json数据2、根据需求拆分数据3、利用DataFrame直接写入MongoDBSpark-Mongodb官网写入MongoDB实例 采用官网实例的方案实验,不成功,且json数据中部分字段为空,读取报错。import com.mongodb.spark.MongoSpark;import org.apache.spark.api.java.Ja

2018-01-07 22:41:19 1166

原创 Mac 安装Mangodb

安装Mangodb较简单的一种方法:使用HomeBrew安装更新homebrew的package数据库,在Mac终端中输入:brew update但是楼主遇到了一个问题 解决方案: 在终端输入xcode-select --install回车后,系统弹出下载xcode,点击确认,下载完成后即可。(实际上不是下载xcode,可能是下载xcode有关插件,下载时约1分钟

2018-01-06 21:04:44 658

原创 Spark:架构及原理

基本术语: Standalone模式下存在的角色:Client:客户端进程,负责提交作业到MasterMaster:Standalone模式下的`主控节点`,负责接收client提交的作业,管理worker,并命令worker启动Driver和Executor。Worker:Standalone模式下slave节点上的`守护进程`,负责管理本节点的资源,定期向Master汇报心跳

2018-01-06 15:08:11 346

原创 Spark与mongodb的结合

Mongodb Mongodb的安装 实验环境:ubuntu16.04安装:suso apt-get install mongodb查看版本:mongo -version启动和关闭mongodbservice mongodb startservice mongodb stopshell命令使用mongodb: mongoSpark-MongoDBM

2018-01-05 16:28:58 768

原创 Spark2.1.0 读取外部txt并以DataFrame输出

需求:使用Spark2.1.0开始Spark的开发,但是网上2.0之后的教程不多,所以自己写一个。 ps:官网的教程也有写 http://spark.apache.org/docs/2.1.0/sql-programming-guide.html#data-sources外部文件txt,文件内容:全是json串代码:import org.apache.spark.

2018-01-05 10:23:18 5500

原创 java 从zip包中抽取文件

java 解析zip中的json串

2018-01-04 11:14:42 3664 2

大数据开发面试集锦

本文收集了近年各公司大数据开发岗位的面试题,涉及Hadoop、Spark、kafka、HBASE等大数据组件相关组件

2018-09-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除