- 博客(9)
- 资源 (1)
- 收藏
- 关注
原创 推荐系统入门
推荐系统入门推荐系统:推荐算法或者推荐机制并不严格等同推荐系统,推荐系统是一个相对复杂的业务系统,里头涉及到数据的处理、架构的构成、推荐的逻辑机制,反馈数据的回收、效果的跟踪、AB测试等等。很多我们耳熟能详的推荐算法,他只是解决的某种特定情况下的推荐机制问题,而整个系统很多时候是复合了多种算法结果,综合呈现的一种结果。推荐算法概述:一、基于内容属性的推荐比较简单的推荐
2018-01-19 17:02:26 272
原创 Spark K-means实践
K-Means聚类算法原理聚类分析是一个无监督的学习的过程,一般用来对数据对象按照其特征属性进行分组。适用场景:客户分群、欺诈检测、图像分析等领域K-Means算法是一个迭代式算法,主要步骤如下:第一步,选K个点作为初始聚类中心。第二步,计算其余所有点到聚类中心的距离,并把每个点划分到离它最近的聚类中心所在的聚类中去。第三步,重新计算每个聚类中所有点的平均直,并将其作为
2018-01-12 15:07:38 516
原创 java读写excel
之前写过spark读取excel的博客,必须要转csv,但是用java直接处理csv(涉及按“,”分割字符串,字符串中也有“,”),这种情况就很麻烦了,还不具有通用性,故重新采用jxl来处理excel.dependencies> dependency> groupId>net.sourceforge.jexcelapigroupId>
2018-01-11 18:16:47 150
原创 Spark2.1.0 向MongoDB写入json数据
需求:1、从外部文件读取json数据2、根据需求拆分数据3、利用DataFrame直接写入MongoDBSpark-Mongodb官网写入MongoDB实例 采用官网实例的方案实验,不成功,且json数据中部分字段为空,读取报错。import com.mongodb.spark.MongoSpark;import org.apache.spark.api.java.Ja
2018-01-07 22:41:19 1166
原创 Mac 安装Mangodb
安装Mangodb较简单的一种方法:使用HomeBrew安装更新homebrew的package数据库,在Mac终端中输入:brew update但是楼主遇到了一个问题 解决方案: 在终端输入xcode-select --install回车后,系统弹出下载xcode,点击确认,下载完成后即可。(实际上不是下载xcode,可能是下载xcode有关插件,下载时约1分钟
2018-01-06 21:04:44 658
原创 Spark:架构及原理
基本术语: Standalone模式下存在的角色:Client:客户端进程,负责提交作业到MasterMaster:Standalone模式下的`主控节点`,负责接收client提交的作业,管理worker,并命令worker启动Driver和Executor。Worker:Standalone模式下slave节点上的`守护进程`,负责管理本节点的资源,定期向Master汇报心跳
2018-01-06 15:08:11 346
原创 Spark与mongodb的结合
Mongodb Mongodb的安装 实验环境:ubuntu16.04安装:suso apt-get install mongodb查看版本:mongo -version启动和关闭mongodbservice mongodb startservice mongodb stopshell命令使用mongodb: mongoSpark-MongoDBM
2018-01-05 16:28:58 768
原创 Spark2.1.0 读取外部txt并以DataFrame输出
需求:使用Spark2.1.0开始Spark的开发,但是网上2.0之后的教程不多,所以自己写一个。 ps:官网的教程也有写 http://spark.apache.org/docs/2.1.0/sql-programming-guide.html#data-sources外部文件txt,文件内容:全是json串代码:import org.apache.spark.
2018-01-05 10:23:18 5500
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人