myecplise连接Spark集群接口封装

这是我的第一篇博文,从事IT人员这么多年得到了大家不少的帮助,以后也会向大家反馈。

废话不多说了,进入正题吧!


spark作为分布式计算框架,越来越受到企业的重视,对于从事java开发的人来说,虽然spark提供了java接口,但是基于脚本命令,如何融入自己的工程系统里,却是我们做产品人嘴关注的问题。‘

 本文的主要目标是myecplise客户端通过java程序调用远程spark集群计算服务,主要集中在data处理和机器学习mllib、ml接口封装。


基本思想:通过kafka作为远程传输信息通道,服务器端Python作为agent解析Kafka传输过来的信号,同时转成spark命令从hadoop的hdfs中获取数据计算,把计算的结果保存在hdfs中。下面有两种思路来获取计算结果数据,一种是通过kafka回传数据,一种是之间通过spark自带接口向hdfs中存储,再通过java接口从hdfs中获取结果。

另一种思路是通过spark流计算的方式来监听java调用,根据使用者的实际业务需求而定。


涉及工作原因具体代码不能提供,如果我不对的地方,欢迎大牛喷!




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值