这是我的第一篇博文,从事IT人员这么多年得到了大家不少的帮助,以后也会向大家反馈。
废话不多说了,进入正题吧!
spark作为分布式计算框架,越来越受到企业的重视,对于从事java开发的人来说,虽然spark提供了java接口,但是基于脚本命令,如何融入自己的工程系统里,却是我们做产品人嘴关注的问题。‘
本文的主要目标是myecplise客户端通过java程序调用远程spark集群计算服务,主要集中在data处理和机器学习mllib、ml接口封装。
基本思想:通过kafka作为远程传输信息通道,服务器端Python作为agent解析Kafka传输过来的信号,同时转成spark命令从hadoop的hdfs中获取数据计算,把计算的结果保存在hdfs中。下面有两种思路来获取计算结果数据,一种是通过kafka回传数据,一种是之间通过spark自带接口向hdfs中存储,再通过java接口从hdfs中获取结果。
另一种思路是通过spark流计算的方式来监听java调用,根据使用者的实际业务需求而定。
涉及工作原因具体代码不能提供,如果我不对的地方,欢迎大牛喷!