基于spark_streaming的logistic流式机器学习

最新推荐文章于 2022-07-14 07:14:32 发布

zhangyuming010

最新推荐文章于 2022-07-14 07:14:32 发布

阅读量3.5k

点赞数

分类专栏：开源夏令营文章标签： logistic scala spark linux 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhangyuming010/article/details/38032629

版权

本文介绍了如何基于Spark Streaming实现Logistic流式机器学习。首先，通过示例展示了Spark Streaming的基本操作，然后利用C语言编写程序发送数据到Spark Streaming。接着，使用UCI的乳腺癌数据集进行实验，去除无关列和缺失值。最后，设计了一个非纯粹随机梯度下降的批量梯度下降算法，以提高模型稳定性，并展示了随着训练数据增加，模型错误率趋于稳定的结果。

摘要由CSDN通过智能技术生成

在前期搭建好spark、scala平台和学习基于python的logistic流式机器学习例程后，这一周正式基于spark做一个基于logistic的流式机器学习的实现。

一、spark streaming例程

首先尝试spark streaming指导手册中自带的例程（链接http://spark.apache.org/docs/latest/streaming-programming-guide.html），由于网上的例子比较详细，在此不过多阐述，例程主要实现的是基于流数据的单词统计功能的实现，通过不断向本机的9999端口发送英文单词，spark streaming的NetworkWordCount例程则按照一定的频率对接收到的数据按照单词出现的次数进行统计，并打印出来。如下图所示。

二、给spark streaming发送数据

由于我们要实现基于logistic模型的流式学习得将学习的数据库通过TCP网络发往spark streaming端，因此我们通过C语言编写一个读取数据文件并开启TCP端口侦听spark streaming的连接，连接成功后再不断地向spark streaming端发送数据。

数据发送端的程序流程图如下图所示。

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

zhangyuming010 CSDN认证博客专家 CSDN认证企业博客

码龄13年

14: 原创

118万+: 周排名

167万+: 总排名

6万+: 访问

: 等级

758: 积分

35: 粉丝

4: 获赞

11: 评论

30: 收藏

私信

关注

热门文章

分类专栏

开源夏令营 11篇
leetcode 3篇

最新评论

在线的PCA算法
ziuno: 我根据题目和博主的公式大概找了一下，不知道对不对，仅供参考：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5178997
在线的PCA算法
txdt: 请问博主可否发一下参考文献
“Spark上流式机器学习算法实现”终期检查报告
w飛鴻: 代码链接失效 , 可以发一份吗 ? 谢谢 ! wufhong0514@163.com
基于spark_streaming的logistic流式机器学习
向日葵先生z: 亲能交流下吗用TCP怎么和spark streaming互通
“Spark上流式机器学习算法实现”终期检查报告
kouwei7585: 看了一下Spark部分代码，对于ALS生成模型。代码里先生成了一个计算模型，后续流式计算过程中，每接到一部分数据就重新计算模型，并不能达到真正的实时效果，因为计算量越来越大，模型计算会越来越慢，这部分不知道有没有什么优化的见解，要是我理解有误请指正

大家在看

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。