h2o包括很多产品,h2o flow是其中一款便利的机器学习,深度学习的工具,在web UI上操作即可,不用编写代码就能轻松实现数据的挖掘(当然这也是它的弊端,不写代码肯定功能会受到一定的限制啦)。
对于flow的意思就是流的意思,其实h2o flow 的核心思想就是分成若干个cell,然后cell按照先后顺序进行flow。

这若干个cell就统称为cells,每个cell我们理解成一个模块即可,按照一个模块一个模块的执行,这样最终就可以执行到最后啦。话不多说,我们直接来实践一把:
一、下载并安装
我们在官网(http://h2o-release.s3.amazonaws.com/h2o/rel-yau/2/index.html)进行下载

然后我们把其传到linux上,进行解压(其实在Windows上使用也是可以的,毕竟java是跨平台。这是只是为了模拟生产环境)
其实flow压根用不着安装,只需要解压就可以用,只是需要执行命令即可,是官网已经给了我们jar包,我们运行jar包就可以进行使用,当然需要在linux安装jdk,最好1.8以上。
运行命令:
java -jar h2o.jar
后我们打开网页(主机ip:54321),显示这样的页面。

在这个页面我们就可以进行数据挖掘了,说明我们的启动没有问题。
二、web UI页面介绍

我们还可以在这里找到官方提供成操作案例是非常详细的(在web的右侧)。

就会来到这个页面,发现提供了几乎我们用得上的算法实践

点击这个来到导入数据的页面(我们也可以看到我们进行数据挖掘的流程刚好是导入数据,建立模型,预测。发现文档顺序也是这样是),我们可以看到

人家给我们说了,实践用到的数据基本上都可以在这个网站上进行下载,个别不是,这不影响,因为对应的example会提供





页面介绍先到这里,文章后续内容会进行补充
三、实践一下模型
(1)导入数据
导入数据很简单,我们可以点击:

也可以点击这个:

这个导入的数据都是linux的数据(因为我们的服务是在linux启动的嘛)
于是我们来到这个页面

注意:我们是可以选择文件夹的,这样import的时候,该文件夹下的数据都会被import
当然我们还可以导入我们Windows上的数据,因为我们的网页是在Windows上打开的

(2)将数据转变成统一的格式(.hex)




(3)数据切分(这一步有就切分,没有就不用啦,因为有的时候数据是需要我们切分成train和test,有的时候本来就停供了两个文件,当然我们就不用切分了)



(4)训练模型



后面的参数我就使用的默认参数,没有进行更改


(5)预测模型



h2o flow对每一种算法都停供了不同的数据图表,这里演示我用的gbm,所以图不是没那么多。
四、补充
(1)超参数
h2o flow给我们提供了便利的使用超参数,只需要想建立模型的时候勾选上既可以,比如:

然后进行勾选

我们进行添加几个数据作为超参数

于是我们建立模型后就多出来几个模型,这就是不同的超参数对应的模型

我们在建立模型的参数上看到超参数
(2)查看集群状态

因为我是单机模式,所以只有一个

(3)关闭服务

(4)列出所以模型


本文详细介绍了H2O Flow这款便捷的机器学习和深度学习工具,无需编写代码即可在Web UI上进行数据挖掘。从下载安装到实践模型,包括数据导入、格式转换、数据切分、模型训练及预测等步骤,还涵盖了超参数设置和查看集群状态等功能。
384

被折叠的 条评论
为什么被折叠?



