Hadoop和Spark
泉水豆花儿
-
Spark集群运行xgboost4j-spark总结
最近搞了2个周的xgboost4j-spark,整个人都不好了!太难了!下面说说自己遇到的主要问题吧,希望对刚开始使用xgboost4j-spark的朋友有一定的帮助。主要问题:1.先去服务器上看看要使用的spark集群是啥版本的,可能spark2.1 和 spark2.3 都支持,那样最好2.了解清楚,线上部署或者离线预测的时候用的啥版本,像我这儿只能用spark2.1,不同集群还不一样3.spark版本和xgboost4j-spark版本对应关系(很重要,不然各种奇怪的错误)sp原创 2020-06-26 21:46:25 · 4690 阅读 · 2 评论 -
Spark 本地调试 IDEA 配置
先将hdfs上的数据选择一个part或是啥的,拷贝到本地,作为本地调试的输入主要修改的是下面两个红框里面的,一个是local模式, 一个是对象需要的一些参数原创 2020-06-12 20:45:19 · 356 阅读 · 0 评论 -
CentOS 7 下搭建Hadoop分布式集群(一)
前提,具备一定的Linux命令的基础。首先,进行hostname设置,以及hostnam和ip地址的设置。注意CenOS 7的设置方式有所改变,所以说明一下。1)修改 /etc/hostnamesudo vi /etc/hostname把你想修改的主机名写入文件中,这里改成hadoop000;这里默认的为localhost.localdomain#localhost.loc...原创 2019-02-25 12:03:32 · 116 阅读 · 0 评论 -
Spark、Hadoop和MapReduce三者存在的问题
(1)Spark能否替换Hadoop?首先,Spark只是一个计算平台,本身没有提供分布式文件系统,即没有提供分布式存储和管理。现在大多Spark计算都依赖于Hadoop的分布式文件系统HDFS,以及集群资源管理器YARN。Hadoop工作原理:将作业分解成更小的任务,将数据进行分区,每一个任务实例处理一个不同的分区,任务实例并行执行。它的核心是分布式文件系统HDFS和MapReduce框...原创 2019-02-25 21:52:53 · 1093 阅读 · 0 评论 -
CentOS 7 下搭建Hadoop分布式集群(二)
ssh免密码登陆设置运行下面命令,一直Enter。记住ssh-keygen 这里没有空格!!! 否则会报错。ssh-keygen -t rsa完成之后会在/home下生成一个隐藏文件夹.ssh,可以使用ls -la查看cd .ssh/接着,ls一下查看生成下面两个文件再,使用命令生成authrized_keys 和 know_hosts文件具体如下:ssh-c...原创 2019-02-25 22:11:25 · 101 阅读 · 0 评论