Hadoop
文章平均质量分 63
data大柳
在大数据的海洋,一条大汉在裸泳,游得飞快(∩_∩)
展开
-
深入浅出分布式(超详细)
近年来,随着机器学习的作用越来越大,开始在各行各业中扮演着重要的角色,然而,当机器学习算法在实际应用和生产中落地时,将无法避免海量的训练数据、问题复杂程度高等诸多挑战。往往我们的应对措施是使用更复杂的机器学习模型,并且还要动用分布式计算机集群来完成数据处理、模型训练等任务。分布式机器学习解决的就是如何使用计算机集群来训练大规模机器学习模型。那么如何理解分布式以及分布式机器学习呢?一、大数据与大模型的挑战互联网发展迅速,我们进入了前所未有的大数据时代,在大数据浪潮的强力推动下,有标签训练数据的规模取得了爆原创 2021-01-20 19:56:28 · 2315 阅读 · 0 评论 -
hdfs基本操作命令(完整)
查看文件常用命令命令格式hdfs dfs -ls path #查看文件列表 hdfs dfs -ls -R path #递归查看文件列表 hdfs dfs -du path #查看path下的磁盘情况,单位字节使用示例hdfs dfs -ls / #查询/目录下的所有文件和文件夹hdfs dfs -ls -R /test #以递归的方式查询/test目录下的所有文件创建文件夹命令格式hdfs dfs -mkdir path使用用例hdfs dfs -mk原创 2021-01-06 19:05:50 · 8971 阅读 · 0 评论 -
配置及执行spark、hadoop遇到的几个报错解决
报错1:问题描述:执行hadoop命令报错WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable mkdir: Permission denied: user=Devops, access=WRITE, inode="/":root:supergroup:drwxr-xr-x解决方案:在文件ha原创 2020-08-21 16:14:29 · 1105 阅读 · 0 评论 -
超详细:大数据框架Spark和Hadoop了解及对比
谈到大数据框架,现在最火的就是Hadoop和Spark,但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,倒底现在业界都在使用哪种技术?二者间究竟有哪些异同?它们各自解决了哪些问题?也总有人会问这两者谁更好的问题,而事实上,在设计之初,Hadoop和Spark是为了实现在同一个团队内的协同运行,而不是非要分出个谁优谁劣。Hadoop与Spark之间,各自有各自的优势和不足,共同运用起来才能更好地完成大数据的处理。一、介绍HadoopHadoop,是分布式管理、存储、计算的生态系统,也原创 2020-08-18 15:06:42 · 3036 阅读 · 0 评论