hadoop
文章平均质量分 61
GrowthDiary007
我一名在校大学生,也是一名程序员,热爱学习,热爱编程,热爱分享。
展开
-
WordCount Python版(整理)
突然间想起来,之前用过Python版的`WordCount`,之前没有做整理,现在想想还不晚,整理一下,说不定以后还会用到。`MapReduce `我最近用的不多了,但是感觉不少业务场景,都可在`WordCount` 的基础上改进实现。Python 具体实现(一个shell 脚本、一个Python脚本):原创 2020-01-05 22:28:25 · 1567 阅读 · 0 评论 -
Hive 行转列 一个有趣的案例
Hive 行转列 一个有趣的案例业务场景:今天,使用hive表做特征数据集,有这么一个需求,有 db.Table1 如下表,course 字段共有3个值,但这,并不是所有的学生都选择了这三门课程,为训练模型,要把这些窄表变成宽表,把没选择课程设为0分,输出结果如下db.Table2。SQL门外汉,差点难死,还好有小伙伴支持。db.Table1student_idcoursesc...原创 2019-04-29 23:11:42 · 901 阅读 · 0 评论 -
LeetCode:934. Shortest Bridge - Python
问题描述:934. 最短的桥在给定的二维二进制数组A中,存在两座岛。(岛是由四面相连的1形成的一个最大组)现在,我们可以将0 变为1,以使两座岛连接起来,变成一座岛。返回必须翻转的 0的最小数目。(可以保证答案至少是1)示例 1:输入:[[0,1],[1,0]]输出:1示例 2:输入:[[0,1,0],[0,0,0],[0,0,1]]输出:2示例 3:输入:[[1...原创 2018-12-01 11:41:23 · 632 阅读 · 0 评论 -
使用Eclipse搭建Hadoop编程环境
在前人的基础上,进行总结学习,发现bug,修改bug系统平台:Ubuntu14.04TLS(64位)Hadoop环境:Hadoop2.7.1Eclipse:Neon.2 Release(4.6.2)Eclipse插件:hadoop-eclipse-plugin-2.7.1.jar一.编译环境搭建1.在eclipse上安装Hadoop插件把下载好的hadoop-eclipse-plugin-2.7.1.jar文件拷贝到ecli原创 2017-03-18 15:23:49 · 11778 阅读 · 4 评论 -
ubuntu部署hadoop2.7.1之单机模式与伪分布式模式
单机模式(standalone)单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。原创 2017-01-20 21:01:55 · 781 阅读 · 0 评论 -
基于hadoop的矩阵乘法(学习笔记)
1.准备数据下面时两个简单的矩阵: ,不难看出相乘结果为:2.在HDFS上的存储方式 因为大矩阵一般为稀疏矩阵,因此,我们可以采用稀疏矩阵的存储方式,只存储那些非零的数值。存储矩阵的文件每一条记录的结构如下:所以,矩阵A为(文件ytu_a):1 1 11 2 21 3 32 1 42 2 53 1 73 2 83 3原创 2015-03-30 17:17:54 · 6172 阅读 · 6 评论 -
hadoop非mapreduce过程对hdfs文件的读写
package cn.ytu.hdfsrwfile;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.原创 2015-03-22 11:14:27 · 2500 阅读 · 0 评论 -
hadoop程序抛出异常:java.lang.IllegalArgumentException: Wrong FS: hdfs:/ expected file:///
在eclipse上运行如下java 代码如下: Configuration conf = new Configuration(); FileSystem hdfs = FileSystem.get(conf); Path inPath = new Path(path); // FSDataInputStream dis = hdfs.open(inPath);出现如下异原创 2015-03-22 10:18:00 · 3472 阅读 · 0 评论 -
Ubuntu环境Hadoop全分布式环境搭建 (学习笔记)
一 、准备工作原创 2014-10-05 16:27:10 · 1907 阅读 · 0 评论 -
Ubuntu 两台电脑用网线搭建一个局域网(学习笔记)
1、新建一个以太网连接:原创 2014-10-05 15:50:30 · 9913 阅读 · 0 评论 -
Hadoop学习之mapreduce:Shuffle 过程笔记
不少关于Hadoop的书籍都提到过, Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的(《Hadoop云计算实战》)。查看过很多书籍,介绍的或多或少有一些差异,我想这是作者外文翻译的原因,例如 Spill 有的翻译成 “溢写”有的翻译为“分割”(本人认为“溢写”比较好)。对于shuffle的逻辑,看的多了反而越混。所以原创 2014-09-01 17:35:34 · 1263 阅读 · 1 评论 -
Hadoop 之 Sort 排序 (星星笔记)
自从学习了hadoop之后,现在想想还没有怎么整理过自己写过的代码和读过的代码,今天就做一个整理吧,纪念一下。Sort (单词计数)程序 就像我们刚刚开始学习程序一样,写一个 helloworld程序一样。原创 2014-09-11 17:07:39 · 1507 阅读 · 0 评论 -
Hadoop 之 Wordcount 单词计数 (学习笔记)
自从学习了hadoop之后,现在想想还没有在原创 2014-09-09 07:14:02 · 1250 阅读 · 0 评论 -
Hadoop 之 数据去重(星星笔记)
1.问题描述输入文件file1:原创 2014-09-19 21:41:28 · 2144 阅读 · 0 评论 -
Ubuntu下 ssh : connect to host localhost port 22:Connection refused
Ubuntu下测试ssh时使用ssh localhost 命令,出现错误提示connect to host localhost port 22:Connection refused 造成这个错误的原因可能是ssh-server未安装或者未启动。ubuntu 11.10 默认安装openssh-client,但是木有安装server 运行 ps -e | grep ssh,查看是否有转载 2014-09-06 11:37:10 · 1045 阅读 · 0 评论 -
ubuntu部署hadoop之单机模式与伪分布式模式(个人笔记)
单机模式(standalone)单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。原创 2014-09-06 11:29:25 · 1044 阅读 · 0 评论