自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

haizhu的博客

大数据

  • 博客(3)
  • 收藏
  • 关注

原创 MapReduce wordcount 编程本地和服务器运行

MapReduce:一个分布式计算框架;并行处理 优点:扩展性、容错性、数据量级、批/离线处理(要处理的数据是固定的) 缺点:慢:模型(Task是进程级别)、磁盘、IO;不适合实时/流式:数据源是源源不断的 ;不适合多次迭代 wc:词频统计 一组文件,求每个单词出现的次数 把文件的内容读取处理,按照分隔符进行切分 每个单词赋值为1 a,a,a b,b c 转变 (a,1) (a,1) (a...

2020-02-09 17:54:35 129

原创 hive部署启动

1.部署MySQL及创建hive用户(服务器已经装好mysql) mysql> grant all privileges on *.* to hive@'%' identified by 'hadoop'; Query OK, 0 rows affected, 1 warning (0.00 sec) mysql> flush privileges; Query OK, 0 r...

2020-01-11 15:12:02 231

原创 常用大数据linux命令积累

1. find 查找jar包 a:不管当前路径,查找根目录$HOME中文件名符合*.txt的文件 $ find ~ -name "*.txt" -print b: 查找当前目录及子目录中所有的‘ *.txt’文件 $ find . -name "*.txt" -print 2. 查看具体进程 jps -m -l 3.查看所有的端口号 netstat 4.查看某个...

2020-01-11 13:57:57 91

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除