- 博客(3)
- 收藏
- 关注
原创 MapReduce wordcount 编程本地和服务器运行
MapReduce:一个分布式计算框架;并行处理 优点:扩展性、容错性、数据量级、批/离线处理(要处理的数据是固定的) 缺点:慢:模型(Task是进程级别)、磁盘、IO;不适合实时/流式:数据源是源源不断的 ;不适合多次迭代 wc:词频统计 一组文件,求每个单词出现的次数 把文件的内容读取处理,按照分隔符进行切分 每个单词赋值为1 a,a,a b,b c 转变 (a,1) (a,1) (a...
2020-02-09 17:54:35 129
原创 hive部署启动
1.部署MySQL及创建hive用户(服务器已经装好mysql) mysql> grant all privileges on *.* to hive@'%' identified by 'hadoop'; Query OK, 0 rows affected, 1 warning (0.00 sec) mysql> flush privileges; Query OK, 0 r...
2020-01-11 15:12:02 231
原创 常用大数据linux命令积累
1. find 查找jar包 a:不管当前路径,查找根目录$HOME中文件名符合*.txt的文件 $ find ~ -name "*.txt" -print b: 查找当前目录及子目录中所有的‘ *.txt’文件 $ find . -name "*.txt" -print 2. 查看具体进程 jps -m -l 3.查看所有的端口号 netstat 4.查看某个...
2020-01-11 13:57:57 91
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人