hadoop
fyl005
这个作者很懒,什么都没留下…
展开
-
大数据 日常操作
1、linux查看端口占用情况-- 1、查看端口占用情况netstat -tunlp | grep 8200-- 2、查看被哪个进程所占用jps | grep 进程号[root@sandbox-bigdata-1 elasticsearch]# netstat -tunlp | grep 8200tcp6 0 0 10.39.235.24:8200 :::* LISTEN 99839/java [原创 2022-04-13 11:20:10 · 2781 阅读 · 0 评论 -
向 hive 分区表中插入数据
1、创建分区表的外部表(外部表防止数据被误删)CREATE EXTERNAL TABLE IF NOT EXISTS stg_hive_es_test (id BIGINT COMMENT '主键id',road_id STRING COMMENT '路线id',road_name STRING COMMENT '路线name',road_dir_no BIGINT COMMENT '行驶方向 1:北京方向,2:雄安方向',flow double COMMENT '车流量保留2原创 2022-03-31 10:13:58 · 12077 阅读 · 0 评论 -
一键导出 hive 中所有的表结构
通过创建 shell 脚本的方式:#! /bin/bashhive -e "use stg_jinxiong; show tables;" > stg_jinxiong_tables.txtsleep 1cat stg_jinxiong_tables.txt | while read eachlinedohive -e "use stg_jinxiong; show create table ${eachline};" >> stg_jinxiong_ta原创 2022-03-21 18:08:31 · 4888 阅读 · 2 评论 -
MapReduce的优化方法:
MapReduce的优化方法:从以下6个方面着手考虑:1、数据输入map端数据输入时主要需要考虑的是小文件(因为hadoop默认的切片原则是按文件进行的)的问题:针对小文件的问题我们有如下两种解决方案:(1)合并小文件:在map读取数据任务开始前,可以人工的对小文件进行一个合并,合并成一个大文件。(2)采用CombineTextInputFormat的方式读取文件。关于该机制的介绍如下:hadoop框架默认的TextInputFormat切片机制是对任务按文件规划切片,不管文原创 2020-08-23 17:44:02 · 523 阅读 · 0 评论 -
hadoop数据压缩的选择和比较
hadoop数据压缩的选择和比较MR支持的压缩编码为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器:压缩性能的比较:压缩算法 原始文件大小 压缩文件大小 压缩速度 解压速度 gzip 8.3GB 1.8GB 17.5MB/s 58MB/s bzip2 8.3GB 1.1GB 2.4MB/s 9.5MB/s LZO 8.3GB 2.9GB 49.3MB/s ..原创 2020-08-23 17:08:04 · 522 阅读 · 0 评论