HADOOP的输入处理

最新推荐文章于 2024-07-04 08:11:05 发布

QueenieK

最新推荐文章于 2024-07-04 08:11:05 发布

阅读量580

点赞数

分类专栏： Hadoop 文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yingfengfeixiang/article/details/118018255

版权

Hadoop 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、HADOOP处理多个输入文件

参数"input"设置,多个输入文件，数据格式保持一致

-input path/file1
-input path/file2
或者
-input path1,path2

二、调用文件生成数据集合的处理

1.第一种方式，地区本地文件
参数"-file", 其他数据中的预处理后与输入流join是，通过"-file"把文件传入，然后对该文件做处理。但"-file"传的是本地文件

-file text.txt

2.第二种方式，集群文件处理

# 主调函数的hadoop参数设置
hadoop_cmd='
-input path1/file1 \      #file1为处理的输入流数据
-input path2/file2 '      #file2为前期预处理数据

# mapper文件逻辑判断
if 'file1' in os.getenv('map_input_file'):
	# 文件1处理逻辑
if 'file2' in os.getenv('map_input_file'):
	# 文件1处理逻辑，其他数据处理

三、HADOOP通过文件路径获得数据日期

import os
import re
# 获取输入路径
map_input_file = os.getenv('map_input_file')
# 解析路径获取日期。一般集群存储文件以日期命名，不存储日期列名，因为会增加存储空间，造成存储空间浪费
log_date = re.search('(20[0-9]{6})/', map_input_file).group(1)

参考：hadoop多路输入

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HADOOP的输入处理

HADOOP获取文件路径
复制链接

扫一扫

专栏目录

QueenieK CSDN认证博客专家 CSDN认证企业博客

码龄9年

93: 原创

7万+: 周排名

38万+: 总排名

22万+: 访问

: 等级

2220: 积分

36: 粉丝

93: 获赞

21: 评论

543: 收藏

私信

关注

热门文章

分类专栏

shell 2篇
spark 6篇
sql 1篇
回归模型 1篇
评价指标 1篇
迁移学习
机器学习 28篇
数据结构 3篇
python 18篇
算法 45篇
Linux 3篇
Hadoop 3篇
java 1篇
面试
剑指offer 32篇
LeetCode 2篇
深度学习 2篇
数据挖掘 2篇
TensorFlow 1篇
推荐系统 1篇
特征工程 5篇

最新评论

python实现RF，并计算特征重要性
Akihiiiim: 博主你好，你分享的这个链接失效了，请问博主还有这个数据吗谢谢你
word2vec如何得到词向量
时间迁移: 按照我的理解，应该是训练好的W中的元素有正有负
随机森林，GBDT，XGBoost的对比
调参不咯: GBDT用的是gini？
word2vec如何得到词向量
qq_38634138: 用word2vec得到的词向量为什么有正有负
数据不平衡
hi_linda: 在不平衡中采样的目的是使数据最终达到平衡，采样表示对原有数据的操作，向上增多数据，向下减少数据。所以定义应该没有问题，上采样是把小众类复制多份，下采样是从大众类中剔除一些样本，或者说只从大众类中选取部分样本。

大家在看

贪心算法day29|134. 加油站（理解有难度）、135. 分发糖果、860. 柠檬水找零、406. 根据身高重建队列

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。