Pig在hadoop中的运用

Eroer6

已于 2024-05-21 11:23:19 修改

阅读量268

点赞数 8

文章标签： java hadoop 大数据

于 2024-05-19 23:05:21 首次发布

本文链接：https://blog.csdn.net/weixin_75113709/article/details/139047625

版权

hadoop集群

master操作

第一步：为我们要用于hadoop集群的文件创建一个文件夹

hdfs dfs -mkdir -p /usr/local/hadoop3/Info

第二步：检查一下文件夹创建成功否

hdfs dfs -ls /usr/local/hadoop3/

第三步：将我们需要使用的txt文本传入我们指定的位置

hdfs dfs -put travel.txt /usr/local/hadoop3/Info/

第四步：检查文件是否传入成功

hdfs dfs -ls travel.txt /usr/local/hadoop3/Info/

第五步：写一下test01.pig的内容

hadoop@master:/usr/local/pig/testInfo$ vim hdtest01.pig

test01=load 'hdfs://master:8020/usr/local/hadoop3/Info/travel.txt' using PigStorage(',');
dump test01

第六步：在master开启historyserver

mapred --daemon start historyserver

这里因为我的hadoop版本是3.3.5不适配原本的：mr-jobhistory-daemon.sh start historyserver

第七步：jps测试historyserver是否启动成功

可以看到JobHistoryServer说明启动成功

第八步：运行hdtest02.pig

pig -x mapreduce hdtest01.pig

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Eroer6

关注关注

8
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Hadoop-Pig介绍

u010867462的博客

08-05

2475

Hadoop-Pig常用函数介绍1.Pig简介：Pig在这个地方并不是指“猪”(我也不知道这个开发者的命名是什么想法)，是指的一种数据处理工具，常用于配合Hadoop使用，用于处理大数据的分析与处理(数据批处理)。因为Pig有一套专属的语法(与MySQL类似)，所以相比于MapReduce来说，更适合做一些复杂度不高的数据筛选处理工作，只需要简单几行命令就可以获得可能几百行MapReduce代码带

大数据Hadoop生态圈：Pig

YUSDook的博客

05-07

1972

Pig最早是雅虎公司的一个基于Hadoop的并行处理架构，后来Yahoo将Pig捐献给Apache的一个项目，由Apache来负责维护，Pig是一个基于 Hadoop的大规模数据分析平台。 Pig最早是雅虎公司的一个基于的hadoop并行处理架构，后来Yahoo将Pig捐献给Apache的一个项目，由Apache来负责维护，Pig是一个基于 hadoop的大规模数据分析平台。 Pig为复杂的海...

1 条评论您还未登录，请先登录后发表或查看评论

hadoop pig入门

02-05

244

0/basic.html pig简介 pig是hadoop上层的衍生架构，与hive类似。对比hive（hive类似sql，是一种声明式的语言），pig是一种过程语言，类似于存储过程一步一步得进行数据转化。 pig数据类型 double > float > long > int > bytearray tuple|bag|map|chararray > bytearray double float long int

深入探索【Hadoop】生态系统：Hive、Pig、HBase及更多关键组件（下）

最新发布

博客虽小，世界尽在其中

08-27

3636

本文深入探索了Hadoop生态系统的核心组成部分及其关键组件，特别是聚焦于Hive、Pig和HBase这三个重要工具。Hadoop作为大数据处理和分析的基石，通过其丰富的生态系统为企业和组织提供了强大的数据处理能力。首先，文章介绍了Hive，作为Hadoop上的数据仓库工具，Hive允许用户通过类SQL的查询语言HiveQL来查询和分析存储在Hadoop分布式文件系统（HDFS）中的大规模数据。Hive特别适用于构建数据仓库、进行复杂的数据聚合和报表生成，为数据分析师和业务用户提供了简便的数据访问途径。

hadoop使用（六）

06-04

138

第1章引言 1.1 编写目的介绍pig，一个不得不说的hadoop的扩展。 1.2 什么是pig Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。 1.3 pig的特点...

Hadoop之家族成员Pig简介

04-29

8293

Hadoop发展很快，Hadoop作为Apache的一个顶级项目旗下有许多的子项目，今天的内容就是简单的介绍一下Hadoop家族的子项目中的Pig。下图是一个Hadoop子项目的大体结构图 Pig简介 Pig是Hadoop数据操作的客户端是一个数据分析引擎，采用了一定的语法操作HDFS中的数据（Pig应该说是一种语言，有人说Pig是类SQL的语言我这里只能说它的功能类似Sql语言和数据...

Hadoop之Pig

xi4m00的博客

07-15

703

什么是Pig Apache pig是用来处理大规模数据的高级查询语言，配合Hadoop使用，可以在处理海量数据时达到事半功倍的效果，比使用Java，C++等语言编写大规模数据处理程序的难度要小n倍，实现同样效果的代码量也小N倍。Twitter就是使用pig来处理海量数据，它的主要特点是：易于编程自动优化：它的编码方式允许系统自动优化执行过程，从而可以让用户专注于业务编程可扩展性：可以

Pig与HCatalog在Hadoop集群中的应用探索

在实际应用中，Pig与Hive和HCatalog的结合使用有助于提升数据处理的效率和灵活性，尤其是在阿里巴巴这样的大型企业中，这种集成的数据处理框架对于数据科学家和工程师来说是非常有价值的工具。通过Hadoop云梯部门的...

Pig与HCatalog在Hadoop环境中的演示与应用

"本次分享主要围绕测试环境中的Pig、Hive和HCatalog进行，涵盖了...在实际应用中，这些工具的结合使用能极大地提升大数据处理的效率和灵活性，特别是在复杂的测试场景下，能够更好地模拟和验证大规模数据处理的流程。

HADOOP 系统之hadoop pig hive 整合版

08-23

在IT行业中，Hadoop、Hive和Pig是大数据处理领域的三大重要工具，它们共同构建了一个高效、可扩展的数据处理框架。...在实际应用中，理解并熟练掌握这些工具，将有助于提升大数据处理的效率和质量。

使用Pig与Hadoop进行数据流脚本编程

5. **案例研究**：书中可能会包含实际的数据处理案例，展示如何在实际场景中应用Pig来解决数据问题，如数据清洗、数据分析和挖掘等。 6. **最佳实践**：分享在开发Pig脚本时应遵循的指导原则，以确保代码的可读性、...

大数据Hadoop生态圈：Pig和Hive

weixin_30675247的博客

11-05

360

前言 Pig最早是雅虎公司的一个基于Hadoop的并行处理架构，后来Yahoo将Pig捐献给Apache的一个项目，由Apache来负责维护，Pig是一个基于 Hadoop的大规模数据分析平台。 Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口，这一点和FaceBook开源的Hive一样简洁，清晰，易上手！一、Pig概述 Pig包括两部分 1：用于描述数据流的语言，称...

Hadoop的数据分析引擎：Pig

小鹏的专栏

05-06

581

一、什么是Pig？安装和配置 1、最早由Yahoo开发，后来给Apache 2、支持语句PigLatin语句，类似SQL 3、翻译器：PigLatin语句 ----> MapReduce Spark（从0.17开始支持） 4、安装和配置 tar -zxvf pig-0.17.0.tar.gz -C ~/training/ ...

hadoop子项目---pig

坚持到底

10-04

1322

1、Pig包括用于描述数据流的语言Pig Latin和用于运行Pig Latin的执行环境（单JVM中的本地执行环境和hadoop集群上的分布式环境）。 2.Pig会扫描整个数据集或其中很大的一部分，因此它不支持低延迟查询。 3.Pig的执行模式分为本地模式pig -x local （访问本地文件系统，适用于小规模数据集）和mapreduce模式（Pig将查询翻译为mapredu

hadoop入门十四（pig）

盼盼

10-20

4243

pig 一大打野猪Pig是基于hadoop的一个数据处理的框架。相比Java的MapReduce api，Pig为大型数据集的处理提供了更高层次的抽象，与MapReduce相比，Pig提供了更丰富的数据结构，一般都是多值和嵌套的数据结构。Pig还提供了一套更强大的数据变换操作，包括在MapReduce中被忽视的连接Join操作。 Pig包括两部分：用于描述数据流的语言，称为Pig Latin。

hadoop之pig自定义函数UDF（五）

一个真实、有温度的无名小卒

01-07

973

本节采用eclipse开发简单的pig的自定义函数。 github地址： https://github.com/lightTrace/Hadoop/tree/master/hadoop-01 一为什么要自定义函数当我们希望简化程序结构或者需要重用程序代码时，自定义函数就是必须的，这和oracle数据库的function是一个道理。二准备数据上传到pig中我准备实现1918

pig的基本操作（对hadoop文件）

weixin_34334744的博客

10-26

392

为什么80%的码农都做不了架构师？>>> ...

进击大数据系列（十四）Hadoop 数据分析引擎 Apache Pig

民工哥的博客

06-25

227

点击下方名片，设为星标！回复“1024”获取2TB学习资源！前面介绍了 Hadoop 数据仓库 Hive、计算引擎 Spark、实时计算流计算引擎Flink、数据库 Hbase、任务调度器 Oozie、数据同步工具 Sqoop、分布式日志采集系统 Flume 等相关的知识点，今天我将详细的为大家介绍 大数据 Hadoop 数据分析引擎 Apache Pig 相关知识，希望大家能够从中收获多多！如有...

学习Hadoop——Pig 安装和介绍

y805805的博客

01-08

1251

Pig 是由Yahoo 公司开源，是一种操作大规模数据集的脚本语言，它为大型数据集的处理提供了更高层的抽象。Pig 构建在HDFS和Mapreduce 之上，能将数据处理翻译成多个Map 和Reduce 函数，从某种程度上将程序猿从具体编程中解放出来。 Pig 简介 pig 架构包括两部分：用于描述数据流的称为 Pig Latin 的编程语言，以及用于运行的Pig Latin 程序执行环境。...