1 第1章 Pig
Pig
Apache Pig是对MapReduce的一种抽象。它是一个工具/平台,用于分析代表数据流的更大数据集。Pig通常与Hadoop一起使用;我们可以使用Pig在Hadoop中执行所有数据操作操作。
Pig Latin是用于使用Apache Pig分析Hadoop中数据的语言。在本实验中,我们将讨论Pig Latin的基础知识,如Pig Latin语句,数据类型,通用运算符,关系运算符和Pig Latin UDF。
一般来说,Apache Pig在Hadoop之上工作。它是一种分析工具,用于分析 Hadoop File System中存在的大型数据集。要使用Apache Pig分析数据,我们必须首先将数据加载到Apache Pig中。本实验介绍如何从HDFS将数据加载和存储到Apache Pig。
本实验将学习Apache Pig的不同诊断运算符,包括Diagnostic、describe、explain和illustrate四种类型在具体示例下的运用。
本实验我们将学习如何在Apache Pig中如何使用分组和连接操作,主要包括Group、Cogroup、Join和Cross操作。
Pig Latin的 UNION 运算符用于合并两个关系的内容,SPLIT 运算符用于将关系拆分为两个或多个关系,本实验将对这两个运算进行学习。
本实验我们将学习Apache Pig的过滤操作,主要包括利用Filter、 Distinct和Foreach运算符进行实例运算。
本实验我们将学习Apache Pig的排序机制,主要包含Order By和Limit两个运算符。
除了内置函数之外,Apache Pig还为 User Defined Function(UDF:用户定义函数)提供广泛的支持。使用这些UDF,可以定义我们自己的函数并使用它们。UDF支持六种编程语言,即Java,Jython,Python,JavaScript,Ruby和Groovy,本实验将加以学习。
在本实验中,我们将了解如何以批处理模式运行Apache Pig脚本。
Apache Pig提供了各种内置函数,即 eval,load,store,math,string,bag 和 tuple 函数,本实验我们将对这些内置函数进行学习。
Apache Pig中的加载和存储函数用于确定数据如何从Pig中弹出。这些函数与加载和存储运算符一起使用。下面给出了Pig中可用的加载和存储函数的列表。
本实验将对Apache Pig的包和元组函数进行学习。
在Apache Pig中有许多String函数,本实验将进行学习。
Apache Pig提供众多日期和时间函数,本实验将进行学习。
我们在Apache Pig中有众多Math(数学)函数,本实验将加以学习。