PySpark

PySpark


课程内容
共1个章节 8个实验
1 第1章 PySpark

PySpark

实验1 实验14:PySpark - SparkContext
Apache Spark是用 Scala编程语言 编写的。为了用Spark支持Python,Apache Spark社区发布了一个工具PySpark。使用PySpark,您也可以使用Python编程语言中的 RDD 。正是由于一个名为 Py4j的库,他们才能实现这一目标,SparkContext是任何spark功能的入口点,本实验将简要介绍pyspark环境并做一些简单操作。
实验2 实验15:Pyspark-RDD
现在我们已经在我们的系统上安装并配置了PySpark,我们可以在Apache Spark上用Python编程。但在此之前,让我们了解Spark - RDD中的基本概念并完成一些基础实例。
实验3 实验16:PySpark广播与累积器
对于并行处理,Apache Spark使用共享变量。当驱动程序将任务发送到集群上的执行程序时,共享变量的副本将在集群的每个节点上运行,以便可以将其用于执行任务,Apache Spark支持两种类型的共享变量:Broadcast和Accumulator,本节将重点介绍。
实验4 实验17:PySpark SparkConf
本节将使用SparkConf完成基础实验,要在本地/集群上运行Spark应用程序,您需要设置一些配置和参数,这是SparkConf帮助的。它提供运行Spark应用程序的配置。
实验5 实验18:PySpark SparkFiles
在Apache Spark中,您可以使用 sc.addFile 上传文件(sc是您的默认SparkContext),并使用 SparkFiles.get 获取工作者的路径,本节将加以学习。
实验6 实验19:PySpark 存储级别
StorageLevel决定如何存储RDD。在Apache Spark中,StorageLevel决定RDD是应该存储在内存中还是存储在磁盘上,或两者都存储。它还决定是否序列化RDD以及是否复制RDD分区。
实验7 实验20:PySpark MLlib
Apache Spark提供了一个名为 MLlib 的机器学习API。PySpark也在Python中使用这个机器学习API,它支持不同类型的算法。
实验8 实验21:PySpark序列化
序列化用于Apache Spark的性能调优。通过网络发送或写入磁盘或持久存储在内存中的所有数据都应序列化。序列化在具体的操作中起着重要作用。
PySpark

共8个实验

参加本课程
大数据技术从入门到精通