P9
简述Spark的技术特点¶
- 速度:Spark通过在内存中计算来优化迭代工作负载的执行速度,这比传统的基于磁盘的Hadoop MapReduce要快。
- 易于使用:Spark支持多种语言,如Scala、Java、Python和R,并提供了丰富的APIs,Spark不仅仅支持Map和Reduce操作,它还支持SQL查询、流数据处理、机器学习和图处理等高级数据分析技术。
- 灵活性:Spark能够处理批处理和实时流数据,提供了统一的数据处理平台。
- 可伸缩性:Spark利用了Hadoop的分布式文件系统(HDFS)的可伸缩性,它能够在数千个节点上扩展。
- 弹性计算:Spark的弹性分布式数据集(RDDs)是一个容错的、并行的数据结构,可以让用户显式地持久化数据到内存中,并在计算过程中复用,这在迭代算法和快速查询中非常有用。
- 内存计算:Spark 的核心是内存计算,它能够极大地提升处理速度。Spark 提出了一种基于内存的弹性分布式数据集(RDD),通过对 RDD 的一系列操作完成计算任务,可以大大提高性能。
- 适用场景:适合需要反复操作特定数据集的应用场合(如迭代),特别是数据量大且计算密集的任务。
- 不适用场景:不适合需要异步和细粒度更新状态的应用,如实时的 web 服务存储或增量更新的应用,例如实时的 web 爬虫和索引。
- 实时统计分析:对于数据量不是非常大但要求实时分析和统计的需求,Spark 也提供了相应的解决方案。
简述Spark的基本构架组成¶
-
Master Node(主节点):在集群部署时,Master Node 充当控制器的角色,负责管理整个集群的正常运行,以及 Worker Nodes 的管理。
- Worker Node(工作节点):作为计算节点,Worker Node 接收 Master Node 的命令执行计算任务,并进行状态汇报。
- Executor(执行器):Executor 是在 Worker Node 上为每个 Application 启动的进程(一个 worker 上只有一个),它负责运行 Task,将数据保存在内存或磁盘中,并将结果返回给 Driver Program。
- Excutor 对象持有一个线程池线程池,每个线程可以执行一个 task,多个 task 之间可以共享内存资源。
- Cluster Manager(集群管理器):负责资源分配的服务,可以是 YARN、Kubernetes 或 Spark 自己的集群管理器。
- Driver Program(驱动程序):运行 Application main ()函数并创建 SparkContext 的进程,负责提交 Job,转化为 Task,并协调各 Executor 间的 Task 调度。Driver Program 可以运行在集群内或集群外。
- Application(应用程序):用户编写的基于 Spark 的程序,通过调用 Spark API 来实现数据处理的应用程序,由一个 Driver 程序和多个 Executor 程序组成,以用户定义的 main 方法作为入口。
- Job;Stage;Task;
- SparkContext:Spark 的所有功能的主要入口点,是用户逻辑与 Spark 集群交互的主要接口。
- 对一个 Spark 程序进行了必要的初始化过程:创建 SparkConf (参数信息和配置文件)类的实例;创建 SparkEnv (环境对象)类的实例;创建调度类的实例;
简述 Spark 的调度过程¶
-
两种调度器:DAGScheduler 和 TaskScheduler
-
逻辑计划:DAGSchedule 将用户的程序代码根据 RDD 间的依赖关系,划分为多个 Stage,对于划分后的每个 Stage 都抽象为一个由多个 Task 组成的任务集,转换为逻辑执行计划,即有向无环图(DAG)。在 DAG 中,节点表示 RDD,边表示 RDD 之间的转换。基于 DAG,将程序划分为多个 Stage,对于划分后的每个 Stage 都抽象为一个由多个 Task 组成的任务集
-
任务调度:TaskScheduler接收DAGScheduler创建的阶段,负责对每个具体的 Task 进行调度,并将这些阶段中的任务分发给集群管理器。
- 对于TaskScheduler,Spark 中的任务调度分为两种:FIFO(先进先出)调度和 FAIR(公平调度)调度。
简述Spark的程序执行过程¶
- 程序提交:用户编写的Spark程序提交到相应的Spark运行框架中
- 创建SparkContext:Spark程序启动时,首先会创建一个SparkContext对象为本次程序的运行环境,这个对象是程序与Spark集群交互的主要接口。
- 集群资源连接:SparkContext会与集群管理器进行通信,以获取执行程序所需的资源。
- 获取Executor节点:一旦资源分配完成,SparkContext会在集群中可用的节点上启动Executor进程。这些进程是执行具体计算任务的实体。
- 代码分发:SparkContext将用户程序中的任务代码和函数序列化后发送到各个Executor。
- 任务执行:最后,SparkContext根据数据的分区和任务的依赖关系,将任务分发到不同的Executor执行。