flink 并行度

如题所述

第1个回答 2022-06-17

Flink 作为一套分布式执行框架，计算资源可以不断的扩展。
不同的任务类型，可以控制需要的计算资源。在flink整个runtime的模型中
并行度是一个很重要的概念，通过设置并行度可以为认为分配合理的计算资源，
做到资源的合理配置。

整个flink的架构简单的说是中心控制（jobManager）+ 多点分布执行（taskManager）
弹性的资源分配主要来自于taskManager的有效管理和配置。

在启动flink 之前，在核心的配置文件里面，需要指定两个参数。
taskmanager.numberOfTaskSlots 和 parallelism.default。

首先需要明白slot的概念。对于 taskManager，他其实是一个 JVM 程序。
这个JVM 可以同时执行多个task，每个task 需要使用本机的硬件资源。
slot 的属于 jvm 管理的一些列资源卡槽。每个slot 只能执行一个task。
每个slot分配有固定的内存资源，但是不做cpu的隔离。 JVM管理一个 slot的pool，
用来执行相应的task。taskmanager.numberOfTaskSlots = 10，则理论上可以同时执行10个子任务。

那么对于1个5节点，numberOfTaskSlots= 6的集群来说，那么就有30个slot可以使用。
对于具体的一个job来说，他会贪婪的使用所有的 slot吗？
使用多少slot 是由parallelism.default 决定的。如果是 5，那么对于一个job 他最多同时使用5个slot。
这个配置对于多job平台的集群是很有必要的。

那么给定一个stream api 编写的flink 程序，被分解的task是否和map 到slot 上执行的呢？
flink 有几个经典的graph， stream-api对应的stream_graph-> job_graph->execution_graph->物理执行图。
execution_graph 基本就决定了如何分布执行。
我们知道一个 stream-api, 主要有 source, operate, sink 这几部分。那么我们可以从source开始看并行的控制。

source 有并行source和非并行。我们主要看并行，想类似与kafka 这种生成消费者模式的数据源，能够并行消费source是非常重要的。
所以可以看到kafka，FlinkKafkaConsumerBase<T> extends RichParallelSourceFunction<T>，可以充分利用并行度，大大提高吞吐量。
对应到具体的物理执行上，就是多个 source task 任务执行，他们属于一个kafka group同时消费不同的partition。
对于parallelSource，默认使用cpu 核心做并行度。我们可以通过api进行设置。

接下来是 operate，每个operate都可以设置parallel，如果没有设置将会使用其他层次的设置，比如env，flink.conf中的配置，parallelism.default。
比如 source. map1().map2().grouby(key).sink()
这样一个程序，默认，source和 map1，map2有同样的parallel，上游的output 可以直接one-one forwarding.
在flink 的优化中，甚至可以把这些 one-one 的operate 合成一个，避免转发，线程切换，网络通信开销。
对于groupby 这样的算子，则属于另外的一类。上游的output 需要 partion 到下游的不同的节点，而不能做位一个chain。

由于operate可以设置独自的parallel，如果与上游不一致。上游的output必然需要某种partion策略来 rebalnce数据。kafka有很多策略来处理这个细节。
对于partion放在专门的章节来说明。
对于sink，则可以理解位一个特定的operate，目前看没什么特殊处理逻辑。

相似回答

10-flink TaskManager 和 Slots答：Treads：线程二、并行度（parallelism）每一个线程占用一个slot，上图一中任务合并为上图二所示（任务链，后续讲解），图中算子并行度最大的（算子后面的中括号数字代表并行度）为2，所以整个flink程序的并行度为2，所以只需要2个slot就可以跑起来。 One-to-one：stream(比如在source和map...

Flink性能调优(一)答：GC的配置：在客户端的“conf/flink-conf.yaml”配置文件中，在“env.java.opts”配置项中添加参数：“此处默认已经添加GC日志。任务的并行度可以通过以下四种层次（按优先级从高到低排列）指定，用户可以根据实际的内存、CPU、数据以及应用程序逻辑的情况调整并行度参数。您可以根据实际任务数量的多少，为J...

flink主要特性包括答：2. 并行数据流一个Stream可以被分成多个Stream分区（Stream Partitions），一个Operator可以被分成多个Operator Subtask，每一个Operator Subtask是在不同的线程中独立执行的。一个Operator的并行度，等于Operator Subtask的个数，一个Stream的并行度总是等于生成它的Operator的并行度。One-to-one模式比如...

任务链(Operator Chains)答：任务链是Flink的一种优化技术。目的：减少本地通信的开销。使用任务链优化的条件： 1）两个或多个算子设为相同的并行度。 2）通过本地转发（local forward)的方式进行连接如图：相同并行度的one-to-one操作，（key aggregation和sink算子）形成一个task，原来的算子成为了这个整体的子...

Flink之工作原理答：operator的subtasks的数量等于该操作算子的并行度的数量。流的并行度有总是取决于产生它的操作算子的并行度决定的。同一个flink程序中的不同的operators可能有不同的并行度。数据流在两个operators之间进行传递的方式有两种：one-to-one 模式和 redistributing 模式 ①:one-to-one 模式：两个operator用...

大家正在搜

flink最大并行度 flinksql设置并行度 flink并行度和slot的关系 flink的并行度指的是什么 flink并行度优先级 flink默认slot数量设置算子并行度的方法名 flink slot 多进程和多线程的区别