分布式计算模式：流水线

计算机中的流水线技术是一种将每条指令拆分为多个步骤，多条指令的不同步骤重叠操作，从而实现几条指令并行处理的技术。

分布式领域的流水线计算模式，参考了工业生产中的流水线作业模式，将一个任务分为多个步骤执行，使得不同任务可以并行执行，从而提高系统效率。

输入流水线（ETL)

TensorFlow运用了流水线模式对输入数据进行预处理，也称为ETL流水线，它包括3个步骤：

机器学习流水线

一个典型的机器学习训练模型按照流水线计算模式进行拆分，可以分为5个步骤：

整个流水线示示意图如下所示。

流水线模式和MapReduce中对任务划分的区别？

首先它们划分的粒度不同：

另外，它们划分出来的子任务之间的关系也不同：

流水线计算模式和流计算有什么区别？

流水线模式把一个问题分成不同的步骤，必须按照严格的顺序处理，它的核心是错开了时间，提高了时间利用率，但是最终结果是相同的。

流计算模式侧重数据输入方式和流动方向，处理数据时可以多方向流动，最终输出不同的结果，在流计算的过程中，可能会用到流水线模式，把一个大的处理流程拆分成小的流程。

流计算对数据处理是实时的，流水线模式对数据处理可以是实时的，也可以是批处理方式。

流计算关注的是计算的实时性，对数据依赖性没有流水线计算模式那么高。