30
2020
01

简单说一下hadoop和spark的shuffle过程

Hadoop:map端保存分片数据,通过网络收集到reduce端。


Spark:spark的shuffle实在DAGSchedular划分Stage的时候产生的,TaskSchedular要分发Stage到各个worker的executor。减少shuffle可以提高性能。

« 上一篇 下一篇 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。