20
2021
01

rdd是什么?rdd的创建方式有几种?分别是怎么分区的?

2.1 rdd是什么?

rdd即弹性分布式数据集,是spark中最基本的数据抽象,它代表一个不可变的、可分区的内部元素可并行计算 的集合。


2.2 rdd的创建方式

使用makeRDD通过集合创建。由本地核数来决定分区数量


使用外部数据源创建如hdfs。由block的数量来决定的,通常默认为2个分区最低也是2个。


由另一个rdd得出的结果创建,即转换时创建。根据父rdd的 reduceTask数量

« 上一篇 下一篇 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。