2.1 rdd是什么?
rdd即弹性分布式数据集,是spark中最基本的数据抽象,它代表一个不可变的、可分区的内部元素可并行计算 的集合。
2.2 rdd的创建方式
使用makeRDD通过集合创建。由本地核数来决定分区数量
使用外部数据源创建如hdfs。由block的数量来决定的,通常默认为2个分区最低也是2个。
由另一个rdd得出的结果创建,即转换时创建。根据父rdd的 reduceTask数量
2.1 rdd是什么?
rdd即弹性分布式数据集,是spark中最基本的数据抽象,它代表一个不可变的、可分区的内部元素可并行计算 的集合。
2.2 rdd的创建方式
使用makeRDD通过集合创建。由本地核数来决定分区数量
使用外部数据源创建如hdfs。由block的数量来决定的,通常默认为2个分区最低也是2个。
由另一个rdd得出的结果创建,即转换时创建。根据父rdd的 reduceTask数量
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。