spark核心数据结构之RDD
RDD是Spark对数据的核心抽象,称为弹性分布式数据集(Resilient Distributed Dataset,简称RDD),即为分布式的元素集合,其表示分布在多个计算节点上可以并行操作的元素集合。在Spark中,对数据的所有操作就是创建RDD、转化已有RDD以及调用RDD操作进行求值,然后Spark自动将RDD中的数据分发到集群上,将操作并行化执行。
1 | /* Internally, each RDD is characterized by five main properties: |