hadoop – 在火花加入中,表格顺序像猪一样吗?

Spark – Joining 2 PairRDD elements有关

当在pig中进行常规连接时,连接中的最后一个表不会被带入内存而是通过流式传输,所以如果A每个键的基数小且B大基数,则加入A,B比加入A要好得多B,从绩效角度(避免泄漏和OOM)

火花中有类似的概念吗?我没有看到任何这样的建议,并想知道它是如何可能的?实施在我看来与猪:https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/rdd/CoGroupedRDD.scala几乎相同

或者我错过了什么?

它没有什么区别,因为如果缓存RDD只会被带入内存.因此,在spark中实现相同的效果,您可以缓存较小的RDD.你可以用火花做的另一件事我不确定那只猪,如果所有的RDD都加入了相同的分区,那么就不需要进行随机播放.
相关文章
相关标签/搜索