Spark
MapReduce 标签描述

HadoopMapReduce采用了多进程模型,而Spark采用了多线程模型: ApacheSpark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver端采用的模型),这与Hadoop2.0(包括YARN和MapReduce)是一致的。Hadoop2.0自己实现了类似Actor的异步并发模型,实现方式是epoll+状态机,而ApacheSpark则直接采用了开源软件Akka,该软件实现了Actor模型,性能非常高。尽管二者在server端采用了一致的并发模型,但在任务级别(特指Spark任务和MapReduce任务)上却采用了不同的并行机制:HadoopMapRe...