Spark

  Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算, 拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS, 因此Spark能更 好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法

0
推荐
1739
阅读

Spark运行后kerveros无法认证,hadoop登录失败

原因:JavaSparkContext sc = null;这个类在开启以后会一直存在后台,如果不执行sc.stop();方法,将一直运行到整个JVM关闭。因此在此之后需要用到hadoop的话...
0
推荐
1426
阅读

Spark大数据强力引擎的N大工具

Spark正在数据处理领域卷起一场风暴。让我们通过本篇文章,看看为Spark的大数据平台起到推波助澜的几个重要工具。  Spark生态系统众生相  Apache Spark不...

887 人关注

最佳回复者

改版

反馈