Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法

排序：

时间投票

2

推荐

2560

阅读

在阿里云上搭建 Spark 实验平台

之前在自己的笔记本上运行 Python 代码，有些要运行一天多，一关机就前功尽弃，很不方便，所以才有租用阿里云服务器的想法，用了同学租的一台用了两天又觉得...

疯狂的拖鞋发布于疯狂的拖鞋的博客专栏 • 2017-02-09 15:50 评论(0)

3

推荐

1797

阅读

spark与hadoop

在网上摘取的一些关于两者的对比，待增加。。sparkSpark是小数据集上处理复杂迭代的交互系统，并不擅长大数据集，也没有稳定性。但是最近的风评已经变化，尤...

liliwu 发布于奔跑的蜗牛 • 2017-02-09 11:25 评论(0)

2

推荐

2285

阅读

Sparklyr 0.5 已在CRAN正式发布

Sparklyr 0.5 包已经在CRAN正式发布，新的版本在以下几个方面做了优化：1）加强对dplyr支持，如do( )和n_distinct( )2）增加新的函数，如sdf_quantile( )、ft...

R语言中文社区发布于 R语言中文社区 • 2017-01-26 09:25 评论(0)

3

推荐

3227

阅读

ELK 在 Spark 集群的应用

概述大数据处理技术越来越火,云计算平台也如火如荼,二者犹如 IT 列车的两个车轮,相辅相成,高速发展。如果我们将大数据处理平台比作一个可能会得病的人的话，...

Jmarry 发布于 JmarryData • 2016-12-28 09:39 评论(0)

4

推荐

2684

阅读

使用scala开发spark入门总结

一、spark简单介绍关于spark的介绍网上有很多，可以自行百度和google，这里只做简单介绍。推荐简单介绍连接：http://blog.jobbole.com/89446/1、 ...

万里88 发布于 chen-kh • 2016-12-22 12:28 评论(3)

1

推荐

2680

阅读

spark2.0中求最值，平均值，TopN编写

对比MR，spark编写计算要简洁很多，代码如下：import org.apache.spark.sql.SparkSession object App { def main(args: Array[String]): Unit = { /...

平常心发布于平常心 • 2016-12-01 15:30 评论(0)

1

推荐

2071

阅读

基于spark和hive的thrift server的代理中间件开发

1.hive环境0.132.实现功能通过启动代理的thrift server服务，能够分发到实际启动的spark thrift，使spark thrift 服务不会是指定用户访问，交由代理层控制。3...

平常心发布于平常心 • 2016-11-14 11:26 评论(1)

3

推荐

3144

阅读

最全的Spark基础知识解答

一. Spark基础知识 1.Spark是什么?UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架。dfsSpark基于mapreduce算法实现的分布式计算，拥...

在学古筝的程序员发布于碧海蓝天 • 2016-09-18 17:38 评论(1)

1

推荐

2003

阅读

三个框架与库，SFrame,Hdp2与skflow

今天给各位亲推荐数据科学的三个框架或者库。01 SFrame这家公司最初的名字叫graphlab，后来改名为dato，最近又进行了一次改名，叫turi了，这名字起得，图日吗...

云戒发布于全栈数据 • 2016-09-02 23:17 评论(0)

0

推荐

2862

阅读

合理设置Spark数据分区

在Hadoop的map-reduce编程模型中，框架要做的第一步事情，也是对数据进行分块切分，然后对每块数据调用mapper程序进行处理，mapper处理完将结果交给reducer进...

云戒发布于全栈数据 • 2016-08-25 11:25 评论(0)

2

推荐

2438

阅读

Spark2.0，重要更新与改进

01 引言就在前天（2016.07.26号），Spark2.0正式版本发布了。来看看当今最世上最强大的全栈数据处理框架吧！作为数据科学人员，如果一生只能学一个框架，那就...

云戒发布于全栈数据 • 2016-07-29 12:12 评论(0)

0

推荐

1939

阅读

亦策软件为SGM实施“SPARK”项目

上海、烟台、沈阳、武汉，4大生产基地；8个整车生产厂、4个动力总成厂；旗下拥有三大品牌；年销售量超过175万台。庞大的售后数据，SGM希望通过大数据建设改善...

ebistrategy 发布于上海亦策软件科技有限公司 • 2016-06-02 17:41 评论(0)

3

推荐

4041

阅读

Hive on Spark

注：若需转载，请注明出处！Hive on Spark大数据平台搭建 hive 2.0.0 spark 1.5.0Hive on Spark1. 修改$HIVE_HOME/conf/hive-site.xml2. 添加spark...

MarsJ 发布于 MarsJ's DS Road • 2016-05-30 20:10 评论(2)

1

推荐

1989

阅读

spark处理大规模语料库统计词汇

最近迷上了spark，写一个专门处理语料库生成词库的项目拿来练练手， github地址：https://github.com/LiuRoy/spark_splitter。代码实现参考wordmaker项目，有...

腩啵兔子发布于腩啵兔子的博客专栏 • 2016-05-06 20:13 评论(1)

2

推荐

1896

阅读

Spark知识体系完整解读

摘要：2014年6月至今工作于北京亚信智慧数据科技有限公司 BDX大数据事业部，从2014年9月开始从事项目spark相关应用开发。Spark简介Spark是整个BDAS的核心组件...

数据分析网发布于数据分析网的专栏 • 2016-04-06 11:44 评论(0)

«
1
2
3
4
»

887 人关注

最佳回复者

Bob
获得12次推荐
MarsJ
获得8次推荐
牟瑞
获得5次推荐
万里88
获得4次推荐
在学古筝的程序员
获得3次推荐

改版

反馈