Spark

  Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算, 拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS, 因此Spark能更 好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法

2
推荐
2495
阅读

在阿里云上搭建 Spark 实验平台

之前在自己的笔记本上运行 Python 代码,有些要运行一天多,一关机就前功尽弃,很不方便,所以才有租用阿里云服务器的想法,用了同学租的一台用了两天又觉得...
3
推荐
1751
阅读

spark与hadoop

在网上摘取的一些关于两者的对比,待增加。。sparkSpark是小数据集上处理复杂迭代的交互系统,并不擅长大数据集,也没有稳定性。但是最近的风评已经变化,尤...
2
推荐
2246
阅读

Sparklyr 0.5 已在CRAN正式发布

Sparklyr 0.5 包已经在CRAN正式发布,新的版本在以下几个方面做了优化:1)加强对dplyr支持,如do( )和n_distinct( )2)增加新的函数,如sdf_quantile( )、ft...
3
推荐
3142
阅读

ELK 在 Spark 集群的应用

概述大数据处理技术越来越火,云计算平台也如火如荼,二者犹如 IT 列车的两个车轮,相辅相成,高速发展。如果我们将大数据处理平台比作一个可能会得病的人的话,...
4
推荐
2630
阅读

使用scala开发spark入门总结

一、spark简单介绍关于spark的介绍网上有很多,可以自行百度和google,这里只做简单介绍。推荐简单介绍连接:http://blog.jobbole.com/89446/1、  ...
1
推荐
2590
阅读

spark2.0中求最值,平均值,TopN编写

对比MR,spark编写计算要简洁很多,代码如下:import org.apache.spark.sql.SparkSession object App { def main(args: Array[String]): Unit = { /...
1
推荐
2004
阅读

基于spark和hive的thrift server的代理中间件开发

1.hive环境0.132.实现功能通过启动代理的thrift server服务,能够分发到实际启动的spark thrift,使spark thrift 服务不会是指定用户访问,交由代理层控制。3...
3
推荐
3057
阅读

最全的Spark基础知识解答

一. Spark基础知识 1.Spark是什么?UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架。dfsSpark基于mapreduce算法实现的分布式计算,拥...
1
推荐
1898
阅读

三个框架与库,SFrame,Hdp2与skflow

今天给各位亲推荐数据科学的三个框架或者库。01 SFrame这家公司最初的名字叫graphlab,后来改名为dato,最近又进行了一次改名,叫turi了,这名字起得,图日吗...
0
推荐
2778
阅读

合理设置Spark数据分区

在Hadoop的map-reduce编程模型中,框架要做的第一步事情,也是对数据进行分块切分,然后对每块数据调用mapper程序进行处理,mapper处理完将结果交给reducer进...
2
推荐
2341
阅读

Spark2.0,重要更新与改进

01 引言就在前天(2016.07.26号),Spark2.0正式版本发布了。来看看当今最世上最强大的全栈数据处理框架吧!作为数据科学人员,如果一生只能学一个框架,那就...
0
推荐
1857
阅读

亦策软件为SGM实施“SPARK”项目

上海、烟台、沈阳、武汉,4大生产基地;8个整车生产厂、4个动力总成厂;旗下拥有三大品牌;年销售量超过175万台。庞大的售后数据,SGM希望通过大数据建设改善...
3
推荐
3962
阅读

Hive on Spark

注:若需转载,请注明出处!Hive on Spark大数据平台搭建 hive 2.0.0 spark 1.5.0Hive on Spark1. 修改$HIVE_HOME/conf/hive-site.xml2. 添加spark...
1
推荐
1936
阅读

spark处理大规模语料库统计词汇

最近迷上了spark,写一个专门处理语料库生成词库的项目拿来练练手, github地址:https://github.com/LiuRoy/spark_splitter。代码实现参考wordmaker项目,有...
2
推荐
1848
阅读

Spark知识体系完整解读

摘要:2014年6月至今工作于北京亚信智慧数据科技有限公司 BDX大数据事业部,从2014年9月开始从事项目spark相关应用开发。Spark简介Spark是整个BDAS的核心组件...

887 人关注

最佳回复者

改版

反馈