Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法

排序：

时间投票

0

推荐

2813

阅读

Spark standalone模式部署中的一些问题

最近准备把一些批量的应用转换到Spark Streaming上, 先部署到standalone模式上 , 将碰到的一些问题记录下来供接下来参考.具体使用Spark 2.2.1, 脚本使...

seng 发布于 seng的博客 • 2018-06-08 15:36 评论(0)

2

推荐

2935

阅读

Spark作业基本运行原理解析！

1、基本原理Spark作业的运行基本原理如下图所示：我们使用spark-submit提交一个Spark作业之后，这个作业就会启动一个对应的Driver进程。提交作业的节点称为Ma...

石晓文发布于 wenwen • 2018-06-07 12:12 评论(0)

3

推荐

3038

阅读

虚拟机安装CentOS系统,并在系统里安装python、spark、kafka，建立postgreSQL数据库

虚拟机直接网上下载后，按照流程一键安装就行，这个比较简单就不多叙述一、安装linux系统1.1 安装好虚拟机后，直接去官网下载CentOS7，链接http://mirr...

走马兰台发布于仰视浮云白 • 2018-05-16 00:08 评论(1)

4

推荐

1945

阅读

Spark Streaming相关的0到1计划

最近计划流相关的技术改进, Goldengate到Kafka的连接已经打通, 最近在准备Spark Streaming相关内容, 把计划工作列一下.0了解阶段--Spark能实现什么内容 0.1 ...

seng 发布于 seng的博客 • 2018-05-09 14:01 评论(0)

3

推荐

4556

阅读

Hadoop + Hive + Spark 完整安装攻略

Prerequisites 桌面环境: Mac OSX虚拟机管理软体: Vagrant虚拟机: Virtual BoxClone repogit clone https://github.com/bryanyang0528/hellobicd h...

bryanyang 发布于 bryan的博客专栏 • 2017-11-09 11:41 评论(0)

2

推荐

2350

阅读

spark2.x源码阅读之SparkSubmit

通常spark程序提交通过bin/spark-submit.sh，而在shell中调用的是org.apache.spark.deploy.SparkSubmit，阅读代码如下：1.Spark...

平常心发布于平常心 • 2017-08-31 16:29 评论(0)

2

推荐

1939

阅读

spark环境搭建

准备工作一套搭建好的hadoop环境下载scala、spark安装包1、安装scalatar -xzvf scala-2.12.3.tgz2、安装sparktar -xzvf spark-2.2.0-bin-had...

liliwu 发布于奔跑的蜗牛 • 2017-08-16 17:50 评论(0)

2

推荐

2816

阅读

[Apache Spark][基本架构] RDD特性（一）

万丈高楼平地起，要熟悉Spark就得熟悉RDD，要熟悉RDD，就是要看Doc．当我们对RDD做运算时，其实都会产生不同的RDD．RDD的官方文件（http://spark.apache.org/...

bryanyang 发布于 bryan的博客专栏 • 2017-08-08 10:37 评论(0)

7

推荐

5257

阅读

windows下虚拟机配置spark集群最强攻略！

1、虚拟机安装首先需要在windows上安装vmware和ubuntu虚拟机，这里就不多说了vmware下载地址：直接百度搜索，使用百度提供的链接下载，这里附上一个破解码5A0...

石晓文发布于 wenwen • 2017-06-06 17:33 评论(2)

0

推荐

2908

阅读

数据开发系列篇(3):spark实战高手之路(一):如何搭建spark集群面包君

从零起步，构建Spark集群经典四部曲：第一步：搭建Hadoop单机和伪分布式环境；第二步：构造分布式Hadoop集群；第三步：构造分布式的Spark集群；第四步：测试S...

面包君发布于数据分析侠 • 2017-05-19 09:36 评论(0)

3

推荐

2347

阅读

在 Spark 中使用 IPython Notebook

本文是从 IPython Notebook 转化而来，效果没有本来那么好。主要为体验 IPython Notebook。至于题目，改成《在 IPython Notebook 中使用 Spark》也可以，没什...

疯狂的拖鞋发布于疯狂的拖鞋的博客专栏 • 2017-04-26 14:19 评论(0)

0

推荐

2383

阅读

轻量级OLAP（一）：Cube计算

有一个数据多维分析的任务：日志的周UV；APP的收集量及标注量，TOP 20 APP（周UV)，TOP 20 APP标注分类（周UV)；手机机型的收集量及标注量，TOP 20 机型（周U...

Treant 发布于 Talk is Cheap的博客专栏 • 2017-04-24 14:39 评论(0)

3

推荐

5182

阅读

Idea下使用maven打包可执行jar包并小案例演示

这一阵子在学习spark，有些本地执行不了，需要到集群上才能执行，奈何打包后的jar包放到集群上跑后一直找不到主类，折腾了好一会才搞出来，所以来此记录一下...

_缘君_ 发布于简单的happy • 2017-04-07 13:21 评论(2)

2

推荐

3285

阅读

Scala学习总结（一）

Scala是Spark的原生语言，读懂Spark源码的先前条件就是要学会Scala，因此scala学习是重要的。最近一周学习量大，主要是观看中华石杉老师的视频和快学scala这...

_缘君_ 发布于简单的happy • 2017-03-14 23:25 评论(0)

3

推荐

3018

阅读

Spark学习总结（一）

最近一周学习了scala编程基础和spark核心编程，现主要对所学的spark部分做个总结。RDD及其特点1、RDD是Spark的核心数据模型，但是个抽象类，全称为Resillient...

_缘君_ 发布于简单的happy • 2017-03-14 00:32 评论(0)

«
1
2
3
4
»

887 人关注

最佳回复者

Bob
获得12次推荐
MarsJ
获得8次推荐
牟瑞
获得5次推荐
万里88
获得4次推荐
在学古筝的程序员
获得3次推荐

改版

反馈