Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法

排序：

时间投票

0

推荐

2547

阅读

利用 Spark 和 scikit-learn 将你的模型训练加快 100 倍

文章发布于公号【数智物语】（ID：decision_engine），关注公号不错过每一篇干货。来源 | AI开发者（okweiwu）作者 | skura在 Ibotta，我们训练了...

数智物语发布于数智物语 • 2019-09-24 16:28 评论(0)

0

推荐

2357

阅读

Spark SQL 概述

推荐文章 https://blog.csdn.net/bingdianone/article/details/84134868大数据中的sql之前使用范围最广的是hadoop体系的中的hive sqlhive sql 原理是将sql转...

攻城的狮子发布于攻城的狮子 • 2019-09-03 13:43 评论(0)

0

推荐

1772

阅读

Spark概述及安装

推荐文章https://blog.csdn.net/bingdianone/article/details/84105561#Spark_1hadoop的生态圈Hive构建在HDFS上，原理是将sql转mapreduceMahout，R语言机器...

攻城的狮子发布于攻城的狮子 • 2019-09-03 10:11 评论(0)

0

推荐

1912

阅读

数据挖掘之Spark学习

阅读路线:Hadoop与Spark比较Spark的安装Spark知识点一、Hadoop与Spark比较1.简单的比较刚开始学习Spark的时候，自己总是会想当然的理解两者之间的关系。Hadoo...

DataFrog 发布于凡人求索--李凯旋 • 2019-08-28 19:31 评论(0)

0

推荐

1719

阅读

30分钟理解Spark的基本原理

文章发布于公号【数智物语】（ID：decision_engine），关注公号不错过每一篇干货。作者 | 梁云1991转载自Python与算法之美（ID:Python_Ai_Road）01Spar...

数智物语发布于数智物语 • 2019-07-17 17:38 评论(0)

0

推荐

2986

阅读

Sparklyr与Docker的推荐系统实战

概述大数据时代，做数据分析的人才辈出，Java、Scala、Go、Julia、Python、JavaScript都不断涌现出很多数据分析的新工具，然而对于数据分析来说，这些工具都...

R语言中文社区发布于 R语言中文社区 • 2019-04-08 10:03 评论(0)

0

推荐

2242

阅读

sparklyr 1.0发布，有哪些新功能？

作者：Javier Luraschi翻译：黄小伟，10年资深数据矿工。目前就职杭州有赞，欢迎加入有赞分析团队sparklyr 1.0目前已经可以通过CRAN直接下载、安装使用！它提...

R语言中文社区发布于 R语言中文社区 • 2019-03-18 09:39 评论(0)

2

推荐

9548

阅读

spark中df, rdd, list 转换

df to rdd: df.rdd.map(list) df.rdd.map(tuple) df.rdd.map(lambda x: list(x[0])) rdd to list: rdd1.collect() df to list: df.rdd.map(...

safa 发布于 safa • 2019-01-11 15:19 评论(0)

1

推荐

2409

阅读

通过jdbc读取OBIEE数据--Spark示例

最近在用Spark同步数据的时候想到,是否可以直接从已有的OBIEE读取数据,OBIEE上面有完整的语义层,读取数据就比较方便了.想到以前Rittmanmead有篇blog提到，如...

seng 发布于 seng的博客 • 2018-12-06 17:01 评论(0)

1

推荐

2837

阅读

Spark Structured Streaming的一些link

最近在测试相关内容, 以下列了一些我觉得有用的link官方文档Spark Structured Streaming Programming Guide https://spark.apache.org/docs/latest/structure...

seng 发布于 seng的博客 • 2018-11-09 15:06 评论(0)

1

推荐

2100

阅读

无缝对接Spark与R：Sparklyr系列—探讨属于数据科学家的Spark

作者：黄天元，复旦大学博士在读，目前研究涉及文本挖掘、社交网络分析和机器学习等。希望与大家分享学习经验，推广并加深R语言在业界的应用。邮箱：huang.ti...

R语言中文社区发布于 R语言中文社区 • 2018-10-30 15:14 评论(0)

0

推荐

4304

阅读

SparkStreaming下Python报net.jpountz.lz4.LZ4BlockInputStream的解决

这几天在测试SparkStreaming,连接Kafka一直报这个错, 18/08/30 21:09:00 ERROR Utils: Uncaught exception in thread stdout writer for python java.lang.No...

seng 发布于 seng的博客 • 2018-08-30 21:30 评论(0)

0

推荐

3145

阅读

Spark笔记2--Dataset保存为parquet格式遇到的问题

spark天然支持parquet，且其推荐的存储格式就是parquet，但存储时，对其列名有一定的要求：1.列名称不能包含" ,;{}()\n\t=" SparkSession spar...

_缘君_ 发布于简单的happy • 2018-08-17 15:49 评论(0)

1

推荐

4830

阅读

Spark笔记1--以表头创建空的dataset

最近上手Spark相关的项目，实践过程中遇到的几个问题，来此记录下。1.引入maven包 org.apache.spark spark-core_2.11 2.3.0 org.apache.spark spark-...

_缘君_ 发布于简单的happy • 2018-08-17 14:49 评论(0)

0

推荐

2747

阅读

Spark Streaming连接kafka测试

在上次使用了下kafka，在此测试下CentOS 7中Spark streaming连接kafka，并把数据传入postgresql中一、环境部署安装python3.6、spark 2.3、kafka,具体可以参考...

走马兰台发布于仰视浮云白 • 2018-06-29 14:05 评论(0)

«
1
2
3
4
»

887 人关注

最佳回复者

Bob
获得12次推荐
MarsJ
获得8次推荐
牟瑞
获得5次推荐
万里88
获得4次推荐
在学古筝的程序员
获得3次推荐

改版

反馈