天善智能-商业智能和大数据在线社区，用心创造价值

0

投票

请问要用rhadoop，sparkR包，必须在linux环境下的R吗？

那是肯定的啊，R代码需要R环境才能解析啊

2017-08-30 10:25 回复了该问题

0

投票

请问一下，你们做hadoop mr的时候是在本地开发还是在虚拟机上开发的？

程序本地写，测试时候发到你的服务器上去跑。

2017-08-30 10:24 回复了该问题

0

投票

spark从mysql读取数据，根据日期放在hive里面，产生了好多小文件，现在通过DataSet.coalesce()合并小文件，导致写入速度非常慢，各位大神有啥其他方法

你的目的是减少文件的个数，设置合理的分区数就可以了，例如设置分区数为5，对应5个文件。coalesce和repartitions都能设置分区数量，其底层原理有稍...

2017-08-30 10:23 回复了该问题

0

投票

像spark hadoop这些大数据相关的怎么自我学习，比如说集群个人电脑条件也不满足有没有什么云平台可以提供实验环境？

你可以到腾讯实验室看看。目前是免费试验

2017-08-30 10:19 回复了该问题

0

投票

谁有spark+kafka+flume日志系统的文档（需求分析、概要设计，详细设计等等）

流数据处理？SparkStreaming+kafka+flume可以的。详细可以参考spark官网

2017-07-02 11:36 回复了该问题

0

投票

有个问题请教一下：有一些数据是从互联网上爬取的，存放于hdfs中，想做一些数据统计或分析，后面有哪些方式实现？

做数据统计或分析选择就多了。可以用R、Python、java等语言，将数据从HDFS读取出来后做一些数理统计。如果要用大数据处理方案，选择还是比较多的，建议使用...

2017-06-16 10:13 回复了该问题

1

投票

spark 里面，如何并行插入数据到数据库的不同表，表结构一样

使用rdd上的randomSplit方法，将一个RDD随机拆分成多个RDD，randomSplit方法返回一个rdd数组，遍历数组，取出每个rdd，toDF后，...

2017-06-16 10:11 回复了该问题

0

投票

java.lang.ClassNotFoundException: kafka.serializer.StringDecoder对应的jar包是存在类的，但是找不到类，这是为什么？

还需要额外的kafka的包， [attach]36105[/attach]

2017-04-24 10:06 回复了该问题

0

投票

基于hadoop，GFS，上面又搭了个东西，到底是啥意思？

GFS实际上是一个分布式存储系统，hadoop为你提供了分布式计算（mapreduce）、分布式存储(hdfs)、任务调度（yarn）的功能，在hadoop之上...

2017-04-20 18:20 回复了该问题

0

投票

Spark 动态UDF

不行的，这个原理是这样的。你自己的写的UDF需要通过udf上的register方法注册到SqlContext上，而SqlContext是在Driver进程启动的...

2017-04-20 17:53 回复了该问题

0

投票

没有java基础如何学习spark scala？

有其他语言基础，理解起来也是挺容易的。你会SQL那也很好啊，SparkSql可以全sql化操作。

2017-04-19 23:10 回复了该问题

0

投票

Hadoop2.7.0可以用hadoop2.6.0-eclipse-plugin吗?

我觉的行，不过没有尝试过使用hadoop2.6.0-eclipse-pluging. 只要大的版本号一样就没什么问题，试试即可，不行再换2.7

2017-04-18 10:49 回复了该问题

0

投票

spark mongodb 集群部署

1.看你使用什么调度模式。如果要使用yarn资源管理框架，使用yarn这种调度模式，那需要部署hadoop中的yarn。 2.Spark计算虽然不依赖hadoo...

2017-04-18 10:45 回复了该问题

0

投票

spark中如何看有多少个并发的task啊

你可以通过rdd.partitions.size在程序里面查看，比较方便的是你可以在spark-shell中 val a = spark.range(1,10...

2017-04-06 10:42 回复了该问题

0

投票

一个spark项目local启动不了，求大神指导（win10+idea2017+spark-core-2.10-1.6.1）

权限问题，不要在idea环境里面调，打包在服务器上运行。或者在spark-shell调试好代码在粘贴到idea里面最后再打包上传服务器运行。

2017-04-05 17:18 回复了该问题

regan

他关注的

他的粉丝

他的回答
排序:
时间 投票