你的目的是减少文件的个数,设置合理的分区数就可以了,例如设置分区数为5,对应5个文件。coalesce和repartitions都能设置分区数量,其底层原理有稍...
2017-08-30 10:23 回复了该问题你可以到腾讯实验室看看。目前是免费试验
2017-08-30 10:19 回复了该问题流数据处理?SparkStreaming+kafka+flume可以的。详细可以参考spark官网
2017-07-02 11:36 回复了该问题做数据统计或分析选择就多了。可以用R、Python、java等语言,将数据从HDFS读取出来后做一些数理统计。如果要用大数据处理方案,选择还是比较多的,建议使用...
2017-06-16 10:13 回复了该问题使用rdd上的randomSplit方法,将一个RDD随机拆分成多个RDD,randomSplit方法返回一个rdd数组,遍历数组,取出每个rdd,toDF后,...
2017-06-16 10:11 回复了该问题还需要额外的kafka的包, [attach]36105[/attach]
2017-04-24 10:06 回复了该问题GFS实际上是一个分布式存储系统,hadoop为你提供了分布式计算(mapreduce)、分布式存储(hdfs)、任务调度(yarn)的功能,在hadoop之上...
2017-04-20 18:20 回复了该问题不行的,这个原理是这样的。你自己的写的UDF需要通过udf上的register方法注册到SqlContext上,而SqlContext是在Driver进程启动的...
2017-04-20 17:53 回复了该问题我觉的行,不过没有尝试过使用hadoop2.6.0-eclipse-pluging. 只要大的 版本号一样就 没什么问题,试试即可, 不行再换2.7
2017-04-18 10:49 回复了该问题1.看你使用什么调度模式。如果要使用yarn资源管理框架,使用yarn这种调度模式,那需要部署hadoop中的yarn。 2.Spark计算虽然不依赖hadoo...
2017-04-18 10:45 回复了该问题你可以通过rdd.partitions.size在程序里面查看,比较方便的是你可以在spark-shell中 val a = spark.range(1,10...
2017-04-06 10:42 回复了该问题权限问题,不要在idea环境里面调,打包在服务器上运行。或者在spark-shell调试好代码在粘贴到idea里面最后再打包上传服务器运行。
2017-04-05 17:18 回复了该问题