withFsUrl()中的参数就是HDFS集群的位置,例如你的集群在192.168.130.1,那么就应该是hdfs://192.168.130.1:portn...
2016-09-19 14:30 回复了该问题什么情况下链接的?一般来说ssh有一对公私密钥对,需要把公钥给对方,才能免密码连接到对方的机器上去
2016-09-18 19:29 回复了该问题没有用过cloudera quick start vm,想必是一个预装了cloudera套件的虚拟机吧?可以执行操作系统的查找,例如CentOS下的find /...
2016-09-18 19:28 回复了该问题提交作业到集群是spark-submit,如果是要配置Spark的作业进行调度的话,可以找一些现有的开源调度工具,但是如果场景教简单,可以直接写在Linux的c...
2016-09-14 10:37 回复了该问题小于64M就存储文件的实际大小
2016-09-13 14:21 回复了该问题Spark有存储级别(缓存、内存、磁盘),当数据量达到内存大小的时候,会开始根据一些内存调度算法进行溢出到磁盘的操作。 仍然是比MR快的
2016-09-13 09:49 回复了该问题这种情况多可以看一下是否防火墙和SeLinux是否关闭。一般来说可以解决问题。不行的话再私信我帮你解决
2016-09-13 09:48 回复了该问题hadoop的程序单机版不也是MR吗?天善学院中有一位老师开了MapReduce的课程,可以看一下。 另外,可以跟着Hadoop官方网站的知道去写程序,像Had...
2016-09-13 09:46 回复了该问题Spark应该可以做到,也要看配置。其中的filter过滤算子可以完成过滤运算,保存直接用saveAs...去存。试试
2016-09-12 10:15 回复了该问题ssh是用的localhost还是定义的主机名? hadoop中slave你配置的是IP地址还是主机名localhost或者主机名?
2016-09-12 10:14 回复了该问题首先,可以在Spark中Java写函数,这样的程序在分布式Spark的环境下是并行计算的。 然后,在Spark中写Java,用到了什么就import什么,例如J...
2016-09-10 13:27 回复了该问题可实现的一种方式是在Hive那一层做权限控制,或在HDFS层对目录做访问权限控制。 Kerberos等方案不是很清楚,没有时间经验。
2016-09-10 13:18 回复了该问题