天善智能-商业智能和大数据在线社区，用心创造价值

1

投票

hdfsbolt（storm写hdfs）访问集群名错误，访问某个namenode就ok，为啥？

withFsUrl()中的参数就是HDFS集群的位置，例如你的集群在192.168.130.1，那么就应该是hdfs://192.168.130.1:portn...

2016-09-19 14:30 回复了该问题

0

投票

请教一下，为何ssh连接对方电脑时就会出现known_hosts以前从没出现过。

什么情况下链接的？一般来说ssh有一对公私密钥对，需要把公钥给对方，才能免密码连接到对方的机器上去

2016-09-18 19:29 回复了该问题

0

投票

小白求助下大家我装了个cloudera quick start vm 然后jps 显示只有Jps进程，我在/bin和sbin/文件下都没有找到start-dfs.sh start-yarn.sh之类的文件请问能怎么启动啊？

没有用过cloudera quick start vm，想必是一个预装了cloudera套件的虚拟机吧？可以执行操作系统的查找，例如CentOS下的find /...

2016-09-18 19:28 回复了该问题

0

投票

mapreduce任务跑完之后找不到job历史信息

jobhistory启动了吗

2016-09-18 19:27 回复了该问题

0

投票

谁做过spark项目，在生产上，spark作业如何配置调度作业，并提交作业到集群

提交作业到集群是spark-submit，如果是要配置Spark的作业进行调度的话，可以找一些现有的开源调度工具，但是如果场景教简单，可以直接写在Linux的c...

2016-09-14 10:37 回复了该问题

1

投票

咨询大家一个问题 hdfs设置block快64M 我存储一个文件80M 那么将会分成两个块一个64M 一个16M 请问16M的存储在磁盘上所占的空间是实际大小还是是设定的块的大小

小于64M就存储文件的实际大小

2016-09-13 14:21 回复了该问题

0

投票

刚才配置了一下hive但是启动显示权限不够是怎么回事？

看一下bin下面的hive脚本文件有没有可执行权限，就是rwx中的x

2016-09-13 14:18 回复了该问题

0

投票

当要处理的文件远大于内存时，spark是如何解决的？此时会比mapreduce快吗?如何保证的？

Spark有存储级别（缓存、内存、磁盘），当数据量达到内存大小的时候，会开始根据一些内存调度算法进行溢出到磁盘的操作。仍然是比MR快的

2016-09-13 09:49 回复了该问题

0

投票

运行start-all.sh后，jps查看数据节点没有datanode，查看datanode日志文件，里面报java.net.BindException Port in use: localhost:0

这种情况多可以看一下是否防火墙和SeLinux是否关闭。一般来说可以解决问题。不行的话再私信我帮你解决

2016-09-13 09:48 回复了该问题

0

投票

哪位大神知道MR连接mysql驱动包的问题怎么解决

1、是否添加MySQL的jdbc的包在正确的位置 2、包的版本是否正确

2016-09-13 09:47 回复了该问题

0

投票

有没有hadoop的资料分享下，我刚开始学hadoop，单机版的程序会写，改成mapreduce函数就不会写了，有没有相关的资料，学习下

hadoop的程序单机版不也是MR吗？天善学院中有一位老师开了MapReduce的课程，可以看一下。另外，可以跟着Hadoop官方网站的知道去写程序，像Had...

2016-09-13 09:46 回复了该问题

0

投票

500W左右的文件，要解析成有用的数据，用什么保存，分析工具比较合适？需要对保存后的数据过滤运算，可以在1~2秒内得到转换结果

Spark应该可以做到，也要看配置。其中的filter过滤算子可以完成过滤运算，保存直接用saveAs...去存。试试

2016-09-12 10:15 回复了该问题

0

投票

可以请教一下么，ssh免密码能成功，启动hadoop还是要输入密码，这是什么原因呢？

ssh是用的localhost还是定义的主机名？ hadoop中slave你配置的是IP地址还是主机名localhost或者主机名？

2016-09-12 10:14 回复了该问题

0

投票

请教各位大神，JAVA语言，自己写个函数，在spark程序中可以调用吗，如果能的话，用的是org.apache.spark.api.java.function这个接口来实现吗？能否提供具体的样例呢？这样实现的函数是并行计算的吗？

首先，可以在Spark中Java写函数，这样的程序在分布式Spark的环境下是并行计算的。然后，在Spark中写Java，用到了什么就import什么，例如J...

2016-09-10 13:27 回复了该问题

0

投票

spark如何做权限控制，让不同的用户看到不同的表？

可实现的一种方式是在Hive那一层做权限控制，或在HDFS层对目录做访问权限控制。 Kerberos等方案不是很清楚，没有时间经验。

2016-09-10 13:18 回复了该问题

MarsJ

他关注的

他的粉丝

他的回答
排序:
时间 投票