天善智能-商业智能和大数据在线社区，用心创造价值

0

投票

请问大神们这个错是怎么回事，我把hadoop部署在了linux里，大概原因我也差不多知道了，缺少winutils.exe，我也网上下载了，可是这个东西应该怎么用

这个winutil.exe是啥？

2016-10-18 15:25 回复了该问题

0

投票

连接hive库取数据，会报broken pipe或者invalid sessionhandle错误？

Hive的元数据使用的是什么数据库？

2016-10-18 15:25 回复了该问题

1

投票

维度模型在hadoop中怎么实现？

Apache Kylin可以做到维度建模。原始数据以Hive表的形式存储，包括事实表和各个维度表，Hive也被称为是Hadoop之上的数据仓库，所以完全可...

2016-10-18 15:24 回复了该问题

1

投票

求问个问题大家部署spark集群的时候是和hadoop用的相同的机器还是分离开的

资源有限时可访在一个集群，如楼上Bob大神说的，Spark对内存要求高，但是有些场景下，为了避免维护2个集群，会将Hadoop和Spark不属于一个集群上。看具...

2016-10-18 15:19 回复了该问题

0

投票

大家好，谁在生产环境中把hive 的引擎改成spark 上效果怎么样

效果确实不错，比单纯的MR还要很多。但是比完全的Spark SQL又要慢一点。我有一篇博文介绍Hive on Spark实践的，仅供参考https://ask...

2016-10-18 15:18 回复了该问题

0

投票

请教一个问题，HDFS设置备份次数为3。1台机器死掉了，它上面的文件备份次数就减为2了，cloudera是自动开始同步备份恢复到3吗？有手动恢复到3的命令吗？

HDFS文件系统有副本恢复策略，当一个节点挂掉了，Master一旦检测到（或通过心跳反应没能获得该节点信息），则就会将其上面的所有Block根据一定的原理复制一...

2016-10-18 15:16 回复了该问题

1

投票

大神有没有遇见过Hadoop某个节点jps查看已经启动了，但是去页面看活跃节点时候没有该节点

那回过头去Jps查看时，进程还存在吗？有可能掉了，或者是Web端还没同步。如果不是上述原因，则可能该节点进程出现错误挂掉了，希望提供错误日志以供分析

2016-10-18 15:14 回复了该问题

0

投票

Hadoop-3.0.0单机安装报错！下面这个错误怎么解决呢？老师能否详细讲一下hadoop-3.0.0用户管理的东西？

做了SSH吗？好像权限有问题。

2016-10-18 15:12 回复了该问题

0

投票

spark是用Scala来写的，为什么Scala语言没火起来

已经比较火了，如果说你工作环境有用Spark的，那基本上会用原生的Scala，用Python的也有，但是算少数吧，毕竟Spark对Python的支持也是有限的

2016-10-18 15:10 回复了该问题

0

投票

Hadoop监控页面无法看到hive的执行情况

可能你的Hive所执行的任务输入Local任务，不是集群的任务，所以不会涉及到MR，你在执行Hive时是可以看到的，启动一个Job后，可能看到带local字样的...

2016-10-18 15:08 回复了该问题

0

投票

Hive替换字段里面的tab

你使用的regexp_replace()函数，第一个参数是原始字符串，第二个参数是要被替换的字串（Java正则表达式表示），第三个参数是用于替换的字符串，你只要...

2016-10-18 15:06 回复了该问题

0

投票

sqoop连接mysql出现错误

错误提示：Error parsing arguments for list-databases，解析list-databases后面的参数出错，你的connec...

2016-10-18 15:02 回复了该问题

0

投票

问个问题哈，假如hdfs中有10T数据，通过Hive来查询，此时要将hdfs中10T数据也入mysql，这样mysql是存不下10T数据啊，求解，是怎么个意思，没明白hdfs，hive，mysql三者具体的关系，求教，谢谢？

楼上Seng总解释清了MySQL作为元数据的问题。还请注意，1，HDFS存储数据是有副本的，1T的数据，如果副本是3，则需要3T的空间；2，如果是把HDFS某...

2016-10-11 15:11 回复了该问题

0

投票

sqooq传输文件时报错

命令没有错，你可以先用sqoop-list-databases --connect --username --password测试一下是否能连接正常。

2016-10-11 15:08 回复了该问题

0

投票

最近有需求，需要使用python在Spark平台上重新实现mllib包中的协同过滤推荐算法，不知道有没有大神做过这方面的研究？直接阅读scala源码然后照着搬，还是有其他什么好的路径？

Spark有对应支持的Python版本，不过貌似PySpark的环境也是个坑，可以踩坑然后分享经验。 MLlib中的协同过滤的链接：[url]https://...

2016-10-08 10:58 回复了该问题

MarsJ

他关注的

他的粉丝

他的回答
排序:
时间 投票