天善智能-商业智能和大数据在线社区，用心创造价值

0

投票

Hadoop的安装步骤是怎样的，给个完全的能安装成功的步骤

哈哈，后面出一期Hadoop搭建的视频，敬请期待大数据系列课程。

2016-08-18 19:40 回复了该问题

0

投票

在hadoop中为啥hive算中位数慢，但是rank over就很快？

你是怎么实现计算中位数的？写UDF吗？

2016-08-18 19:39 回复了该问题

0

投票

请问一下 hadoop实时查询用什么组件？还是导入到mysql中查询~

近实时的可以用HBase，查询性能还是可以的，只是你得学习HBase查询的接口，导出到MySQL这种方式也可行。

2016-08-18 19:38 回复了该问题

0

投票

mysql中datetime类型的字段用sqoop导入hive中会多个零，有人知道怎么回事吗？

在Hive中的对应字段可定义为timestamp

2016-08-17 11:00 回复了该问题

1

投票

请教大师： hadoop 开源的和商用的，有很大区别吗？商用的推荐哪个？

开源的功能如果能够支持现有需求，建议直接用开源的，现在开源社区比较活跃（遇到问题解决速度会比较快），并且Free 商用的有很多，例如楼上提到的HortonWor...

2016-08-17 10:59 回复了该问题

0

投票

新人求指导：spark on mesos 还是 spark on yarn？请问大家一般都用哪种模式？

如果你的集群比较单一，只跑Spark，可以使用Spark Standalone，如果集群本身在做Spark之前就使用YARN之类的，那么可以根据需要去使用Spa...

2016-08-17 10:55 回复了该问题

0

投票

请问各位大神sparksql里带有字符'@'怎么处理？

使用转义字符

2016-08-17 10:54 回复了该问题

0

投票

请问各位大神，简单实现worldcount，已经是将utf-8格式的记事本上传到HDFS 里了，eclipse运行时为什么还报这样的错误

考虑2个原因， 1，Eclipse的字符集配置； 2，UTF-8的记事本传到HDFS，HDFS是Linux上的吗，Linux想服务器的字符编码是否处理好了

2016-08-15 10:56 回复了该问题

0

投票

请教一个问题hive里怎样改写select count（distinct ），避免出现distinct！！！！考虑过采用 ROW_NUMBER() OVER(PARTITION BY ORDER BY * DESC) RN 和group by 都不能很好解决

你考虑的备选方法我也用过，用来去重，不知道你要的效果是什么？可以更具体一点哦。如果是要求速度更快一些，建议从Hive切换出去，用Spark SQL或其他的组件...

2016-08-15 10:55 回复了该问题

0

投票

问一下，hdfs的append操作，一定要关闭fds流吗？

这是必须的，如果append完成之后就要关闭。

2016-08-15 10:50 回复了该问题

0

投票

使用IDEA编写的scala程序，放到服务器上运行一直报错

看报错信息，你使用的是Spark on Yarn模式，检查YARN是否运行正常哦。

2016-08-15 10:41 回复了该问题

0

投票

[YY直播问题] 数据量特别大怎么办？22G的R处理很难

集成大数据工具，RHadoop、Spark等。 R本质是耗内存的，数据量大了之后这种刚需，可以考虑上面说的。

2016-08-06 09:14 回复了该问题

0

投票

请问现在hadoop存储文件的主流格式是什么啊？我们13年的时候用thrift的序列化文件，现在看官方文档给出的Parquet列式存储文件请问你们现在都用哪个啊？

看场景的，文本、Parquet、ORC等

2016-08-05 15:17 回复了该问题

0

投票

大神们，我格式化namenode时报错：说不能创建java虚拟机，网上说是hadoop分配的内存大于系统内存了，我在hadoop-daemon.sh 中修改了HADOOP_HEAPSIZE=500(本来默认1000)，我自己的主机内存是512m的，但是改完之后格式化还是包同样的错误，这是为什么呢？该如何修改呢

改成更小的试试

2016-08-05 15:16 回复了该问题

0

投票

格式化hadoop集群时的问题，请高手帮忙看看啥问题？怎么解决？

连不上机器，检查： 1、/etc/hosts有没有配好IP和主机名的解析？ 2、防火墙是否关闭 3、SSH是否做好