MarsJ

大数据玩家~DS

始于: 2015-10-13

广东省 广州市

发私信

1580

总声望

216

次被推荐

0

粉丝

他的回答
排序:

0
投票

Hadoop的安装步骤是怎样的,给个完全的能安装成功的步骤

哈哈,后面出一期Hadoop搭建的视频,敬请期待大数据系列课程。

2016-08-18 19:40 回复了该问题
0
投票

在hadoop中为啥hive算中位数慢,但是rank over就很快?

你是怎么实现计算中位数的?写UDF吗?

2016-08-18 19:39 回复了该问题
0
投票

请问一下 hadoop实时查询用什么组件?还是导入到mysql中查询~

近实时的可以用HBase,查询性能还是可以的,只是你得学习HBase查询的接口, 导出到MySQL这种方式也可行。

2016-08-18 19:38 回复了该问题
0
投票

mysql中datetime类型的字段用sqoop导入hive中会多个零,有人知道怎么回事吗?

在Hive中的对应字段可定义为timestamp

2016-08-17 11:00 回复了该问题
1
投票

请教大师: hadoop 开源的和商用的,有很大区别吗? 商用的推荐哪个?

开源的功能如果能够支持现有需求,建议直接用开源的,现在开源社区比较活跃(遇到问题解决速度会比较快),并且Free 商用的有很多,例如楼上提到的HortonWor...

2016-08-17 10:59 回复了该问题
0
投票

新人求指导:spark on mesos 还是 spark on yarn? 请问大家一般都用哪种模式?

如果你的集群比较单一,只跑Spark,可以使用Spark Standalone,如果集群本身在做Spark之前就使用YARN之类的,那么可以根据需要去使用Spa...

2016-08-17 10:55 回复了该问题
0
投票

请问各位大神sparksql里带有字符'@'怎么处理?

使用转义字符

2016-08-17 10:54 回复了该问题
0
投票

请问各位大神,简单实现worldcount,已经是将utf-8格式的记事本上传到HDFS 里了,eclipse运行时为什么还报这样的错误

考虑2个原因, 1,Eclipse的字符集配置; 2,UTF-8的记事本传到HDFS,HDFS是Linux上的吗,Linux想服务器的字符编码是否处理好了

2016-08-15 10:56 回复了该问题
0
投票

请教一个问题hive里怎样改写select count(distinct **),避免出现distinct!!!! 考虑过采用 ROW_NUMBER() OVER(PARTITION BY ** ORDER BY * DESC) RN 和group by 都不能很好解决

你考虑的备选方法我也用过,用来去重,不知道你要的效果是什么?可以更具体一点哦。 如果是要求速度更快一些,建议从Hive切换出去,用Spark SQL或其他的组件...

2016-08-15 10:55 回复了该问题
0
投票

问一下,hdfs的append操作,一定要关闭fds流吗?

这是必须的,如果append完成之后就要关闭。

2016-08-15 10:50 回复了该问题
0
投票

使用IDEA编写的scala程序,放到服务器上运行一直报错

看报错信息,你使用的是Spark on Yarn模式,检查YARN是否运行正常哦。

2016-08-15 10:41 回复了该问题
0
投票

[YY直播问题] 数据量特别大怎么办?22G的R处理很难

集成大数据工具,RHadoop、Spark等。 R本质是耗内存的,数据量大了之后这种刚需,可以考虑上面说的。

2016-08-06 09:14 回复了该问题
0
投票

格式化hadoop集群时的问题,请高手帮忙看看啥问题?怎么解决?

连不上机器,检查: 1、/etc/hosts有没有配好IP和主机名的解析? 2、防火墙是否关闭 3、SSH是否做好

2016-08-05 15:16 回复了该问题

改版

反馈