近实时的可以用HBase,查询性能还是可以的,只是你得学习HBase查询的接口, 导出到MySQL这种方式也可行。
2016-08-18 19:38 回复了该问题开源的功能如果能够支持现有需求,建议直接用开源的,现在开源社区比较活跃(遇到问题解决速度会比较快),并且Free 商用的有很多,例如楼上提到的HortonWor...
2016-08-17 10:59 回复了该问题如果你的集群比较单一,只跑Spark,可以使用Spark Standalone,如果集群本身在做Spark之前就使用YARN之类的,那么可以根据需要去使用Spa...
2016-08-17 10:55 回复了该问题考虑2个原因, 1,Eclipse的字符集配置; 2,UTF-8的记事本传到HDFS,HDFS是Linux上的吗,Linux想服务器的字符编码是否处理好了
2016-08-15 10:56 回复了该问题你考虑的备选方法我也用过,用来去重,不知道你要的效果是什么?可以更具体一点哦。 如果是要求速度更快一些,建议从Hive切换出去,用Spark SQL或其他的组件...
2016-08-15 10:55 回复了该问题集成大数据工具,RHadoop、Spark等。 R本质是耗内存的,数据量大了之后这种刚需,可以考虑上面说的。
2016-08-06 09:14 回复了该问题看场景的,文本、Parquet、ORC等
2016-08-05 15:17 回复了该问题连不上机器,检查: 1、/etc/hosts有没有配好IP和主机名的解析? 2、防火墙是否关闭 3、SSH是否做好
2016-08-05 15:16 回复了该问题