示例: spark.repartition(1).saveAsTextFile("out.txt")
2016-05-12 13:30 回复了该问题线上的SSAS是可以配置http方式访问的 这样就可以使用[url=http://ip]类似http://localhost:8088/msmdpump.dll...
2016-05-12 09:37 回复了该问题1.借助第三方 maatkit - parallel restore maatkit - parallel dump [url]https://www.pe...
2016-05-12 09:29 回复了该问题从map到reduce中间经历copy,sort,merge几个环节。 其中sort阶段是发生在 buffer阶段。 从map结果的partition中读取...
2016-05-12 09:20 回复了该问题小编的问题啊! TEZ是分布式DAG的运行框架,能无缝运行MR程序,并能减少MR的中间产物,加速MR的运行。通过数据流API,开发者可以非常灵活运用。hive ...
2016-05-06 23:49 回复了该问题1.你要先在服务器上部署kafka单节点 或者部署分布式的kafka集群。 其中分布式的kafka集群是需要zookeeper的环境 在本地建立java程序...
2016-05-06 09:26 回复了该问题1.其实是可以将cube和大表同时建立。例如你可以选择使用kylin来完成cube的建设,同时在hive上保留一个大表。kylin本身也是读取hive的仓库表结...
2016-05-04 16:35 回复了该问题hadoop中的MapReduce就是批处理机制 使用hive来完成数据的处理,是方便开发者使用类sql的方式来处理数据,在这个过程中,只要不对原始数据进行条件...
2016-05-03 17:29 回复了该问题参考: http://stackoverflow.com/questions/36803207/size-of-the-sparse-vector-in-the...
2016-05-03 17:26 回复了该问题一般有点规模的互联网企业都选择围绕hadoop来自建数据平台,例如点评、美团、小米等 小点的大数据创业公司也会选择使用这类的开源技术 国企内部的则会区分:移动通...
2016-05-03 17:20 回复了该问题重要,做任何一个升级的时候都要记得备份核心数据两种方式: 1.hadoop自带的升级命令 2.搭建一个新版本的hadoop集群,然后把数据分优先级逐步拷贝过去
2016-05-03 15:51 回复了该问题二者差异不大。因为hbase的数据也是存放在hdfs上。hive的核心是做了一个sql解析引擎。让擅长sql编程的人员能操作hdfs文件。 一般情况下是使用ha...
2016-04-26 13:03 回复了该问题