这些技术都非常好,想深入都是耗时的事情。 hadoop是最通用型的分布式集群,也是大数据生态中的核心。 spark集群在计算的时候能充分利用内存来存储,速度...
2015-10-27 13:50 回复了该问题要想使用python访问hbase,一般是使用thrift组件。现在也有一个开源的happyhbase组件 或 Starbase组件可以试试。 Python代码...
2015-10-27 13:44 回复了该问题可以在save前调用coalesce(1)方法 val rows = parquetFile(...).coalesce(1) rows.saveAsParqu...
2015-10-26 11:37 回复了该问题_SUCCESS 是Job成功后写在目录中的一个标记文件而已。 你的这个问题需要详细看看log,可能是tez本身出现了问题。因为你的hive框架默认不是调用ya...
2015-10-26 11:30 回复了该问题master 是主控,负责接收客户端提交的作业,管理worker,并通知worker启动driver和executor driver是一个spark作业的主进程...
2015-10-23 16:14 回复了该问题都是可用在统计分析方面的软件。 sas spss都是商业版的,支持数据挖掘、分析等。 MATLAB则是统计专业中最常见的入门工具 R语言属于开源的产品,目前很火...
2015-10-23 16:08 回复了该问题一切按实际需求和场景来定。 如果需要进行海量数据的清洗和存储,可以考虑用Hadoop集群。 Hadoop生态中有很多的组件来应用到不同的场景: 1.如果你想支撑...
2015-10-23 13:40 回复了该问题你可以升级excel到07以后的版本。这杨支持的行记录数便会多些。 如果确实想写入多个sheet,则仔细参考下这个博客: http://type-exit....
2015-10-23 13:27 回复了该问题你可以关闭SSAS数据库的匿名连接
2015-10-23 13:15 回复了该问题常见的是时间序列,另外考虑下节假日因素。 一般会使用R语言做一些算法模型的建立。 如果你的预测准确度能达到真实值的95%以上,那对采购、货物管理、进销存还是有很...
2015-10-23 13:14 回复了该问题其实楼上的回答已经很全面了。 当你只想进行日志的收集工作时,可直接用flume。 如果你收集了日志后,想输出到多个业务方,则可结合kafka。kafka是消息队...
2015-10-22 13:33 回复了该问题这种逻辑判断的业务场景下,建议你的mdx语句中新增对.net程序集的调用。 例如:mdx的where可增加 MDXHelper.YearUtil(2015) M...
2015-10-22 13:24 回复了该问题spark与kafka的连接方面还是不够稳定。 如果想发送offset 到kafka,引用下 org.apache.spark.streaming.kaf...
2015-10-21 13:32 回复了该问题针对测试一和测试二的结果,我的理解如下,仅供参考。 测试一的场景是: 1.取出全部的test1表数据,按照 T.CODE=S.CODE AND S.ID=1 这...
2015-10-21 13:15 回复了该问题