Bob

同程旅游大数据+BI 架构师

始于: 2015-09-29

江苏省 苏州市

发私信

250

总声望

142

次被推荐

0

粉丝

他的回答
排序:

1
投票

Hadoop VS Spark哪个好?

这些技术都非常好,想深入都是耗时的事情。   hadoop是最通用型的分布式集群,也是大数据生态中的核心。 spark集群在计算的时候能充分利用内存来存储,速度...

2015-10-27 13:50 回复了该问题
1
投票

如何使用python在hbase里进行模糊查询?

要想使用python访问hbase,一般是使用thrift组件。现在也有一个开源的happyhbase组件 或 Starbase组件可以试试。 Python代码...

2015-10-27 13:44 回复了该问题
2
投票

哪位大神做过用Spark合并多个parquet文件,求个思路

可以在save前调用coalesce(1)方法 val rows = parquetFile(...).coalesce(1) rows.saveAsParqu...

2015-10-26 11:37 回复了该问题
0
投票

hive查询报错,急。。。。在线等

_SUCCESS 是Job成功后写在目录中的一个标记文件而已。 你的这个问题需要详细看看log,可能是tez本身出现了问题。因为你的hive框架默认不是调用ya...

2015-10-26 11:30 回复了该问题
1
投票

问个问题, Driver 我应该怎么理解呢? spark master 和 driver 有着什么关系?

master 是主控,负责接收客户端提交的作业,管理worker,并通知worker启动driver和executor driver是一个spark作业的主进程...

2015-10-23 16:14 回复了该问题
1
投票

SAS,R,Python,matlab,spss,stata这类工具究竟是什么?

都是可用在统计分析方面的软件。 sas spss都是商业版的,支持数据挖掘、分析等。 MATLAB则是统计专业中最常见的入门工具 R语言属于开源的产品,目前很火...

2015-10-23 16:08 回复了该问题
0
投票

在传统通信行业跟互联网行业中,在处理大数据方面,hadoop跟传统数据库各自发挥怎样的优势。。。。

一切按实际需求和场景来定。 如果需要进行海量数据的清洗和存储,可以考虑用Hadoop集群。 Hadoop生态中有很多的组件来应用到不同的场景: 1.如果你想支撑...

2015-10-23 13:40 回复了该问题
1
投票

请问一下,在Kettle我想将数据用Excel表输出,但是数据多达20万条,超过了excel表单页最大输出行,如何将数据导出到同个Excel的多个sheet中

你可以升级excel到07以后的版本。这杨支持的行记录数便会多些。   如果确实想写入多个sheet,则仔细参考下这个博客: http://type-exit....

2015-10-23 13:27 回复了该问题
1
投票

销售预测一般是基于是什么预测的?零售行业的销售预测对经营的指导性作用大吗?,求思路

常见的是时间序列,另外考虑下节假日因素。 一般会使用R语言做一些算法模型的建立。 如果你的预测准确度能达到真实值的95%以上,那对采购、货物管理、进销存还是有很...

2015-10-23 13:14 回复了该问题
0
投票

日志采集系统flume和kafka有什么区别及联系,它们分别在什么时候使用,什么时候又可以结合?

其实楼上的回答已经很全面了。 当你只想进行日志的收集工作时,可直接用flume。 如果你收集了日志后,想输出到多个业务方,则可结合kafka。kafka是消息队...

2015-10-22 13:33 回复了该问题
0
投票

report报表接收一个参数,mdx如何进行间接过滤?

这种逻辑判断的业务场景下,建议你的mdx语句中新增对.net程序集的调用。 例如:mdx的where可增加 MDXHelper.YearUtil(2015) M...

2015-10-22 13:24 回复了该问题
0
投票

各位大神 spark streaming 如何向kafka的zookeeper发送信息?

spark与kafka的连接方面还是不够稳定。   如果想发送offset 到kafka,引用下  org.apache.spark.streaming.kaf...

2015-10-21 13:32 回复了该问题
0
投票

关于MS sql的MERGE 语法原理

针对测试一和测试二的结果,我的理解如下,仅供参考。 测试一的场景是: 1.取出全部的test1表数据,按照 T.CODE=S.CODE AND S.ID=1 这...

2015-10-21 13:15 回复了该问题
0
投票

datastage中Funnel 和merge 有什么区别?

Funnel 要求字段数相同 Merge只要求有共同的Merge key

2015-10-21 13:01 回复了该问题

改版

反馈