天善智能-商业智能和大数据在线社区，用心创造价值

1

投票

Hadoop VS Spark哪个好？

这些技术都非常好，想深入都是耗时的事情。 hadoop是最通用型的分布式集群，也是大数据生态中的核心。 spark集群在计算的时候能充分利用内存来存储，速度...

2015-10-27 13:50 回复了该问题

1

投票

如何使用python在hbase里进行模糊查询？

要想使用python访问hbase，一般是使用thrift组件。现在也有一个开源的happyhbase组件或 Starbase组件可以试试。 Python代码...

2015-10-27 13:44 回复了该问题

2

投票

哪位大神做过用Spark合并多个parquet文件，求个思路

可以在save前调用coalesce(1)方法 val rows = parquetFile(...).coalesce(1) rows.saveAsParqu...

2015-10-26 11:37 回复了该问题

0

投票

hive查询报错，急。。。。在线等

_SUCCESS 是Job成功后写在目录中的一个标记文件而已。你的这个问题需要详细看看log，可能是tez本身出现了问题。因为你的hive框架默认不是调用ya...

2015-10-26 11:30 回复了该问题

1

投票

问个问题， Driver 我应该怎么理解呢？ spark master 和 driver 有着什么关系？

master 是主控，负责接收客户端提交的作业，管理worker，并通知worker启动driver和executor driver是一个spark作业的主进程...

2015-10-23 16:14 回复了该问题

1

投票

SAS，R，Python，matlab，spss，stata这类工具究竟是什么？

都是可用在统计分析方面的软件。 sas spss都是商业版的，支持数据挖掘、分析等。 MATLAB则是统计专业中最常见的入门工具 R语言属于开源的产品，目前很火...

2015-10-23 16:08 回复了该问题

0

投票

在传统通信行业跟互联网行业中，在处理大数据方面，hadoop跟传统数据库各自发挥怎样的优势。。。。

一切按实际需求和场景来定。如果需要进行海量数据的清洗和存储，可以考虑用Hadoop集群。 Hadoop生态中有很多的组件来应用到不同的场景： 1.如果你想支撑...

2015-10-23 13:40 回复了该问题

1

投票

请问一下，在Kettle我想将数据用Excel表输出，但是数据多达20万条，超过了excel表单页最大输出行，如何将数据导出到同个Excel的多个sheet中

你可以升级excel到07以后的版本。这杨支持的行记录数便会多些。如果确实想写入多个sheet，则仔细参考下这个博客： http://type-exit....

2015-10-23 13:27 回复了该问题

0

投票

SSAS库的远程链接，如何像数据库一样，要提供用户名和密码才能实现链接现在就一个HTTP地址就链接了，安全性问题咱整

你可以关闭SSAS数据库的匿名连接

2015-10-23 13:15 回复了该问题

1

投票

销售预测一般是基于是什么预测的？零售行业的销售预测对经营的指导性作用大吗？，求思路

常见的是时间序列，另外考虑下节假日因素。一般会使用R语言做一些算法模型的建立。如果你的预测准确度能达到真实值的95%以上，那对采购、货物管理、进销存还是有很...

2015-10-23 13:14 回复了该问题

0

投票

日志采集系统flume和kafka有什么区别及联系，它们分别在什么时候使用，什么时候又可以结合？

其实楼上的回答已经很全面了。当你只想进行日志的收集工作时，可直接用flume。如果你收集了日志后，想输出到多个业务方，则可结合kafka。kafka是消息队...

2015-10-22 13:33 回复了该问题

0

投票

report报表接收一个参数，mdx如何进行间接过滤？

这种逻辑判断的业务场景下，建议你的mdx语句中新增对.net程序集的调用。例如：mdx的where可增加 MDXHelper.YearUtil(2015) M...

2015-10-22 13:24 回复了该问题

0

投票

各位大神 spark streaming 如何向kafka的zookeeper发送信息？

spark与kafka的连接方面还是不够稳定。如果想发送offset 到kafka，引用下 org.apache.spark.streaming.kaf...

2015-10-21 13:32 回复了该问题

0

投票

关于MS sql的MERGE 语法原理

针对测试一和测试二的结果，我的理解如下，仅供参考。测试一的场景是： 1.取出全部的test1表数据，按照 T.CODE=S.CODE AND S.ID=1 这...

2015-10-21 13:15 回复了该问题

0

投票

datastage中Funnel 和merge 有什么区别？

Funnel 要求字段数相同 Merge只要求有共同的Merge key

2015-10-21 13:01 回复了该问题

Bob

他关注的

他的粉丝

他的回答
排序:
时间 投票