Bob

同程旅游大数据+BI 架构师

始于: 2015-09-29

江苏省 苏州市

发私信

250

总声望

142

次被推荐

0

粉丝

他的回答
排序:

0
投票

请问 各位大牛 hive on spark 跑的 一个sql 都要 1 -2 min 这正常吗

这个不是很好给出回答啊。   首先你也没有说下你的sql逻辑是否复杂,数据量情况,spark集群大小情况   一般在线上,我们使用jdbc来执行hive on ...

2016-10-18 15:14 回复了该问题
0
投票

请教一个问题,从本地文件夹上传到集群,报错

建议: hadoop dfs -copyFromLocal /你的linux本机目录 /user/gznc/1985

2016-10-14 13:55 回复了该问题
0
投票

使用HBase单机模式的时候,hbase shell中执行list命令后总是出现Can't get master address from ZooKeeper; znode data == null这个错误,怎么解决??

调整hbase-env.sh 文件export HBASE_MANAGES_ZK=true 表示使用自带的zookeeper

2016-10-14 13:17 回复了该问题
0
投票

在互联网行业,数据分析的价值逐日凸显,比如行业数据分析,网站流量数据分析等。 对于数据分析而言,价值有哪些? 数据分析的岗位工作内容应包括哪些?从业人员应具备何种能力? 数据分析能够对运营及市场有哪些帮助?

熟悉业务的数据分析师对业务的帮助很大,能帮助发现业务中存在的异常点。 具备的技能应该是数据获取能力,数据解读能力,做报告能力,进阶者则需要算法模型编程能力

2016-10-13 15:30 回复了该问题
0
投票

有人使用SQL Server CDC做增量采集吗?不知道这种方案是否有潜在的问题?

CDC确实是一个不错的选择。 但是如果sql引擎内部每秒同时处理的事务数超过5000以上,则存在一些丢log的风险。当然这是在体量比较大的情况下,一般都是没有问...

2016-10-13 15:27 回复了该问题
0
投票

请教一下,SSIS中这个选项只能是目标数据库是SQL SERVER的吗?我现在的目标数据库是Oracle,这样设置后就报错了。

你截图中的 快速加载 是指sqlserver的bulk insert 模式   如果想写入到oracle则只能走ODBC模式

2016-10-13 15:17 回复了该问题
0
投票

gp数据库分隔符

gp的外部表最好是用单字符分割,多字符的我没有尝试过。

2016-10-13 15:15 回复了该问题
0
投票

请教各位大牛,在Mapper的时候如何做到按文件读取,不再按行读取数据内容

编写自定义的inputformat

2016-10-13 15:12 回复了该问题
0
投票

Hadoop怎么处理图像的?或者说Hadoop处理图像的输入输出格式怎么自定义?

推荐一个hadoop组件给你试试:HIPI  [url]http://hipi.cs.virginia.edu/[/url]   不过对图片这种处理,最好还是选...

2016-10-13 15:12 回复了该问题
0
投票

维度模型在hadoop中怎么实现?

可以使用hive来进行维度模型的建立。 在hive上创建维度表、度量表。可尽量按照原有的关系型DW来设计。   使用hive的 sql进行数据ETL工作,这样就...

2016-10-13 15:03 回复了该问题
0
投票

求问个问题 大家部署spark集群的时候是和hadoop用的相同的机器 还是 分离开的

一般建议分开部署。 因为spark集群对内存的依赖比较高,所以尽量分配更多的内存给spark 然后你可以部署spark on yarn模式。

2016-10-13 14:59 回复了该问题
0
投票

大家好,谁在生产环境中把hive 的引擎改成spark 上 效果怎么样

效果肯定是不错的 我们是用hive的beeline命令以jdbc的方式去访问spark

2016-10-13 14:58 回复了该问题
0
投票
0
投票

greenplum分区表

你先写一个实现新增分区的函数,然后定时调用添加分区

2016-09-20 08:41 回复了该问题

改版

反馈