这个不是很好给出回答啊。 首先你也没有说下你的sql逻辑是否复杂,数据量情况,spark集群大小情况 一般在线上,我们使用jdbc来执行hive on ...
2016-10-18 15:14 回复了该问题建议: hadoop dfs -copyFromLocal /你的linux本机目录 /user/gznc/1985
2016-10-14 13:55 回复了该问题调整hbase-env.sh 文件export HBASE_MANAGES_ZK=true 表示使用自带的zookeeper
2016-10-14 13:17 回复了该问题熟悉业务的数据分析师对业务的帮助很大,能帮助发现业务中存在的异常点。 具备的技能应该是数据获取能力,数据解读能力,做报告能力,进阶者则需要算法模型编程能力
2016-10-13 15:30 回复了该问题CDC确实是一个不错的选择。 但是如果sql引擎内部每秒同时处理的事务数超过5000以上,则存在一些丢log的风险。当然这是在体量比较大的情况下,一般都是没有问...
2016-10-13 15:27 回复了该问题你截图中的 快速加载 是指sqlserver的bulk insert 模式 如果想写入到oracle则只能走ODBC模式
2016-10-13 15:17 回复了该问题推荐一个hadoop组件给你试试:HIPI [url]http://hipi.cs.virginia.edu/[/url] 不过对图片这种处理,最好还是选...
2016-10-13 15:12 回复了该问题可以使用hive来进行维度模型的建立。 在hive上创建维度表、度量表。可尽量按照原有的关系型DW来设计。 使用hive的 sql进行数据ETL工作,这样就...
2016-10-13 15:03 回复了该问题一般建议分开部署。 因为spark集群对内存的依赖比较高,所以尽量分配更多的内存给spark 然后你可以部署spark on yarn模式。
2016-10-13 14:59 回复了该问题效果肯定是不错的 我们是用hive的beeline命令以jdbc的方式去访问spark
2016-10-13 14:58 回复了该问题hadoop是默认进行副本的修复工作 你可以使用hadoop的fsck命令进行修复。
2016-10-13 14:56 回复了该问题