具体时间不太好说,跟个人的学习能力有关,但是你有YARN、MR的源码经验,那么对分布式肯定比较熟悉,再次上手Spark应该不是难事,看你的背景,目测不需要太久。
2017-01-09 09:54 回复了该问题Sqoop数据抽取到HDFS,Sqoop底层执行的是MapReduce作业,你可以看一下学院里大数据视频的Sqoop部分https://edu.hellobi....
2017-01-09 09:52 回复了该问题Storm和Spark Streaming区别是底层架构,Storm是一个独立的流式计算架构体系,Spark Streaming则集成在Spark上,可以结合S...
2017-01-09 09:49 回复了该问题首先数据入口处除了原始数据层可以增设增量层,这个就看你们的数据抽取模式;然后可以有一个宽表层;然后是主题域层,最后可以有一个可视化层。这是最简单的一种方式。
2017-01-05 09:47 回复了该问题Bob大神已经回答得很清楚了。补充一下: 1,Sqoop+Hive+Spark的方式会比MR的方式更快,根据实际需求的计算分析时间决定; 2,Hive部分要有明...
2016-12-30 19:20 回复了该问题如楼上所说的是,还有一种WebUI的工具:Hue,不仅支持Hive,还支持HBase、Sqoop等很多其他的大数据生态中的组件。
2016-12-22 12:39 回复了该问题两者的共同之处在于,底层都是Spark在执行查询语句; 不同之处在于,Hive on Spark是基于原有的Hive,将Hive的计算引擎从默认的MapRe...
2016-12-22 12:38 回复了该问题字段注释貌似不能直接通过alter table change column去修改,而且分区的特性改变要求指定,例如alter table tbl partiti...
2016-12-15 14:58 回复了该问题三台指的是机器的数量,一般建议是单数台机器,关于部署的文档和视频(是配套的),你可以参考一下: Hadoop集群搭建笔记:[url]https://ask.he...
2016-12-14 16:58 回复了该问题