MarsJ

大数据玩家~DS

始于: 2015-10-13

广东省 广州市

发私信

1580

总声望

216

次被推荐

0

粉丝

他的回答
排序:

0
投票

hbase表已经创建好了,也写入数据。现在感觉rowkey设计不合理,怎么玩?

重新设计Rowkey接着玩

2017-01-09 09:54 回复了该问题
0
投票

对YARN、MapReduce的源码比较熟悉,能够修改源码;没接触过scala语言、spark,请问要修改spark 的job控制器 要多久的学习时间(包括相应的scala语言、ide,调试的学习)

具体时间不太好说,跟个人的学习能力有关,但是你有YARN、MR的源码经验,那么对分布式肯定比较熟悉,再次上手Spark应该不是难事,看你的背景,目测不需要太久。

2017-01-09 09:54 回复了该问题
0
投票

大神们,问下,大数据量使用表输入效率怎么样?目的是从mysql抽到HDFS

Sqoop数据抽取到HDFS,Sqoop底层执行的是MapReduce作业,你可以看一下学院里大数据视频的Sqoop部分https://edu.hellobi....

2017-01-09 09:52 回复了该问题
0
投票

大数据的流式数据技术应用有哪些?

Storm和Spark Streaming区别是底层架构,Storm是一个独立的流式计算架构体系,Spark Streaming则集成在Spark上,可以结合S...

2017-01-09 09:49 回复了该问题
0
投票

hive里怎么截取字段?

这种情况下,有一种方式,以空格将字段内容拆分(split())成数组,获取数组第一个元素就行了。

2017-01-09 09:43 回复了该问题
0
投票

hadoop 执行MapReducer报错

代码里打包了,执行的时候类名前面带一下包名。

2017-01-09 09:42 回复了该问题
0
投票

如何基于大数据Hadoop hive来做数据仓库的设计

首先数据入口处除了原始数据层可以增设增量层,这个就看你们的数据抽取模式;然后可以有一个宽表层;然后是主题域层,最后可以有一个可视化层。这是最简单的一种方式。

2017-01-05 09:47 回复了该问题
0
投票

hdfs append加载不成功

报错说找不到你的文件\tmp\logs\a.txt 你要确定文件路径没问题

2017-01-02 16:29 回复了该问题
0
投票

如何利用spark、hadoop等技术实现关系型数据库的数据快速汇总?

Bob大神已经回答得很清楚了。补充一下: 1,Sqoop+Hive+Spark的方式会比MR的方式更快,根据实际需求的计算分析时间决定; 2,Hive部分要有明...

2016-12-30 19:20 回复了该问题
0
投票

各位,spark sql 查询hive 外表出现出现这个错误,有哪位大神知道吗

这张Hive表与HBase有啥关联吗?最好提供一些报错的背景和环境。

2016-12-22 12:44 回复了该问题
0
投票

请问一下,hive有没有客户端或可视化工具。我在网上找了一下,没有找到

如楼上所说的是,还有一种WebUI的工具:Hue,不仅支持Hive,还支持HBase、Sqoop等很多其他的大数据生态中的组件。

2016-12-22 12:39 回复了该问题
1
投票

我想请问一下 hive on spark 和sparkSQL on hive 那个更好 或者就是一回事呢

两者的共同之处在于,底层都是Spark在执行查询语句;   不同之处在于,Hive on Spark是基于原有的Hive,将Hive的计算引擎从默认的MapRe...

2016-12-22 12:38 回复了该问题
0
投票

hive里请问怎么修改表分区字段注释

字段注释貌似不能直接通过alter table change column去修改,而且分区的特性改变要求指定,例如alter table tbl partiti...

2016-12-15 14:58 回复了该问题
0
投票

小白请教个问题,hadoop部署需要几台服务器?网上答案是三台,不太理解三台的含义,NameNode,SecondNameNode,Slave?

三台指的是机器的数量,一般建议是单数台机器,关于部署的文档和视频(是配套的),你可以参考一下: Hadoop集群搭建笔记:[url]https://ask.he...

2016-12-14 16:58 回复了该问题

改版

反馈