天善智能-商业智能和大数据在线社区，用心创造价值

0

投票

hbase表已经创建好了，也写入数据。现在感觉rowkey设计不合理，怎么玩？

重新设计Rowkey接着玩

2017-01-09 09:54 回复了该问题

0

投票

对YARN、MapReduce的源码比较熟悉，能够修改源码；没接触过scala语言、spark，请问要修改spark 的job控制器要多久的学习时间（包括相应的scala语言、ide，调试的学习）

具体时间不太好说，跟个人的学习能力有关，但是你有YARN、MR的源码经验，那么对分布式肯定比较熟悉，再次上手Spark应该不是难事，看你的背景，目测不需要太久。

2017-01-09 09:54 回复了该问题

0

投票

大神们，问下，大数据量使用表输入效率怎么样？目的是从mysql抽到HDFS

Sqoop数据抽取到HDFS，Sqoop底层执行的是MapReduce作业，你可以看一下学院里大数据视频的Sqoop部分https://edu.hellobi....

2017-01-09 09:52 回复了该问题

0

投票

大数据的流式数据技术应用有哪些？

Storm和Spark Streaming区别是底层架构，Storm是一个独立的流式计算架构体系，Spark Streaming则集成在Spark上，可以结合S...

2017-01-09 09:49 回复了该问题

0

投票

hive里怎么截取字段？

这种情况下，有一种方式，以空格将字段内容拆分（split()）成数组，获取数组第一个元素就行了。

2017-01-09 09:43 回复了该问题

0

投票

hadoop 执行MapReducer报错

代码里打包了，执行的时候类名前面带一下包名。

2017-01-09 09:42 回复了该问题

0

投票

如何基于大数据Hadoop hive来做数据仓库的设计

首先数据入口处除了原始数据层可以增设增量层，这个就看你们的数据抽取模式；然后可以有一个宽表层；然后是主题域层，最后可以有一个可视化层。这是最简单的一种方式。

2017-01-05 09:47 回复了该问题

0

投票

hdfs append加载不成功

报错说找不到你的文件\tmp\logs\a.txt 你要确定文件路径没问题

2017-01-02 16:29 回复了该问题

0

投票

如何利用spark、hadoop等技术实现关系型数据库的数据快速汇总？

Bob大神已经回答得很清楚了。补充一下： 1，Sqoop+Hive+Spark的方式会比MR的方式更快，根据实际需求的计算分析时间决定； 2，Hive部分要有明...

2016-12-30 19:20 回复了该问题

0

投票

各位，spark sql 查询hive 外表出现出现这个错误，有哪位大神知道吗

这张Hive表与HBase有啥关联吗？最好提供一些报错的背景和环境。

2016-12-22 12:44 回复了该问题

0

投票

请问一下，hive有没有客户端或可视化工具。我在网上找了一下，没有找到

如楼上所说的是，还有一种WebUI的工具：Hue，不仅支持Hive，还支持HBase、Sqoop等很多其他的大数据生态中的组件。

2016-12-22 12:39 回复了该问题

1

投票

我想请问一下 hive on spark 和sparkSQL on hive 那个更好或者就是一回事呢

两者的共同之处在于，底层都是Spark在执行查询语句；不同之处在于，Hive on Spark是基于原有的Hive，将Hive的计算引擎从默认的MapRe...

2016-12-22 12:38 回复了该问题

0

投票

hive里请问怎么修改表分区字段注释

字段注释貌似不能直接通过alter table change column去修改，而且分区的特性改变要求指定，例如alter table tbl partiti...

2016-12-15 14:58 回复了该问题

0

投票

cloudera开发环境集群出现时钟偏差问题。但集群还可以正常访问。可能是ntp服务假死。

时间同步没做好吧

2016-12-14 16:58 回复了该问题

0

投票

小白请教个问题，hadoop部署需要几台服务器？网上答案是三台，不太理解三台的含义，NameNode，SecondNameNode，Slave？

三台指的是机器的数量，一般建议是单数台机器，关于部署的文档和视频（是配套的），你可以参考一下： Hadoop集群搭建笔记：[url]https://ask.he...