天善智能-商业智能和大数据在线社区，用心创造价值

0

投票

各位大神，使用kettle遇到下面这个问题，该咋解决？

重新绑定一下talbe,可能是关联问题，你看看是不是因为你的kettle之前绑定了一个表名，后来这个表被你删掉了。或者没有权限？

2015-09-24 08:13 回复了该问题

0

投票

大神们我在看hadoop实战中的mapreduce排序时有个问题不太明白请大神帮忙排序中为什么里面有key值重复但是reduce后 key值却没有去重

实战中的多少页？不应该啊。除非他重写了实现的处理。

2015-09-24 08:12 回复了该问题

1

投票

大家好，我用shell 运行hadoop hive，产生很多进程，如何才能释放这些内存啊

使用kill命令，直接杀死进程。

2015-09-24 08:11 回复了该问题

1

投票

想问问学习mongoDB，应从什么开始部分开始学起？给点建议！

其实mongodb非常简单，数据结构其实就是一个BsonDocument,你可以理解为Json。再理解，其实就是一个字典。熟悉一下Json格式就可以了，我一会在...

2015-09-24 08:03 回复了该问题

1

投票

请教一下，kettle导出整个转换或者JOB怎么导出

kettle的etl包就是一个文件，你可以直接在服务器上使用kettle的shell命令来执行 [attach]6136[/attach] [att...

2015-09-24 08:00 回复了该问题

0

投票

请问一下，需要搭建hadoop集群，所需要的linux最低版本是什么？用虚拟机装了一个CentOS7，运行的很卡，想换低版本的。有没有什么精简版的linux也支持？

不管你是什么环境，如果想学习hadoop，推荐是使用docker,轻松构建各种环境，而且系统资源消耗极少，在我的课程里面是有介绍的 [url]http://ww...

2015-09-23 09:22 回复了该问题

1

投票

打扰了各位，想请教一下有没有推荐的大数据可视化工具，最有hadoop的接口

hadoop只是一个分布式文件系统，虽然是有map/reduce来做计算，但是处理的数据量是海量的，每执行一次数据处理，都要很长时间，因此它不适合来做可视化的数...

2015-09-23 08:09 回复了该问题

1

投票

hadoop求职，选择数据仓库还是基础平台？

其实你已经决定好了，只是想找个人确认一下。个人建议还是贴合业务。技术变更太快，而且是开源技术，hadoop没出来几年，现在又开始搞spark。做技术就是比较辛...

2015-09-23 08:05 回复了该问题

0

投票

大家好，请问一下，有了解spark分布式稀疏矩阵相乘的实现方式的么？

不好意思，这个目前我这没有。我这边现在只是应用了实时计算。数据分析这块没有，你可以关注下SparkR，里面应该有你想要的答案

2015-09-22 17:36 回复了该问题

1

投票

菜鸟一个，如何学习R 软件做数据分析处理？？？有没有什么推荐的书

在天善的资料下载里面有相关的电子书：链接地址如下：[url]http://www.flybi.net/article/506[/url] 有空的时候可以多来天...

2015-09-22 17:35 回复了该问题

1

投票

问一下 hadoop 启动时候，进程号存储在哪？版本号2.7配备了两台namenode，启动时候总是提示已启动，提示的进程号是另一台机器的namenode

由于hadoop是拿Java来实现的，所以可以使用JPS命令来查看hadoop的服务器进程，如下图所示 [attach]6076[/attach] 在一...

2015-09-22 17:33 回复了该问题

2

投票

有哪位朋友知道进行Hadoop数据分析之前怎么把数据预处理成特定格式吗？

实际上这就是一个ETL的过程，最终拿到自己想要的数据格式。处理数据不要局限于工具，开发语言，重点是数据本身。工具类的你可以采用ETL工具，SSIS，kett...

2015-09-22 17:29 回复了该问题

0

投票

请问各位有谁知道什么叫日志汇聚关于hive的

没听过日志汇聚的概念，不好意思，可以进一步跟我交流。看场景应该是与日志有关。在大数据的场景下，我们一般分析都采用日志分析，比如用户行为分析，用户来源分析等等，...

2015-09-22 17:26 回复了该问题

0

投票

kettle跑job某些时候会挂起

一般情况下，ETL在同步数据的时候，是一次性把数据加载到内存，然后插入到数据库中，这种效率极低。建议采用ETL导出txt文件，然后将txt上传到阿里云上，然后通...

2015-09-22 17:18 回复了该问题

3

投票

Hadoop与NoSQL有什么区别，有什么联系？

简单来说，Hadoop是一种分布式存储和计算技术，其依赖于底层的分布式文件系统来存储数据和MapReduce框架来实现分布式计算。 NoSQL 是一套分布式...

2015-09-22 08:14 回复了该问题

牟瑞

他关注的

他的粉丝

他的回答
排序:
时间 投票