天善智能-商业智能和大数据在线社区，用心创造价值

0

投票

ETL Kettle 两地同数据库离线数据增量同步

看一下你是什么数据库，SQLServer可以启用cdc，mysql可以监控bin log. 然后定时将数导出，再导入到B地的数据库中。还有就是为啥A地不能上网...

2015-10-28 14:37 回复了该问题

1

投票

现有oracle速度教慢，先尝试下大数据技术，如果搭建好hadoop并将病历数据转为hbase列式数据库，将读取hbase列式数据定义成服务，提供给外部访问，此做法是否可行？

能否先问几个问题： 1.你们已有的数据量有多大，每天产生的数量有多大 2.oracle查询较慢原因是什么？是否经过排查？是数据量太大?还是服务器配置问题。 3....

2015-10-28 14:33 回复了该问题

0

投票

windows下的eclipse无法读取虚拟机中Hadoop的集群?

你在windows下的hosts配置一下hadoop的机器名和IP地址试过没有？我个人是不喜欢windows下构建hadoop的开发环境，也没有构建过，win...

2015-10-28 08:12 回复了该问题

1

投票

kettle如何实现数据覆盖功能

从我个人感觉，这个已经脱离了kettle的范围了，kettle的界面化只是简化了你处理工作的流程，而你这个可能涉及到到了处理数据的架构上了，如果你的3个来源系统...

2015-10-28 08:05 回复了该问题

1

投票

问一个问题。kettle执行一个作业时能不能知道当前执行的进度。 api有没有这个接口。

据我所知，好像是没有，有知道的还请帮忙告知。不过可以通过另外的方式来到进度：将Kettle的日志输出到一个固定的文件，然后写一个shell来监控这个文件的写入...

2015-10-28 07:57 回复了该问题

0

投票

etl如何做:目标表中没有的就添加，有的就更新，目标表中有而源表中没有的就删除

这实际上就是一个SQLServer数据库中CDC的一个过程，是不需要什么ETL工具，但是需要搞情况你的源表示什么数据库啊。如果是SQLServer，你可以启动...

2015-10-28 07:54 回复了该问题

1

投票

兄弟们啊，sqoop-1.99.6-bin-hadoop200.tar和 sqoop-1.99.6.tar.gz这两个包的区别是啥啊，求大神赐教啊

sqoop-1.99.6-bin-hadoop200.tar是支持连接hadoop的编译之后的sqoop执行包 sqoop-1.99.6.tar.gz是sqoo...

2015-10-28 07:48 回复了该问题

0

投票

请问：kettle可以记录用户操作记录吗？权限可以细化到某个作业或转换么

一般对于kettle来说都是部署在服务器上的，而能操作服务器，并在服务器端部署环境的，都是需要很高的权限的。而且kettle属于服务器数据抽取定期执行的任务，由...

2015-10-26 08:05 回复了该问题

1

投票

想问下如果数据表有主表和明细表抽取是放一个队列抽取？还是两个队列分开先主表然后明细表？？？

如果你的主/明细表数据量都比较小，用哪种方式都无所谓如果你的主/明细表都非常大，最好是分开，先抽取主表数据，然后再抽取明细表数据。如果特别大，可能还需要分段抽...

2015-10-26 07:59 回复了该问题

1

投票

有关hive数据的复制。表里只有一行数据，我要复制这行数据99次，使这个表里有100行数据，怎么操作？

为什么会有如此奇怪的需求。参考如下两种方案： 1.将你的hive表的数据导出到一个文件，然后复制100行记录，然后再导入hive中 2.找到hive在hdfs的...

2015-10-26 07:56 回复了该问题

0

投票

想请教各位一上，Linux的kettle调度中的转换文件，你们都是如何制作的啊？

不是很理解问题的重点是什么，转换文件在kettle里面新建一个就可以了啊。 [attach]8437[/attach] [attach]8438[/...

2015-10-26 07:53 回复了该问题

0

投票

hive查询报错，急。。。。在线等

没有遇到过这种情况。这个表是不是被压缩过了？看下hdfs://siclustera/apps/hive/warehouse/d_nw_ne_ecell/下的详细...

2015-10-25 17:20 回复了该问题

0

投票

mysql数据库乱码 kettle怎样处理

解决mysql乱码的问题，在百度里面一搜一把的，本来我也想写个帖子，但是感觉没有必要，还是百度去搜吧。除了百度搜的各种mysql的解决方案，还需要注意： ...

2015-10-25 15:00 回复了该问题

1

投票

kettle里面使用job的定时调度功能,运行后日志会被一直最新的日志记录覆盖,该怎么让日志表里的日志信息不会一直被覆盖?

使用数据库记录日志的方式，我没有使用过，一般都是使用日志文件来记录job的执行情况。可以通过如下的方式来指定日志文件生成的路径获取调度执行的时间，我这里是按照...

2015-10-25 10:35 回复了该问题

0

投票

要从kettle的转换中读取结果集，要实现RowListener 接口，。各位有没有弄过？

我表示没有用过这么高级的功能，能详细说一下你的需求么？一般的业务场景kettle都是可以满足的。

2015-10-17 09:38 回复了该问题

牟瑞

他关注的

他的粉丝

他的回答
排序:
时间 投票