看一下你是什么数据库,SQLServer可以启用cdc,mysql可以监控bin log. 然后定时将数导出,再导入到B地的数据库中。 还有就是为啥A地不能上网...
2015-10-28 14:37 回复了该问题能否先问几个问题: 1.你们已有的数据量有多大,每天产生的数量有多大 2.oracle查询较慢原因是什么?是否经过排查?是数据量太大?还是服务器配置问题。 3....
2015-10-28 14:33 回复了该问题你在windows下的hosts配置一下hadoop的机器名和IP地址试过没有? 我个人是不喜欢windows下构建hadoop的开发环境,也没有构建过,win...
2015-10-28 08:12 回复了该问题从我个人感觉,这个已经脱离了kettle的范围了,kettle的界面化只是简化了你处理工作的流程,而你这个可能涉及到到了处理数据的架构上了,如果你的3个来源系统...
2015-10-28 08:05 回复了该问题据我所知,好像是没有,有知道的还请帮忙告知。 不过可以通过另外的方式来到进度:将Kettle的日志输出到一个固定的文件,然后写一个shell来监控这个文件的写入...
2015-10-28 07:57 回复了该问题这实际上就是一个SQLServer数据库中CDC的一个过程,是不需要什么ETL工具,但是需要搞情况你的源表示什么数据库啊。 如果是SQLServer,你可以启动...
2015-10-28 07:54 回复了该问题sqoop-1.99.6-bin-hadoop200.tar是支持连接hadoop的编译之后的sqoop执行包 sqoop-1.99.6.tar.gz是sqoo...
2015-10-28 07:48 回复了该问题一般对于kettle来说都是部署在服务器上的,而能操作服务器,并在服务器端部署环境的,都是需要很高的权限的。而且kettle属于服务器数据抽取定期执行的任务,由...
2015-10-26 08:05 回复了该问题如果你的主/明细表数据量都比较小,用哪种方式都无所谓 如果你的主/明细表都非常大,最好是分开,先抽取主表数据,然后再抽取明细表数据。如果特别大,可能还需要分段抽...
2015-10-26 07:59 回复了该问题为什么会有如此奇怪的需求。参考如下两种方案: 1.将你的hive表的数据导出到一个文件,然后复制100行记录,然后再导入hive中 2.找到hive在hdfs的...
2015-10-26 07:56 回复了该问题不是很理解问题的重点是什么,转换文件在kettle里面新建一个就可以了啊。 [attach]8437[/attach] [attach]8438[/...
2015-10-26 07:53 回复了该问题没有遇到过这种情况。这个表是不是被压缩过了?看下hdfs://siclustera/apps/hive/warehouse/d_nw_ne_ecell/下的详细...
2015-10-25 17:20 回复了该问题解决mysql乱码的问题,在百度里面一搜一把的,本来我也想写个帖子,但是感觉没有必要,还是百度去搜吧。 除了百度搜的各种mysql的解决方案,还需要注意: ...
2015-10-25 15:00 回复了该问题使用数据库记录日志的方式,我没有使用过,一般都是使用日志文件来记录job的执行情况。可以通过如下的方式来指定日志文件生成的路径 获取调度执行的时间,我这里是按照...
2015-10-25 10:35 回复了该问题我表示没有用过这么高级的功能,能详细说一下你的需求么?一般的业务场景kettle都是可以满足的。
2015-10-17 09:38 回复了该问题