在你的脚本任务控件中插入如下代码: Dictionary<int, string> lineageIds = null; public void ...
2016-01-28 21:08 回复了该问题很久没有用过ds了。 我之前记录的一个示例,你看看能不能用 [DB400] Driver=/opt/IBM/InformationServer/Server/b...
2016-01-28 20:49 回复了该问题一般情况下需要从专门的数据清洗团队那里获取数据。 通常情况下我们认为是数据仓库或者是ODS层。 如果是结构化的数据,那建议还是先用sql进行数据加工处理。毕...
2016-01-28 20:43 回复了该问题如果是删除字段、修改字段则会禁用CDC。 如果是新增字段了,那不会禁用CDC,但是新增字段无法被捕获变更。 我使用sqlserver的CDC有很长一段时间了,有...
2016-01-28 13:28 回复了该问题hadoop集群还是使用开源的居多。我们选择的是cloudera的CDH5.*版本。 这也是商业版本,一般的使用都是免费的,如果遇到问题基本都是查询官方的博客或...
2016-01-28 10:30 回复了该问题数据写入时建议先写入文本中。 如果你的kettle服务器与hadoop集群不在同一个机器,那建议在kettle机器上挂一个hadoop机器的网络盘。文本先写入到...
2016-01-28 10:28 回复了该问题这个是节点上的。 如果你想做全局的数据存储,建议添加到Configuration中。 示例: Configuration config = Configurat...
2016-01-28 10:20 回复了该问题1.hadoop是通过DBInputFormat来读取数据库。 在使用DBInputFormat前,相应数据库的驱动jar包需要放在hadoop集群每个节点的l...
2016-01-28 10:13 回复了该问题hadoop 通过hadoop streaming 的方式也可以调用其他编程语言实现的MR,例如c++,Python等
2016-01-28 10:07 回复了该问题1.前缀过滤器:PrefixFilter 2.行过滤器:RowFilter 3.随机行过滤器:RandomRowFilter 4.第一个行:FirstKeyOn...
2016-01-28 09:00 回复了该问题1.检查下你的hadoop集群是否能正常启动。使用jps命令看看主进程信息 查看下namenode的日志文件,里面会有说明的 2.检查下ip地址是否是启用了ip...
2015-12-11 13:30 回复了该问题impala是cloudera出品的。与CDH版本的Hadoop结合是最好的。能不能部署在原生的Hadoop上,没试过。应该是勉强运行,但是可能会缺少CDH的一...
2015-12-10 13:02 回复了该问题