是要怎样的一种过滤方式?你可以通过写Shell脚本的方式解析出日期,也可以在kettle里面对文件名称进行过滤。
2015-10-17 09:38 回复了该问题因为我们目前项目上没有这么用的,所以,简单的说一下我的理解: 1.性能问题肯定是有的,hive需要去解析hbase的表结构,必然会带来查询性能的问题 2.维护成...
2015-10-17 09:34 回复了该问题1.增加kettle的内存大小 [attach]8082[/attach] 2.优化ETL流程 a.拆分处理到多个作业中 b.批量数据:对数据进行分...
2015-10-16 07:41 回复了该问题python作为一个优秀的数据处理语言,在WinForm上面不是它的强项,如果实在需要展示,推荐web from 另外推荐python notebook 如果你...
2015-10-15 10:01 回复了该问题两种方式:1.新建一个作业,然后通过作业里面配置的执行顺序来确定ktr的执行顺序 [attach]8045[/attach] 2.通过shell脚本控制...
2015-10-15 07:30 回复了该问题1.如果抓取爬虫规模比较小的话,爬虫数据库推荐使用NoSQL的数据库,推荐mongodb.原因:在爬数据的时候,需求不确定,数据格式不确定,字段类型不确定的话,...
2015-10-15 07:24 回复了该问题以数据行业里面的统计学来说,做数据分析和数据的,用R和Python的人更多。而做算法的话,用R,Python,Java,C++的都有。 至于从事什么行业,首先要...
2015-10-14 19:38 回复了该问题先简单回复下你的这个问题,更加具体的对比,我在整理博客: Hive 和数据库比较大致有以下几方面的不同: 1.查询语言。由于 SQL 被广泛的应用在数据仓库中,...
2015-10-14 09:24 回复了该问题1.确认下你的excel的是不是确实太大了,如果是最好拆分开来处理。 2.修改ketlle的参数设置,扩大内存的大小设置,如下图所示: [attach]...
2015-10-14 09:17 回复了该问题我现在使用的是如下图的版本 [attach]7988[/attach] 如果你要使用kettle连接mysql的数据库,需要下载mysql的的jd...
2015-10-14 09:11 回复了该问题大数据的定义的Volume(大量),Variety(多样),Velocity(高速),Value(价值)这4个特点中,其实前面3个都比较好解决,一般的企业...
2015-10-13 17:56 回复了该问题首先,你要设置数据库表中的主键是自动增长的 然后在插入的时候,不对主键做赋值操作,那数据库在执行插入语句的时候,就会主键自动生成。
2015-10-13 13:14 回复了该问题常用的推荐算法可以参考下面的链接 [url=http://www.flybi.net/blog/marey_marey111/2072]常用推荐算法的介绍与说明...
2015-10-13 09:48 回复了该问题