牟瑞

大数据 Hadoop 讲师 Hadoop入门课程地址:http://www.hellobi.com/course/39 有架构师,技术总监,CTO的职位请联系我!

始于: 2013-06-09

发私信

1967

总声望

308

次被推荐

16

粉丝

他的回答
排序:

0
投票

kettle 读取wind的txt文件,“SRC_SECSCHEDULE20150922.txt”前缀都是一样的,就是最后的日期不一样,怎么通过日期去过滤

是要怎样的一种过滤方式?你可以通过写Shell脚本的方式解析出日期,也可以在kettle里面对文件名称进行过滤。

2015-10-17 09:38 回复了该问题
1
投票

使用Hive来查询Hbase存储的数据有什么缺点?

因为我们目前项目上没有这么用的,所以,简单的说一下我的理解: 1.性能问题肯定是有的,hive需要去解析hbase的表结构,必然会带来查询性能的问题 2.维护成...

2015-10-17 09:34 回复了该问题
2
投票

Kettle多添加几个控件,出现性能问题,该如何解决

1.增加kettle的内存大小 [attach]8082[/attach] 2.优化ETL流程 a.拆分处理到多个作业中 b.批量数据:对数据进行分...

2015-10-16 07:41 回复了该问题
1
投票

python用什么库对py打包比较好?

python作为一个优秀的数据处理语言,在WinForm上面不是它的强项,如果实在需要展示,推荐web from 另外推荐python notebook 如果你...

2015-10-15 10:01 回复了该问题
1
投票

请问下一个job调用多个ktr,执行顺序能设定吗

两种方式:1.新建一个作业,然后通过作业里面配置的执行顺序来确定ktr的执行顺序 [attach]8045[/attach] 2.通过shell脚本控制...

2015-10-15 07:30 回复了该问题
2
投票

无编程经验学习Python做爬虫,目前遇到困难,请各位指点下?

1.如果抓取爬虫规模比较小的话,爬虫数据库推荐使用NoSQL的数据库,推荐mongodb.原因:在爬数据的时候,需求不确定,数据格式不确定,字段类型不确定的话,...

2015-10-15 07:24 回复了该问题
1
投票

用Java写MapReduce,用python和R,哪种更适合从事数据行业,做数据仓库好,还是数据挖据更好?

以数据行业里面的统计学来说,做数据分析和数据的,用R和Python的人更多。而做算法的话,用R,Python,Java,C++的都有。 至于从事什么行业,首先要...

2015-10-14 19:38 回复了该问题
1
投票

“数据仓库”在Hive/Hadoop中有哪些与传统RDBMS系统下不同的特征?

先简单回复下你的这个问题,更加具体的对比,我在整理博客: Hive 和数据库比较大致有以下几方面的不同: 1.查询语言。由于 SQL 被广泛的应用在数据仓库中,...

2015-10-14 09:24 回复了该问题
0
投票

请问ETL中的条件在kettle中是哪个指令

提交判断存在kellte的作业(Job)里面,如下图所示: [attach]7991[/attach]  

2015-10-14 09:19 回复了该问题
0
投票

kettle excel输入 获取工作表 报错 无法打开这个步骤窗口 java.lang.OutOfMemoryError: GC overhead limit exceeded

1.确认下你的excel的是不是确实太大了,如果是最好拆分开来处理。 2.修改ketlle的参数设置,扩大内存的大小设置,如下图所示: [attach]...

2015-10-14 09:17 回复了该问题
0
投票

各位用的kettle都是哪个版本?我用Data Integration 5.4.0 Stable,使用jndi总是报错,貌似jndi的配置读取不到,jndi连接失败,然后用jdbc连接,还是失败。。

我现在使用的是如下图的版本 [attach]7988[/attach]   如果你要使用kettle连接mysql的数据库,需要下载mysql的的jd...

2015-10-14 09:11 回复了该问题
0
投票

关于SSIS 从Oracle 抽取数据的问题

放心大胆的用,有问题来天善商业智能的论坛问

2015-10-13 18:01 回复了该问题
1
投票

我所做的大数据业务如何能更有价值

   大数据的定义的Volume(大量),Variety(多样),Velocity(高速),Value(价值)这4个特点中,其实前面3个都比较好解决,一般的企业...

2015-10-13 17:56 回复了该问题
1
投票

大家好 刚接触kettle 我现在想把Excel数据导入到数据库 怎样保证数据库表里面的主键自动生成啊?谢谢

首先,你要设置数据库表中的主键是自动增长的 然后在插入的时候,不对主键做赋值操作,那数据库在执行插入语句的时候,就会主键自动生成。

2015-10-13 13:14 回复了该问题
2
投票

推荐算法,大家用的比较多的是哪些啊

常用的推荐算法可以参考下面的链接 [url=http://www.flybi.net/blog/marey_marey111/2072]常用推荐算法的介绍与说明...

2015-10-13 09:48 回复了该问题

改版

反馈