牟瑞

大数据 Hadoop 讲师 Hadoop入门课程地址:http://www.hellobi.com/course/39 有架构师,技术总监,CTO的职位请联系我!

始于: 2013-06-09

发私信

1967

总声望

308

次被推荐

16

粉丝

他的回答
排序:

0
投票

在spark或者hadoop平台如何解析tar.gz包的问题?

多大的tar.gz包啊?用python写个shell,解压出txt放入到hbase里面不可以么?不一定是hadoop或者spark吧?

2015-11-06 10:00 回复了该问题
1
投票

怎么将oracle中的数据导入到hadoop中,便于使用hadoop来进行数据分析?

最简单的方式:使用oracled导出命令,导出数据为txt,采用hive外部表的形式加载txt 高级点的方式:采用sqoop导入到hive 再高级的方式:使用e...

2015-11-06 09:57 回复了该问题
0
投票

请教一个问题,怎么用kettle生成自定义格式的文件

kettle只是一个工具,同时它支持shell和自定义代码。也有控件也可以输出文件。只是你这个问题有点大,什么样的自定义的格式文件。可以描述的再清晰点。  

2015-11-05 20:03 回复了该问题
1
投票

Hbase1.1.2的HTablePool已经被弃用,用what来代替HTablePool呢?

当面对多线程访问需求时,我们可以预先建立HConnection,参见以下代码:// Create a connection to the cluster. HC...

2015-11-04 16:34 回复了该问题
1
投票

Spark中的narrow/wide dependency如何理解,有什么作用?

最近做公司的烂项目做到吐血,跟大数据没有大多的关系。很多技术点都扔了。回复下个人对这块的理解。 [narrow的第一个作用,我的理解是可以不用等上一次操作全部做...

2015-11-04 16:25 回复了该问题
1
投票

互联网企业中,大家是怎么做数据埋点的(App、Web、H5)?

app是SDK WEB和h5是给js传参数,注意调用的js最好是单独部署,这样可以设置避免CDN缓存 解析的话就是js请求的nginx日志,解析方式可以使用hi...

2015-11-03 16:50 回复了该问题
0
投票

急,KETTLE在LINUX上访问大数据量卡死,性能很低,求高手解答,谢谢

可以查看: [url]http://www.flybi.net/question/13515#answer_list_9551[/url] 这个是我之前的一个回...

2015-11-03 14:20 回复了该问题
0
投票

关于kettle的空字符串和NULL的问题

空和NULL如果没有特殊的业务声明,那这俩是没有什么区别的。 另外。如果是同构的mssql的数据库,为什么不用SSIS来做数据抽取呢。

2015-11-03 14:18 回复了该问题
0
投票

大量日志分析的问题,求方法,面试中问到的

之前有收藏过此类的问题,实际上就是算法。你可以参阅我转载的内容 大数据或者数据分析师常见的10道面试题解答:http://www.flybi.net/blog/...

2015-11-03 09:49 回复了该问题
1
投票

hadoop-2.2.0启动start-dfs.sh时,出现如下情况:是什么原因?希望高手指点我一下

[code] vim ~/.bash_profile export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_PREFIX}/...

2015-11-02 17:18 回复了该问题
0
投票

请教一个Kettle的问题,我有很多的SQL脚本,想用kettle自动化运行这些脚本生产每个sql查询的count数写到一个日子文件中,那个组件或者实现步骤比较好?

在执行kettle的过程中,实际上是可以通过日志的方式,查看到count的数据的,如下图所示: [attach]9076[/attach]   如果还想更直观...

2015-11-02 16:50 回复了该问题
0
投票

hadoop系统数据处理中应使用sql还是原生api?

个人观点,欢迎讨论: 两者最大的一个区别实际上是面向的使用者不同。 调用api的,一般是程序员,算法工程师,大数据开发工程师等等,自动化,脚本化处理数据,大部分...

2015-11-01 22:09 回复了该问题
0
投票

有谁实现过用spark 增量抓取mysql数据的吗 同步到hdfs或者hive

spark也不是无所不能的啊,提供思路: 直接监听mysql的bin log 然后处理bin log的日志到hdfs上

2015-11-01 22:00 回复了该问题
0
投票

如何用kettle往现有表格插入一条数据或记录

使用insert语句往A表中插入一条记录 然后使用select into 语句从A表将数据导入到B表 在使用输入组件,输出组建从B表导入到oracle的数据库中...

2015-10-30 07:47 回复了该问题
0
投票

用kettle 链接mysql数据库,开始mysql的字符编码是utf8_general_ci,能正常链接,后来改成utf8mb4_general_ci,kettle就连不上mysql了,那位大师知道需要在哪里设置一下呢。

跟这个应该没有什么关系吧?看看报什么错误?字符集改最多是取出来的数据是乱码的!

2015-10-28 14:39 回复了该问题

改版

反馈