多大的tar.gz包啊?用python写个shell,解压出txt放入到hbase里面不可以么?不一定是hadoop或者spark吧?
2015-11-06 10:00 回复了该问题最简单的方式:使用oracled导出命令,导出数据为txt,采用hive外部表的形式加载txt 高级点的方式:采用sqoop导入到hive 再高级的方式:使用e...
2015-11-06 09:57 回复了该问题kettle只是一个工具,同时它支持shell和自定义代码。也有控件也可以输出文件。只是你这个问题有点大,什么样的自定义的格式文件。可以描述的再清晰点。
2015-11-05 20:03 回复了该问题当面对多线程访问需求时,我们可以预先建立HConnection,参见以下代码:// Create a connection to the cluster. HC...
2015-11-04 16:34 回复了该问题最近做公司的烂项目做到吐血,跟大数据没有大多的关系。很多技术点都扔了。回复下个人对这块的理解。 [narrow的第一个作用,我的理解是可以不用等上一次操作全部做...
2015-11-04 16:25 回复了该问题app是SDK WEB和h5是给js传参数,注意调用的js最好是单独部署,这样可以设置避免CDN缓存 解析的话就是js请求的nginx日志,解析方式可以使用hi...
2015-11-03 16:50 回复了该问题可以查看: [url]http://www.flybi.net/question/13515#answer_list_9551[/url] 这个是我之前的一个回...
2015-11-03 14:20 回复了该问题空和NULL如果没有特殊的业务声明,那这俩是没有什么区别的。 另外。如果是同构的mssql的数据库,为什么不用SSIS来做数据抽取呢。
2015-11-03 14:18 回复了该问题之前有收藏过此类的问题,实际上就是算法。你可以参阅我转载的内容 大数据或者数据分析师常见的10道面试题解答:http://www.flybi.net/blog/...
2015-11-03 09:49 回复了该问题[code] vim ~/.bash_profile export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_PREFIX}/...
2015-11-02 17:18 回复了该问题在执行kettle的过程中,实际上是可以通过日志的方式,查看到count的数据的,如下图所示: [attach]9076[/attach] 如果还想更直观...
2015-11-02 16:50 回复了该问题个人观点,欢迎讨论: 两者最大的一个区别实际上是面向的使用者不同。 调用api的,一般是程序员,算法工程师,大数据开发工程师等等,自动化,脚本化处理数据,大部分...
2015-11-01 22:09 回复了该问题spark也不是无所不能的啊,提供思路: 直接监听mysql的bin log 然后处理bin log的日志到hdfs上
2015-11-01 22:00 回复了该问题使用insert语句往A表中插入一条记录 然后使用select into 语句从A表将数据导入到B表 在使用输入组件,输出组建从B表导入到oracle的数据库中...
2015-10-30 07:47 回复了该问题跟这个应该没有什么关系吧?看看报什么错误?字符集改最多是取出来的数据是乱码的!
2015-10-28 14:39 回复了该问题