天善智能-商业智能和大数据在线社区，用心创造价值

0

投票

在spark或者hadoop平台如何解析tar.gz包的问题?

多大的tar.gz包啊？用python写个shell，解压出txt放入到hbase里面不可以么？不一定是hadoop或者spark吧？

2015-11-06 10:00 回复了该问题

1

投票

怎么将oracle中的数据导入到hadoop中，便于使用hadoop来进行数据分析?

最简单的方式：使用oracled导出命令，导出数据为txt,采用hive外部表的形式加载txt 高级点的方式：采用sqoop导入到hive 再高级的方式：使用e...

2015-11-06 09:57 回复了该问题

0

投票

请教一个问题，怎么用kettle生成自定义格式的文件

kettle只是一个工具，同时它支持shell和自定义代码。也有控件也可以输出文件。只是你这个问题有点大，什么样的自定义的格式文件。可以描述的再清晰点。

2015-11-05 20:03 回复了该问题

1

投票

Hbase1.1.2的HTablePool已经被弃用，用what来代替HTablePool呢？

当面对多线程访问需求时，我们可以预先建立HConnection，参见以下代码：// Create a connection to the cluster. HC...

2015-11-04 16:34 回复了该问题

1

投票

Spark中的narrow/wide dependency如何理解，有什么作用?

最近做公司的烂项目做到吐血，跟大数据没有大多的关系。很多技术点都扔了。回复下个人对这块的理解。 [narrow的第一个作用,我的理解是可以不用等上一次操作全部做...

2015-11-04 16:25 回复了该问题

1

投票

互联网企业中，大家是怎么做数据埋点的（App、Web、H5）？

app是SDK WEB和h5是给js传参数，注意调用的js最好是单独部署，这样可以设置避免CDN缓存解析的话就是js请求的nginx日志，解析方式可以使用hi...

2015-11-03 16:50 回复了该问题

0

投票

急，KETTLE在LINUX上访问大数据量卡死，性能很低，求高手解答，谢谢

可以查看： [url]http://www.flybi.net/question/13515#answer_list_9551[/url] 这个是我之前的一个回...

2015-11-03 14:20 回复了该问题

0

投票

关于kettle的空字符串和NULL的问题

空和NULL如果没有特殊的业务声明，那这俩是没有什么区别的。另外。如果是同构的mssql的数据库，为什么不用SSIS来做数据抽取呢。

2015-11-03 14:18 回复了该问题

0

投票

大量日志分析的问题，求方法，面试中问到的

之前有收藏过此类的问题，实际上就是算法。你可以参阅我转载的内容大数据或者数据分析师常见的10道面试题解答：http://www.flybi.net/blog/...

2015-11-03 09:49 回复了该问题

1

投票

hadoop-2.2.0启动start-dfs.sh时，出现如下情况：是什么原因？希望高手指点我一下

[code] vim ~/.bash_profile export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_PREFIX}/...

2015-11-02 17:18 回复了该问题

0

投票

请教一个Kettle的问题，我有很多的SQL脚本,想用kettle自动化运行这些脚本生产每个sql查询的count数写到一个日子文件中，那个组件或者实现步骤比较好？

在执行kettle的过程中，实际上是可以通过日志的方式，查看到count的数据的，如下图所示： [attach]9076[/attach] 如果还想更直观...

2015-11-02 16:50 回复了该问题

0

投票

hadoop系统数据处理中应使用sql还是原生api？

个人观点，欢迎讨论：两者最大的一个区别实际上是面向的使用者不同。调用api的，一般是程序员，算法工程师，大数据开发工程师等等，自动化，脚本化处理数据，大部分...

2015-11-01 22:09 回复了该问题

0

投票

有谁实现过用spark 增量抓取mysql数据的吗同步到hdfs或者hive

spark也不是无所不能的啊,提供思路：直接监听mysql的bin log 然后处理bin log的日志到hdfs上

2015-11-01 22:00 回复了该问题

0

投票

如何用kettle往现有表格插入一条数据或记录

使用insert语句往A表中插入一条记录然后使用select into 语句从A表将数据导入到B表在使用输入组件，输出组建从B表导入到oracle的数据库中...

2015-10-30 07:47 回复了该问题

0

投票

用kettle 链接mysql数据库，开始mysql的字符编码是utf8_general_ci,能正常链接，后来改成utf8mb4_general_ci，kettle就连不上mysql了，那位大师知道需要在哪里设置一下呢。

跟这个应该没有什么关系吧？看看报什么错误？字符集改最多是取出来的数据是乱码的！

2015-10-28 14:39 回复了该问题

牟瑞

他关注的

他的粉丝

他的回答
排序:
时间 投票