Bob

同程旅游大数据+BI 架构师

始于: 2015-09-29

江苏省 苏州市

发私信

250

总声望

142

次被推荐

0

粉丝

他的回答
排序:

2
投票

当Data Flow Task中报错时,怎么得到ErrorColumn Name

在你的脚本任务控件中插入如下代码: Dictionary<int, string> lineageIds = null; public void ...

2016-01-28 21:08 回复了该问题
1
投票

有人知道datastage 连接DB2 AS 400的ODBC配置么?

很久没有用过ds了。 我之前记录的一个示例,你看看能不能用 [DB400] Driver=/opt/IBM/InformationServer/Server/b...

2016-01-28 20:49 回复了该问题
0
投票

做数据挖掘前获取数据的途径有哪些?

从国外的一些网站上获取算法所需数据。 通常这部分数据都是文本或者是csv格式。

2016-01-28 20:45 回复了该问题
0
投票

数据分析流程中的难点之一是数据清洗和整理,在实际工作中,如果数据是结构化的,大家是直接在分析软件(R或者其它)中进行,还是会用SQL进行预处理,然后让R直接去读去处理好以后的试图或者存储过程呢?

一般情况下需要从专门的数据清洗团队那里获取数据。 通常情况下我们认为是数据仓库或者是ODS层。   如果是结构化的数据,那建议还是先用sql进行数据加工处理。毕...

2016-01-28 20:43 回复了该问题
0
投票

postgresql安装失败

详细的日志和安装环境说下吧。 我这边是安装在Linux centos 6.3以上版本中,没有任何问题

2016-01-28 13:31 回复了该问题
0
投票

SQL SERVER CDC 在修改表字段类型的时候,会自动将表的CDC功能禁用,以及新增字段在开头和中间时也是会自动禁用 是这样的吗

如果是删除字段、修改字段则会禁用CDC。 如果是新增字段了,那不会禁用CDC,但是新增字段无法被捕获变更。 我使用sqlserver的CDC有很长一段时间了,有...

2016-01-28 13:28 回复了该问题
0
投票

互联网企业和传统企业分别是什么情况?商业版本的Hadoop在国内用的多吗?国内厂商有没有做商业版本Hadoop的?

hadoop集群还是使用开源的居多。我们选择的是cloudera的CDH5.*版本。 这也是商业版本,一般的使用都是免费的,如果遇到问题基本都是查询官方的博客或...

2016-01-28 10:30 回复了该问题
0
投票

请教下高手,我用的是kettle6.01,hive版本是1.01,我想把运行结果写入hive,使用kettle表输出或者插入更新功能,速度只有30s一条,有没有更加高效的方式?

数据写入时建议先写入文本中。 如果你的kettle服务器与hadoop集群不在同一个机器,那建议在kettle机器上挂一个hadoop机器的网络盘。文本先写入到...

2016-01-28 10:28 回复了该问题
0
投票

请问这个在map函数外定义的静态变量cooccurrenceMatrix是整个集群共用一个还是每个map节点用一个呢?

这个是节点上的。 如果你想做全局的数据存储,建议添加到Configuration中。 示例: Configuration config = Configurat...

2016-01-28 10:20 回复了该问题
0
投票

hadoop怎么从数据库读取某个字段并完成计数

1.hadoop是通过DBInputFormat来读取数据库。 在使用DBInputFormat前,相应数据库的驱动jar包需要放在hadoop集群每个节点的l...

2016-01-28 10:13 回复了该问题
1
投票

为什么spark支持多种语言编程,而mapreduce只支持java

hadoop 通过hadoop streaming 的方式也可以调用其他编程语言实现的MR,例如c++,Python等

2016-01-28 10:07 回复了该问题
1
投票

Hbase rowkey的模糊匹配有那几种filter?

1.前缀过滤器:PrefixFilter 2.行过滤器:RowFilter 3.随机行过滤器:RandomRowFilter 4.第一个行:FirstKeyOn...

2016-01-28 09:00 回复了该问题
0
投票

请问有人用了greenplum+hadoop的构架吗,分享下经验学习

我这使用了,有时间交流下

2016-01-28 08:54 回复了该问题
0
投票

安装hive后,启动hive时报错

1.检查下你的hadoop集群是否能正常启动。使用jps命令看看主进程信息 查看下namenode的日志文件,里面会有说明的 2.检查下ip地址是否是启用了ip...

2015-12-11 13:30 回复了该问题
0
投票

请教大家一个问题,impala 支持 原生的Hadoop2.6吗?

impala是cloudera出品的。与CDH版本的Hadoop结合是最好的。能不能部署在原生的Hadoop上,没试过。应该是勉强运行,但是可能会缺少CDH的一...

2015-12-10 13:02 回复了该问题

改版

反馈