MarsJ

大数据玩家~DS

始于: 2015-10-13

广东省 广州市

发私信

1580

总声望

216

次被推荐

0

粉丝

他的回答
排序:

0
投票

每天两千亿条数据是否适合用Hbase?

看应用场景,例如你所说使用某些字段做简单查询,那么势必HBase的列式存储是比较合适的,从应用上考虑2点,1是存储的合理性,2是查询的时效性。

2017-02-08 09:53 回复了该问题
0
投票

hive配置hdfs地址问题

fs.defaultFS能配置多个吗?能,如楼上Bob老师讲的HA模式

2017-02-08 09:41 回复了该问题
0
投票

面试问题哈

数据倾斜需要对数据分布有了解,可以通过建立倾斜表处理,此外可以通过对倾斜数据指定任务数,从分布式计算任务的角度优化。

2017-02-08 09:39 回复了该问题
0
投票

spark 读取预分region的Hbase

错误应该跟代码没关系,错误显示DNS name not found,表示域名解析错误,或者你的代码里是否写死了主机名之类的。从这方面着手解决。

2017-01-16 15:12 回复了该问题
1
投票

hive语句如何女把10位的date格式,转成8位

如果日期格式比较规定,还可以把‘-’替换成‘’间接起到删除的作用,替换函数时regexp_replace,3个参数,第一个是要替换的字段,第二个是要替换的字段中...

2017-01-16 15:09 回复了该问题
0
投票

kettle抽取oracle数据到hbase遇到问题

错误显示,无法连接HBase。可能的原因: 1,HBase是否正常运行,端口是否开放; 2,Kettle是否配置正确HBase连接字符串

2017-01-14 11:29 回复了该问题
0
投票

求教一个问题。集群之间的数据拷贝。是不是只支持文件拷贝。有没有哪位大虾研究过? 是否支持PQRQUET压缩表拷贝??

cluster1和cluster2之间吗?貌似是的,hadoop distcp -f参数只能列出文件列表。

2017-01-14 11:27 回复了该问题
0
投票

sqoop job -create报错ERROR hsqldb.HsqldbJobStorage: Can not interpret metadata schema

检查metadata有什么问题,包括那个文件的权限。有可能你多次初始化之后产生了前后不一致的metadata version

2017-01-14 11:23 回复了该问题
0
投票

想请教下,现在公司里面Mllib用的什么业务场景比较多呢?

大多数大数据背景下的数据挖掘,如果已经开始使用Spark了,都可以使用MLlib,MLlib现在也在不断地扩充算法库。 例如用户画像、客户细分等等,还包括NLP...

2017-01-14 11:21 回复了该问题
1
投票

请教一个问题:hive进行查询时报这样的错,一般是什么原因呢?FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

这里错误提示MR出问题,这只是表面错误,要Hive查询所对应的MapReduce作业的日志,才能知道真正的错误是什么。

2017-01-14 11:18 回复了该问题
0
投票

搭建好Hadoop和hive(远程模式)如何操作远程的mySQL数据库数据进行数据挖掘,求大神指导啊

搭建好Hadoop和Hive,与远程MySQL数据做数据挖掘这是两回事吧。 搭建好的Hadoop和Hive数据肯定是在HDFS上,操作远程的MySQL,难道你是...

2017-01-14 11:16 回复了该问题
0
投票

有谁知道hive里用什么字段来代替mysql里面的>=吗?(场景:累计激活量的变化,通过日期大于等于进行关联)

你的问题是用什么字段替代>=,>=不是一个逻辑操作符吗?在Hive中也可以用>=进行逻辑判断。 如果我理解错误,请更详细说明一下问题。谢谢。

2017-01-14 11:13 回复了该问题
0
投票

hive中有啥函数能消掉第三列的这个0吗??

两次取子串的操作,第一次前两位,第二次从第四位开始取到最后,然后拼接。

2017-01-14 11:11 回复了该问题
1
投票

hive的编译安装和bin安装有什么区别啊

编译安装时自己根据Hive源码在自己的平台上编译Hive,bin包是官方以及编译好的包,下载直接加压添加环境变量就可以用的。 前者在自己的平台上可能其他组件例如...

2017-01-10 13:23 回复了该问题

改版

反馈