看应用场景,例如你所说使用某些字段做简单查询,那么势必HBase的列式存储是比较合适的,从应用上考虑2点,1是存储的合理性,2是查询的时效性。
2017-02-08 09:53 回复了该问题错误应该跟代码没关系,错误显示DNS name not found,表示域名解析错误,或者你的代码里是否写死了主机名之类的。从这方面着手解决。
2017-01-16 15:12 回复了该问题如果日期格式比较规定,还可以把‘-’替换成‘’间接起到删除的作用,替换函数时regexp_replace,3个参数,第一个是要替换的字段,第二个是要替换的字段中...
2017-01-16 15:09 回复了该问题错误显示,无法连接HBase。可能的原因: 1,HBase是否正常运行,端口是否开放; 2,Kettle是否配置正确HBase连接字符串
2017-01-14 11:29 回复了该问题cluster1和cluster2之间吗?貌似是的,hadoop distcp -f参数只能列出文件列表。
2017-01-14 11:27 回复了该问题检查metadata有什么问题,包括那个文件的权限。有可能你多次初始化之后产生了前后不一致的metadata version
2017-01-14 11:23 回复了该问题大多数大数据背景下的数据挖掘,如果已经开始使用Spark了,都可以使用MLlib,MLlib现在也在不断地扩充算法库。 例如用户画像、客户细分等等,还包括NLP...
2017-01-14 11:21 回复了该问题这里错误提示MR出问题,这只是表面错误,要Hive查询所对应的MapReduce作业的日志,才能知道真正的错误是什么。
2017-01-14 11:18 回复了该问题搭建好Hadoop和Hive,与远程MySQL数据做数据挖掘这是两回事吧。 搭建好的Hadoop和Hive数据肯定是在HDFS上,操作远程的MySQL,难道你是...
2017-01-14 11:16 回复了该问题你的问题是用什么字段替代>=,>=不是一个逻辑操作符吗?在Hive中也可以用>=进行逻辑判断。 如果我理解错误,请更详细说明一下问题。谢谢。
2017-01-14 11:13 回复了该问题kettle支持直接把数据从RDBMS抽取到Hive中
2017-01-14 10:54 回复了该问题编译安装时自己根据Hive源码在自己的平台上编译Hive,bin包是官方以及编译好的包,下载直接加压添加环境变量就可以用的。 前者在自己的平台上可能其他组件例如...
2017-01-10 13:23 回复了该问题