合理分区啊。。每个分区都会被记录到HDFS的NAMESPACE,为了而不增加NameNode的压力,一定要合理使用Hive的分区。另外,分区后若有比较多的小文件...
2016-09-03 09:33 回复了该问题这本书在微信读书上有。有试读章节,看完试读的如果觉得OK可以买,或者有需要我可以在微信上送你。 内容还行,适合入门
2016-09-02 14:38 回复了该问题如果你在别的机器上要使用Hive server等,当然是Hive安装在哪里,就写哪里的链接,IP或主机名都行
2016-08-31 18:30 回复了该问题1、创建一个shell脚本文件test.sh,里面写上你要执行的jar作业执行命令:hadoop jar XXX.... 2、借助Linux的定时调度系统Cro...
2016-08-31 09:41 回复了该问题A文件写到A数据块、B文件写到A数据块,这种说法应该是不正确的。只能说一个文件会根据其大小被切分成几块,假设集群的块大小被设置成64M,若A文件的大小是120M...
2016-08-31 09:32 回复了该问题源数据、生成方式都一样吗?是在同一台机器上吗?一般情况下是一样的
2016-08-31 09:18 回复了该问题Sqoop从Hadoop或Hive或HBase将数据导出到MySQL,是导出,你可以查看一下Sqoop的增量导出。 如果Sqoop的导出你没有设置增量导出,则如...
2016-08-30 10:19 回复了该问题Column Family(CF)是列族,Column是列。Column是属于某一个指定CF的,例如有一个列族叫基本信息BaseInfo,可以将姓名、性别、年龄...
2016-08-29 23:54 回复了该问题要学习Hadoop,需要具备一些Linux基础,和Java基础。 推荐书籍:Hadoop权威指南,另外多关注Hadoop的官方手册。
2016-08-29 23:51 回复了该问题类似Select sum()这种查询是支持的。查询对象是一个构建好的Cube,或者说数据模型。
2016-08-29 23:50 回复了该问题如果企业已经有传统的BI,可以将BI前期的ETL和数据处理分析等工作挪到Spark、Hadoop上,BI只需要通过某种方式使用Hadoop、Spark的结果输出...
2016-08-29 23:45 回复了该问题有的,double months_between(date1, date2) 具体请参考Hive的官方手册:https://cwiki.apache.org/c...
2016-08-27 11:01 回复了该问题