元数据存MySQL,不是实际的Hive数据存MySQL,元数据是指的表名、Owner、表创建时间、表所包含的列名,Hive的元数据存储在MySQL中,而实际数据...
2016-10-08 10:55 回复了该问题直接在Linux上用crontab定时调度就可以了。 可以关注大数据系列课程,目前正在进行的是Sqoop系列,未来几天应该会出Sqoop导入数据。
2016-09-29 16:23 回复了该问题是的,基本上是你说的这样。一般这个操作发生在新增了节点之后,新增节点之后,新增节点的存储空间大,而且没有存什么数据,此时balancer会将部分数据块存放于新节...
2016-09-28 17:08 回复了该问题hive multi session ?你是指的打开多个类似于Hive cli吗? 如果是的话,那么在MetaStore存在Derby数据库中时,其本身就是单s...
2016-09-27 17:18 回复了该问题在hive中的执行顺序大概是: from ... where ... select group by... 会先执行on条件筛选,再连接,然会才会执行where...
2016-09-24 14:09 回复了该问题开启hive.optimize.skewjoin=true
2016-09-24 13:59 回复了该问题检查节点的防火墙情况。默认防火墙开启但并未开放50070等端口。 另外你访问时使用的是IP还是主机名?要做好主机名和IP之间的映射。
2016-09-24 13:56 回复了该问题Spark的RDD在出发了真正的执行之后,读文件时会生成一个RDD,这个RDD会根据一些机制被分成一些分区,内存如果只有1G,那只会有一部分分区被加载,然后才加...
2016-09-22 19:21 回复了该问题Spark2.0所支持的聚类算法请参考 https://spark.apache.org/docs/latest/ml-clustering.html
2016-09-21 15:48 回复了该问题可以参考一下[url]https://edu.hellobi.com/course/93[/url] 这个课程当中的开源组件介绍,除了samza之外,其他都有提...
2016-09-20 10:13 回复了该问题hiveserver2是你写的程序连接到Hive的一个服务,默认和Iveserver2是10000端口,那么你的代码里要指明和和hiveserver2运行的机器...
2016-09-20 10:12 回复了该问题资源运行的情况下,可以在台式机上装多个虚拟机,然后把虚拟机组成一个分布式集群。 去Kaggle上找项目做,可能要学点scala
2016-09-19 22:29 回复了该问题