天善智能-商业智能和大数据在线社区，用心创造价值

1

投票

我想问个问题，既然基于hive模式做查询，元数据以mysql方式，那做集群和单机又有什么区别呢？存储处理不都是以关系型数据库？又怎么提现分布式的优势？

元数据存MySQL，不是实际的Hive数据存MySQL，元数据是指的表名、Owner、表创建时间、表所包含的列名，Hive的元数据存储在MySQL中，而实际数据...

2016-10-08 10:55 回复了该问题

0

投票

hive show databases 报错

HDFS正常启动了吗？Metastore的服务起来吗？

2016-09-29 16:24 回复了该问题

0

投票

请教群里hadoop大神一个问题如何自动导入文件到HDFS 我们的架构是这样的

直接在Linux上用crontab定时调度就可以了。可以关注大数据系列课程，目前正在进行的是Sqoop系列，未来几天应该会出Sqoop导入数据。

2016-09-29 16:23 回复了该问题

0

投票

hdoop的balancer是可以把数据块平均分配到各个节点的么？

是的，基本上是你说的这样。一般这个操作发生在新增了节点之后，新增节点之后，新增节点的存储空间大，而且没有存什么数据，此时balancer会将部分数据块存放于新节...

2016-09-28 17:08 回复了该问题

0

投票

求大神指点，impala 不断增长，无法释放内存会哪些方面原因？

impala不断增长？是不是用了很多impala操作，没有正常关闭？这个好久没接触过

2016-09-27 17:19 回复了该问题

1

投票

求助：谁有hive multi session的配置文档，请指教！

hive multi session ?你是指的打开多个类似于Hive cli吗？如果是的话，那么在MetaStore存在Derby数据库中时，其本身就是单s...

2016-09-27 17:18 回复了该问题

0

投票

请问下hive中left join on 连接条件 and 过滤条件执行顺序是怎样的？是先过滤再连接还是先连接在过滤？

在hive中的执行顺序大概是： from ... where ... select group by... 会先执行on条件筛选，再连接，然会才会执行where...

2016-09-24 14:09 回复了该问题

0

投票

请问 Hive row_number partition by 数据出现严重的倾斜该怎么优化一个很简单的sql

开启hive.optimize.skewjoin=true

2016-09-24 13:59 回复了该问题

0

投票

请问我配置完Hadoop之后为什么访问不了HDFS的管理界面啊

检查节点的防火墙情况。默认防火墙开启但并未开放50070等端口。另外你访问时使用的是IP还是主机名？要做好主机名和IP之间的映射。

2016-09-24 13:56 回复了该问题

0

投票

请教一个spark的问题，假如我的一个文档大小是2个G，但是我的cpu内存只有1个G，我用sc.textFile("")能把这个文件读进来吗？

Spark的RDD在出发了真正的执行之后，读文件时会生成一个RDD，这个RDD会根据一些机制被分成一些分区，内存如果只有1G，那只会有一部分分区被加载，然后才加...

2016-09-22 19:21 回复了该问题

1

投票

Hi，各位早。请问spark上有模糊C均值算法或者任意的模糊聚类算法么

Spark2.0所支持的聚类算法请参考 https://spark.apache.org/docs/latest/ml-clustering.html

2016-09-21 15:48 回复了该问题

0

投票

请问如何在服务器端，获取hive jdbc连接的密码呢。我现在只能获取用户名，密码为null

获取密码？密码在配置文件中有，不知道你可否细化一下场景

2016-09-21 08:28 回复了该问题

1

投票

有没有一个框图介绍spark，hadoop mapreduce，yarn，samza等之间的关系呢？

可以参考一下[url]https://edu.hellobi.com/course/93[/url] 这个课程当中的开源组件介绍，除了samza之外，其他都有提...

2016-09-20 10:13 回复了该问题

1

投票

hiveserver2 和 metastore 的关系和区别是什么

hiveserver2是你写的程序连接到Hive的一个服务，默认和Iveserver2是10000端口，那么你的代码里要指明和和hiveserver2运行的机器...

2016-09-20 10:12 回复了该问题

0

投票

Spark如何自学，有哪些小型的项目或者练习？

资源运行的情况下，可以在台式机上装多个虚拟机，然后把虚拟机组成一个分布式集群。去Kaggle上找项目做，可能要学点scala

2016-09-19 22:29 回复了该问题

MarsJ

他关注的

他的粉丝

他的回答
排序:
时间 投票