MarsJ

大数据玩家~DS

始于: 2015-10-13

广东省 广州市

发私信

1580

总声望

216

次被推荐

0

粉丝

他的回答
排序:

1
投票

我想问个问题,既然基于hive模式做查询,元数据以mysql方式,那做集群和单机又有什么区别呢?存储处理不都是以关系型数据库?又怎么提现分布式的优势?

元数据存MySQL,不是实际的Hive数据存MySQL,元数据是指的表名、Owner、表创建时间、表所包含的列名,Hive的元数据存储在MySQL中,而实际数据...

2016-10-08 10:55 回复了该问题
0
投票

hive show databases 报错

HDFS正常启动了吗?Metastore的服务起来吗?

2016-09-29 16:24 回复了该问题
0
投票

请教群里hadoop大神一个问题 如何自动导入文件到HDFS 我们的架构是这样的

直接在Linux上用crontab定时调度就可以了。 可以关注大数据系列课程,目前正在进行的是Sqoop系列,未来几天应该会出Sqoop导入数据。

2016-09-29 16:23 回复了该问题
0
投票

hdoop的balancer是可以把数据块平均分配到各个节点的么?

是的,基本上是你说的这样。一般这个操作发生在新增了节点之后,新增节点之后,新增节点的存储空间大,而且没有存什么数据,此时balancer会将部分数据块存放于新节...

2016-09-28 17:08 回复了该问题
0
投票

求大神指点,impala 不断增长,无法释放内存会哪些方面原因?

impala不断增长?是不是用了很多impala操作,没有正常关闭?这个好久没接触过

2016-09-27 17:19 回复了该问题
1
投票

求助:谁有hive multi session的配置文档,请指教!

hive multi session ?你是指的打开多个类似于Hive cli吗? 如果是的话,那么在MetaStore存在Derby数据库中时,其本身就是单s...

2016-09-27 17:18 回复了该问题
0
投票

请问下hive中left join on 连接条件 and 过滤条件 执行顺序是怎样的? 是先过滤再连接还是先连接在过滤?

在hive中的执行顺序大概是: from ... where ... select group by... 会先执行on条件筛选,再连接,然会才会执行where...

2016-09-24 14:09 回复了该问题
0
投票

请问 Hive row_number partition by 数据出现严重的倾斜 该怎么优化 一个很简单的sql

开启hive.optimize.skewjoin=true

2016-09-24 13:59 回复了该问题
0
投票

请问我配置完Hadoop之后为什么访问不了HDFS的管理界面啊

检查节点的防火墙情况。默认防火墙开启但并未开放50070等端口。 另外你访问时使用的是IP还是主机名?要做好主机名和IP之间的映射。

2016-09-24 13:56 回复了该问题
0
投票

请教一个spark的问题,假如我的一个文档大小是2个G,但是我的cpu内存只有1个G,我用sc.textFile("")能把这个文件读进来吗?

Spark的RDD在出发了真正的执行之后,读文件时会生成一个RDD,这个RDD会根据一些机制被分成一些分区,内存如果只有1G,那只会有一部分分区被加载,然后才加...

2016-09-22 19:21 回复了该问题
1
投票

Hi,各位早。请问spark上有模糊C均值算法或者任意的模糊聚类算法么

Spark2.0所支持的聚类算法请参考 https://spark.apache.org/docs/latest/ml-clustering.html

2016-09-21 15:48 回复了该问题
0
投票

请问如何在服务器端,获取hive jdbc连接的密码呢。我现在只能获取用户名,密码为null

获取密码?密码在配置文件中有,不知道你可否细化一下场景

2016-09-21 08:28 回复了该问题
1
投票

有没有一个框图介绍spark,hadoop mapreduce,yarn,samza等之间的关系呢?

可以参考一下[url]https://edu.hellobi.com/course/93[/url] 这个课程当中的开源组件介绍,除了samza之外,其他都有提...

2016-09-20 10:13 回复了该问题
1
投票

hiveserver2 和 metastore 的关系和区别是 什么

hiveserver2是你写的程序连接到Hive的一个服务,默认和Iveserver2是10000端口,那么你的代码里要指明和和hiveserver2运行的机器...

2016-09-20 10:12 回复了该问题
0
投票

Spark如何自学,有哪些小型的项目或者练习?

资源运行的情况下,可以在台式机上装多个虚拟机,然后把虚拟机组成一个分布式集群。 去Kaggle上找项目做,可能要学点scala

2016-09-19 22:29 回复了该问题

改版

反馈