MarsJ

大数据玩家~DS

始于: 2015-10-13

广东省 广州市

发私信

1580

总声望

216

次被推荐

617

粉丝

他的回答
排序:

0
投票

问下 在hive里面 有A库 和B库 两个库都有一个C表 insert A.C select B.C 为何会很慢呢

不应该的哈,可以从数据量、数据表结构设计(如楼上说的分区)、执行Task的机器配置等几个方面着手解决

2018-10-09 11:51 回复了该问题
0
投票

hadoop subdir目录存储大

hadoop的文件有垃圾箱机制,要看你怎么设置的,比如垃圾箱数据保留几天。另外是HDFS的副本数的设置。几亿条数据多少个G?数据量*副本数

2018-03-16 11:53 回复了该问题
0
投票

Hive 建表报错,初步怀疑是Mysql元数据库字符集问题,但一直没解决。

MySQL字符集有很多设置的,比如Server,db。。逐一尝试

2017-11-10 11:02 回复了该问题
0
投票

kylin 2.1 对应的spark版本啥多少的?

我这边使用Spark 1.6是支持的,没有试过更高版本

2017-10-20 15:53 回复了该问题
0
投票

请问下,hive限制用户写入hdfs数据量大小在哪儿配置?

你指的是HDFS块的大小还是整体文件的大小?

2017-08-18 10:38 回复了该问题
0
投票

Hive 偶尔会报 message:Metastore contains multiple versions (2) 错误

有没有多次初始化元数据库之类的或者安装操作?

2017-05-22 14:43 回复了该问题
0
投票

zookeeper启动问题,一直报拒绝连接,但是防火墙都关了呀

拒绝链接,查看网络和ZooKeeper状态,网络如果正常,再看ZooKeeper配置信息及状态,如果都正常可以用zkclinet去做一些测试检查。

2017-04-20 11:09 回复了该问题
0
投票

spark中如何看有多少个并发的task啊

楼上正解,还可以在Web UI上查看到Spark的每一个Executor并行了多少个Task,善于利用Web UI的信息会有意向不到的收获。

2017-04-13 09:43 回复了该问题
0
投票

请问下 hive洗完的数据导入到hbase中是通过什么方法啊?

1,Hive和HBase集成,直接映射成HBase,无需导入; 2,写MR或Spark代码,通过bulk load 方式导入(先写出成HFile,在load),...

2017-04-13 09:42 回复了该问题
0
投票

BI工具在大数据方面的性能如何?

BI工具有快有慢,也有针对大数据平台的BI工具

2017-04-13 09:41 回复了该问题
0
投票

hive 日期格式转换

以空格分隔取子串,例如取出最后4个长度的为年,然后case when判断出具体的 月、日。或者写UDF去转换,你可以看一下Hive课程中的视频(https://...

2017-03-27 16:11 回复了该问题
0
投票

Scala中map(r=>(r(0),r(1))),与map(r=>(r._1,r._2))有什么不同呢?什么场景用呢?

()是数组取值的方式,_是元组取值的方式,这是Scala编程的基本语法。

2017-03-17 09:00 回复了该问题
0
投票

求教各位大神,我搭建的hadoop2.7版本,管理页面50070能打开,8088端口的管理页面打不开是什么原因啊?

配置中是8088吗?看下resourcemanager的日志

2017-02-10 19:07 回复了该问题
0
投票

HIVE安装部署问题

元数据信息找不到,是否有配置元数据库?然后你的错误源于进行了什么操作?

2017-02-10 18:47 回复了该问题
0
投票

HIVE表中求思路,具体描述见下面

你的第一层和第二层是什么意思?如果都是Hive表,当然可以直接导入,用insert into 即可。

2017-02-08 18:35 回复了该问题

改版

反馈