不应该的哈,可以从数据量、数据表结构设计(如楼上说的分区)、执行Task的机器配置等几个方面着手解决
2018-10-09 11:51 回复了该问题hadoop的文件有垃圾箱机制,要看你怎么设置的,比如垃圾箱数据保留几天。另外是HDFS的副本数的设置。几亿条数据多少个G?数据量*副本数
2018-03-16 11:53 回复了该问题有没有多次初始化元数据库之类的或者安装操作?
2017-05-22 14:43 回复了该问题拒绝链接,查看网络和ZooKeeper状态,网络如果正常,再看ZooKeeper配置信息及状态,如果都正常可以用zkclinet去做一些测试检查。
2017-04-20 11:09 回复了该问题楼上正解,还可以在Web UI上查看到Spark的每一个Executor并行了多少个Task,善于利用Web UI的信息会有意向不到的收获。
2017-04-13 09:43 回复了该问题1,Hive和HBase集成,直接映射成HBase,无需导入; 2,写MR或Spark代码,通过bulk load 方式导入(先写出成HFile,在load),...
2017-04-13 09:42 回复了该问题以空格分隔取子串,例如取出最后4个长度的为年,然后case when判断出具体的 月、日。或者写UDF去转换,你可以看一下Hive课程中的视频(https://...
2017-03-27 16:11 回复了该问题()是数组取值的方式,_是元组取值的方式,这是Scala编程的基本语法。
2017-03-17 09:00 回复了该问题配置中是8088吗?看下resourcemanager的日志
2017-02-10 19:07 回复了该问题