提交作业很频繁吧?每次作业的提交都会实例化org.apache.hadoop.conf.Configuration这个类
2017-04-05 10:22 回复了该问题看有多少个partition就有多少个并发的任务,webui也可以看 [attach]34913[/attach]
2017-04-05 10:00 回复了该问题可以啊,通过<name>hive.metastore.warehouse.dir</name>指定你hive仓库所在的路径,通常是hdf...
2017-04-03 21:02 回复了该问题MetaException(message:Could not connect to meta store using any of the URIs prov...
2017-03-31 11:01 回复了该问题hadoop平台是基础,数据准确性是产品核心,计算速度是重点,快速开发是其次。
2017-03-29 20:33 回复了该问题val a = "A:b,c,d" val b = a.split(":") val c = b{0} val d = ...
2017-03-27 18:18 回复了该问题[url]http://archive.ics.uci.edu/ml/[/url] 这上面有300来个开放的数据集
2017-03-23 15:14 回复了该问题看你要做什么,如果只是刻画用户的画像,做一些简单的统计并不需要用到mllib,但让做离线大数据处理用mapreduce计算模型推荐首选spark做计算引擎,原因...
2017-03-17 14:57 回复了该问题并不是越多越好,你可以这样理解,hive的分区只是一个map的key,很显然要根据key寻找value,其时间复杂度为O(n),key越多遍历找key的时间越长...
2017-03-17 14:53 回复了该问题用下面的方式试一试~IP=$1 PORT=$2 DB=$3 USERNAME=$4 PASSWORD=$5 TABLE=$6 HIVE_DB=$7 HIVE_T...
2017-03-17 10:01 回复了该问题区别在于第一个map中的r是数组类型,通过圆括号加索引的形式取得数组中的元素,第二个map中的r是tuple,通过下划线_1,_2的方式取得tuple对应位置的...
2017-03-15 22:43 回复了该问题最简单的线性回归model<-lm(y~x,data),得到一个线性模型,使用predict(model,other_data)方法在model模型上预测...
2017-03-15 17:36 回复了该问题