你的这个问题可能需要需要好几本书来回答了~~~ 常见的就是逻辑回归、SVM、决策树、神经网络等等。 推荐一个链接 [url=http://mp.weixin.q...
2016-05-31 10:58 回复了该问题数学对于机器学习和数据挖掘来说是很重要的,否则只会停留在调用包的层面上。 如果数学基础不好,那么建议可以多看微积分、线性代数、概率统计,补充这方面的知识,甚至买...
2016-05-31 08:49 回复了该问题请问你集群中个版本信息是什么? 另外,在$SQOOP_HOME/lib/下你是否有添加Oracle相应版本的ODBC.jar包?
2016-05-31 08:45 回复了该问题在你3个节点的环境下,并且还不考虑replication,Hadoop的负载可以说是按照机器来做的,但也不完全对。 但是实际上是这样的: 在有replica...
2016-05-31 08:40 回复了该问题书籍: 《R语言实战》,个人觉得这本书比较适合入门,把书上的代码都敲一遍 视频: Coursera上霍普金斯大学的R语言课程 [url]https://ww...
2016-05-26 16:20 回复了该问题基于大数据的OLAP,可以推荐使用Apache Kylin,[url]http://kylin.apache.org/cn/[/url] 这是由e-bay的...
2016-04-08 15:39 回复了该问题collect是直接将执行collect的这个RDD是数据加载到内存中执行,如果数据量太大必然会卡死,所以唯一能建议的就是合理使用collect,不要滥用。
2016-04-08 15:36 回复了该问题Spark有3中部署模式: 1,Standalone 2,YARN 3,Mesos 这三种模式对应3种不同的资源管理,第一种是Spark自带的,第二种是...
2016-04-08 15:33 回复了该问题查看hive的日志,然后检查你的10000端口是否正常。 如果方便的话,请贴出你hiveserver相关的日志错误部分。
2016-04-08 15:29 回复了该问题有一种曾用过的流程供参考: 1,数据接入,可以选择使用Flume或者Fuse或Sqoop等方式接入; 2,直接接入到数仓(Hive实现的)的ODS层,后续的数据...
2016-04-08 15:27 回复了该问题此问题已解决,原本的参考文档是官方文档的Security Guide,后来在根据11g的文档在11g环境测试了,可以找到BISQLGroupProvider,然...
2015-11-05 14:44 回复了该问题补充一点,中间用到了SUM,然后位数发生了变化,后来直接截取整数,整数部分有10位数(10亿)时是无法显示的,目前正在一位一位测试,验证BIEE到底能展现多长的...
2015-10-13 17:19 回复了该问题