天善智能-商业智能和大数据在线社区，用心创造价值

0

投票

大神们，能说说都有什么机器学习模型吗?(不论年代，不论方向)，我想了解一下

你的这个问题可能需要需要好几本书来回答了~~~ 常见的就是逻辑回归、SVM、决策树、神经网络等等。推荐一个链接 [url=http://mp.weixin.q...

2016-05-31 10:58 回复了该问题

0

投票

机器学习、数据挖掘有必要拥有坚实的数学基础吗？

数学对于机器学习和数据挖掘来说是很重要的，否则只会停留在调用包的层面上。如果数学基础不好，那么建议可以多看微积分、线性代数、概率统计，补充这方面的知识，甚至买...

2016-05-31 08:49 回复了该问题

0

投票

sqoop从Oracle导表到hive报错

请问你集群中个版本信息是什么？另外，在$SQOOP_HOME/lib/下你是否有添加Oracle相应版本的ODBC.jar包？

2016-05-31 08:45 回复了该问题

0

投票

hadoop 磁盘负载不均衡？

在你3个节点的环境下，并且还不考虑replication，Hadoop的负载可以说是按照机器来做的，但也不完全对。但是实际上是这样的：在有replica...

2016-05-31 08:40 回复了该问题

0

投票

请教各位，有推荐的R方面的资料吗，从入门开始

书籍：《R语言实战》，个人觉得这本书比较适合入门，把书上的代码都敲一遍视频： Coursera上霍普金斯大学的R语言课程 [url]https://ww...

2016-05-26 16:20 回复了该问题

0

投票

关于使用spark做olap靠谱么？有没有成熟案例？

基于大数据的OLAP，可以推荐使用Apache Kylin，[url]http://kylin.apache.org/cn/[/url] 这是由e-bay的...

2016-04-08 15:39 回复了该问题

1

投票

spark collect()，当数据量比较大时，卡死怎么解决？

collect是直接将执行collect的这个RDD是数据加载到内存中执行，如果数据量太大必然会卡死，所以唯一能建议的就是合理使用collect，不要滥用。

2016-04-08 15:36 回复了该问题

0

投票

spark 如何自动管理CPU,memory,I/O等资源？

Spark有3中部署模式： 1,Standalone 2,YARN 3,Mesos 这三种模式对应3种不同的资源管理，第一种是Spark自带的，第二种是...

2016-04-08 15:33 回复了该问题

0

投票

sqoop在导入数据到mysql时，如何让数据不重复导入？若存在数据问题，sqoop如何处理

增量导入或更新导入，增量更新时指定增量或更新的键

2016-04-08 15:31 回复了该问题

0

投票

hiveserver2经常出问题，进程没有挂掉，但是不能工作了，谁知道怎么回事？

查看hive的日志，然后检查你的10000端口是否正常。如果方便的话，请贴出你hiveserver相关的日志错误部分。

2016-04-08 15:29 回复了该问题

1

投票

如何用 hadoop/hive 做日志分析系统？

有一种曾用过的流程供参考： 1，数据接入，可以选择使用Flume或者Fuse或Sqoop等方式接入； 2，直接接入到数仓（Hive实现的）的ODS层，后续的数据...

2016-04-08 15:27 回复了该问题

1

投票

外部表管理组，创建提供程序时找不到BISQLGroupProvider

此问题已解决，原本的参考文档是官方文档的Security Guide，后来在根据11g的文档在11g环境测试了，可以找到BISQLGroupProvider，然...

2015-11-05 14:44 回复了该问题

0

投票

BIEE Oracle BI Publisher 11g 报表字段的长度最大限制？

补充一点，中间用到了SUM，然后位数发生了变化，后来直接截取整数，整数部分有10位数（10亿）时是无法显示的，目前正在一位一位测试，验证BIEE到底能展现多长的...

2015-10-13 17:19 回复了该问题

MarsJ

他关注的

他的粉丝

他的回答
排序:
时间 投票