牟瑞

大数据 Hadoop 讲师 Hadoop入门课程地址:http://www.hellobi.com/course/39 有架构师,技术总监,CTO的职位请联系我!

始于: 2013-06-09

发私信

1967

总声望

308

次被推荐

16

粉丝

他的回答
排序:

0
投票

现在大家爬取数据是用着哪种数据库呢? 我现在在阿里云上面跑zhihu爬虫,mongodb做存储,很慢,大家有推荐的嘛?

小项目mongodb绝对是优选!大项目的就不一定了,具体看情况了。 至于很慢,你要下具体的原因,mongodb可以算是一种内存数据库,所以一般情况下性能不会很慢...

2016-04-08 11:00 回复了该问题
0
投票

大神们。 这个怎么解决

没有找到下载这个包的maven仓库。看名字这个只是一个quickstart包,应该没有多大的作用,可以删除试一下, 或者按照如下的步骤操作  从http://m...

2016-04-08 10:30 回复了该问题
0
投票

谁知道这个是什么意思啊

这应该是一个替换的表达式,类似于{0},{1},{2}这种的,在后续的代码中,会把这个这些{}内的内容替换掉。

2016-04-08 10:19 回复了该问题
1
投票

如何在实践中学习Python(数据分析方向)?

最笨的方式:把《利用Python进行数据分析》这本书的每个内容都总结一下。 实践的话,可以参加各类的数据分析大赛,或者去leecode上刷代码。 回头我会写一个...

2016-04-08 10:09 回复了该问题
0
投票

python爬虫: 网站的postdata中包含时变的“lt”项,导致无法通过登陆页面进入home?

It项是什么东西?没有遇到过这个问题啊!可以加天善的学员群:225978231 找我详细的聊聊。

2016-04-08 10:05 回复了该问题
0
投票

python加包的前缀使用什么函数可以实现

这个在于你是如何引用的Python的第三方的包,还有就是第三方的包是否支持这么调用,举三种例子: [code]// 第一种 import numpy // 调...

2016-04-08 09:54 回复了该问题
2
投票

用r语言做文本挖掘的聚类,发现用k平均值法聚类的效果很差,大部分被分到了一类去。有什么好的聚类算法吗?

从个人的角度来说,聚类算法太多了!具体用哪一个,最主要的还是要结合你的具体的数据。 1.预测下或者你期望你的聚类会出现什么样的结果。 2.你的数据是不是噪声数据...

2016-04-08 09:48 回复了该问题
0
投票

hiveserver2经常出问题,进程没有挂掉,但是不能工作了,谁知道怎么回事?

是否有执行日志等其他的信息,单纯根据你的问题是无法定位和解决问题的。

2016-04-08 09:40 回复了该问题
0
投票

麻烦问下,mac 安装什么样的linux 虚拟机,我想一台mac 学习hadoop 集群

个人建议,直接安装个Docker,资源消耗低,占地也小,在我的课程里面有一个基于Windows的Docker的简单的使用。初级的应用足够了。 一台Mac上可以启...

2016-04-08 09:39 回复了该问题
0
投票

用java runtime 调用kettle执行脚本pan.sh.不成功啊

什么错误,把重要的出错信息放上来,不然,错误没有办法定位。

2016-04-07 17:31 回复了该问题
4
投票

求学习Python好书介绍

Python是无处不在的!工作中只要你想,肯定会用到。 比如:自动化脚本执行,部署,Python的爬虫等等。 如果平时不使用,再好的Python书籍也不成啊!所...

2016-04-07 10:39 回复了该问题
0
投票

以下的SQL需求如何实现,急求

给你邀请了Oracle的专家!  

2016-04-07 09:57 回复了该问题
0
投票

求教 调用存储过程报这个错是什么问题呢 数据库是有这个存储过程的,编译也正常。使用表输入传参数怎么不行呢?

你发的图都是横着的。 看一下你当前的这个用户是否有调用这个存储过程的权限。

2016-04-07 09:41 回复了该问题
0
投票

文本文件入库,怎么比较好的过滤其中的垃圾数据

什么样的文本文件?或者什么样的数据算是垃圾数据? 一般首先采用正则表达式过滤比较明显的垃圾数据,比如数据缺失等等, 然后再根据业务规则解析数据 最后将解析的数据...

2016-04-07 09:38 回复了该问题

改版

反馈