没看懂。 你可以read一个xlsx文件,再read一个,然后做一个合并处理。
2016-04-21 10:12 回复了该问题hadoop fs -ls /
2016-04-18 16:52 回复了该问题按道理讲不应该啊。 你在py文件的最前方加一下下面的代码试一下 # coding=utf-8
2016-04-18 16:34 回复了该问题Python是开源的,给你几个包参照 Scikit-Learn 应用最多的Python的机器学习包 Pandas/Numpy 应用非常多的数据处理,计算包 ma...
2016-04-18 16:32 回复了该问题1.加header agent了么? 2.关闭cookies了么? 3.不停地换IP地址了么? 搞这3个,就搞定了绝大多数的反爬的问题。 其他的还有直接模拟各类...
2016-04-18 10:54 回复了该问题什么是逻辑思迪回归?logistic回归?这个P值是可以用来挑选显著变量的,来查看哪些变量是否显著,但是否存在多重共线性通过P值是解决不了的。 可以参考下面的网...
2016-04-18 09:59 回复了该问题箱线图一般是用来描述数据分散情况的,至少要有5个点:最大,最小,两个4分位数,中位数,所以你的数据肯定是大于5的样本,这样的话,两个4位数,中位数的表示才更加明...
2016-04-15 18:31 回复了该问题可以直接使用Ipython notebook就可以的。边执行,边输出结果! 但是有个问题就是,如果是WEB的,存在一个超时的问题,如果spark的计算超过60s...
2016-04-15 14:27 回复了该问题两种方案: 1.重新确定样本,样本可以选择1周以前的数据,这样就避免了,用户刚加入的情况。 2.可以参考配额抽样,但是配额抽样属于非概率抽样,带有一定的主观性。...
2016-04-13 11:01 回复了该问题你这是在自学么?还是公司的行为啊。。首先,如果你没有Java的开发经验,我建议你放弃,Java的开发本身就涉及很多东西,开发,编译,打包,部署,调试等等,很多的...
2016-04-12 17:05 回复了该问题什么样的数据库,做的是什么样的加载数据过程?是查询慢,还是说百万的表,导入到另外一个数据库比较慢啊?
2016-04-12 15:50 回复了该问题这个首先你要确定你使用的是SSAS的三种分区的存储模式:MOLAP,ROLAP,HOLAP里面的哪一种,如果是MOLAP,计算的值都是提前计算好的,定时刷新cu...
2016-04-12 14:42 回复了该问题简单回答下,这个代码编辑器没有办法写公式,所以凑合看。 首先,你的第一个内容,总体均值的区间估计主要分三种情况: 1.样本非常大的时候,使用Z分布计算区间估计 ...
2016-04-12 11:21 回复了该问题