天善智能-商业智能和大数据在线社区，用心创造价值

0

投票

那个想要请教一下大神，用pd.read_excel()语句能不能读取多个xlsx 文件，每张表代表一天，并且我想要对比不同表中的相同的项目，，，，跪求大神怎么实现

没看懂。你可以read一个xlsx文件，再read一个，然后做一个合并处理。

2016-04-21 10:12 回复了该问题

0

投票

增量抽取数据问题，小妹跪求赐教？

监听bin log,需要写代码。可以考虑用canal

2016-04-19 10:09 回复了该问题

0

投票

问一个问题：我用hadoop fs -mkdir 新建了一个文件夹，问题是我找不到了，是不是建立在了配置的core-site.xml中hadoop.tmp.dir咱们当时设置的目录下呀？

hadoop fs -ls /

2016-04-18 16:52 回复了该问题

0

投票

python 3.5调用matplotlib，所有中文显示为方框，如何设置才能正常显示中文？

按道理讲不应该啊。你在py文件的最前方加一下下面的代码试一下 # coding=utf-8

2016-04-18 16:34 回复了该问题

0

投票

有哪些R语言流行的包的功能是Python没有对应的包的？

Python是开源的，给你几个包参照 Scikit-Learn 应用最多的Python的机器学习包 Pandas/Numpy 应用非常多的数据处理，计算包 ma...

2016-04-18 16:32 回复了该问题

0

投票

如何用Python代码读取text,csv文档数据，并可对文件中数据进行加，减、乘运算╱？

推荐第三方包：pandas. 具体可以百度下。

2016-04-18 13:19 回复了该问题

2

投票

哪位大神可以帮忙解决下反爬的问题

1.加header agent了么？ 2.关闭cookies了么？ 3.不停地换ＩＰ地址了么？搞这３个，就搞定了绝大多数的反爬的问题。其他的还有直接模拟各类...

2016-04-18 10:54 回复了该问题

0

投票

求问一个问题，看一组分类变量对一个分类变量是否有显著影响，逻辑思迪回归得到的p值一般和0.05做比较观看显著程度。可否用这个p值来挑选变量呢？然后再对自变量去除多重共线

什么是逻辑思迪回归？logistic回归？这个P值是可以用来挑选显著变量的，来查看哪些变量是否显著，但是否存在多重共线性通过P值是解决不了的。可以参考下面的网...

2016-04-18 09:59 回复了该问题

0

投票

箱形图对样本数有没有要求？

箱线图一般是用来描述数据分散情况的，至少要有5个点：最大，最小，两个4分位数，中位数，所以你的数据肯定是大于5的样本,这样的话，两个4位数，中位数的表示才更加明...

2016-04-15 18:31 回复了该问题

2

投票

用python写spark程序，能否做成在浏览器页面中敲代码然后执行看结果？

可以直接使用Ipython notebook就可以的。边执行，边输出结果！但是有个问题就是，如果是WEB的，存在一个超时的问题，如果spark的计算超过60s...

2016-04-15 14:27 回复了该问题

0

投票

请教一下怎么处理数据的偏斜问题？比如我要统计用户的活跃度（一段时间内有几天有行为），可有些用户刚加入，这样统计的时候就不准确了，请问这样应该如何处理？

两种方案： 1.重新确定样本，样本可以选择1周以前的数据，这样就避免了，用户刚加入的情况。 2.可以参考配额抽样，但是配额抽样属于非概率抽样，带有一定的主观性。...

2016-04-13 11:01 回复了该问题

0

投票

有个疑问，解压saiku-server-foodmart-2.6.zip后得到的是saiku-server文件夹，然后需要怎么做呢

你这是在自学么？还是公司的行为啊。。首先，如果你没有Java的开发经验，我建议你放弃，Java的开发本身就涉及很多东西，开发，编译，打包，部署，调试等等，很多的...

2016-04-12 17:05 回复了该问题

0

投票

有个问题想请教,数据库的表是百万级的.加载数据需要好久,有什么好办法可以缩短加载时间吗?

什么样的数据库，做的是什么样的加载数据过程？是查询慢，还是说百万的表，导入到另外一个数据库比较慢啊？

2016-04-12 15:50 回复了该问题

0

投票

SSAS中如果计算成员过多会否影响效率，设计了计算成员是否只有在使用时才会产生计算的效率问题？如果不使用它是否也无碍

这个首先你要确定你使用的是SSAS的三种分区的存储模式：MOLAP,ROLAP,HOLAP里面的哪一种，如果是MOLAP，计算的值都是提前计算好的，定时刷新cu...

2016-04-12 14:42 回复了该问题

1

投票

当σ未知时，总体均值的区间估计可以用；那反推n的时候，怎么还是用z α/2，而不是t呢

简单回答下，这个代码编辑器没有办法写公式，所以凑合看。首先，你的第一个内容，总体均值的区间估计主要分三种情况： 1.样本非常大的时候，使用Z分布计算区间估计 ...

2016-04-12 11:21 回复了该问题

牟瑞

他关注的

他的粉丝

他的回答
排序:
时间 投票