天善智能-商业智能和大数据在线社区，用心创造价值

0

投票

spark sql查询千万级别的数据1-2秒算不算很慢？

一般大数据的服务器采用的都是服务器都是物理实体机。而且一般配置都比较高。所以，你在这种测试的环境下，跑出这个结果，已经算是比较理想了。一般性能要求不是很高的...

2016-06-03 15:14 回复了该问题

1

投票

请问基于python的windows环境下，用什么分词工具对汉语进行分词啊

python环境目前做的比较好的分词第三包是结巴分词源码下载的地址：[url]https://github.com/fxsjy/jieba[/url] 全自动...

2016-06-02 11:27 回复了该问题

1

投票

Fitnesse python怎么获取返回值？

Fitnesse没有真心没有用过。。仅就问题解答，希望能帮助你。获取返回值应该是直接用返回变量就可以了吧？ result1,result2 = method(...

2016-06-01 09:38 回复了该问题

1

投票

python csv文件读写问题

推进一个第三方包：pandas 官方地址：[url]http://pandas.pydata.org/[/url] 看下官方文档：[url]http://pan...

2016-05-31 15:19 回复了该问题

0

投票

hive连接不上hbase

这个问题搞定了么？如果没有的话，把相关的软件的版本留一下，我帮你看看。

2016-05-30 11:04 回复了该问题

0

投票

sqoop从Oracle导表到hive报错

确认下，Oracle的地址，用户名，密码是否正确，表名是否正确，是否有相应的权限读取到表的结构。一般就是这三个原因。如果还不行，降低一下sqoop的版本再试...

2016-05-30 10:57 回复了该问题

0

投票

请教各位老师:PYTHON可以多线程并发读取MYSQL同一个表吗

这个是可以的啊。只要你别使用锁表的方式去读就可以。常用的多线程有thread,subprocess等等，都有现成的第三方包。

2016-05-30 10:55 回复了该问题

1

投票

一张维表可以关联多张维表吗

原则上是可以的。这就会变成星型结构。但是不推荐关联太多的维表，因为后续维护什么的还是比较麻烦的。

2016-05-27 14:48 回复了该问题

0

投票

Hive on Spark集成HBase

在spark-env.sh 中加 export SPARK_CLASSPATH=$SPARK_CLASSPATH:${SPARK_HOME}/lib/hive-...

2016-05-26 09:40 回复了该问题

0

投票

各位社区大神，用支持向量机做分类一般的需要多少数据量

支持向量机做分类的数据量跟你的分类目标和对象有关。做分类本身不是数据量这一个指标所衡量的。一般来说，分类的数据量肯定要大于30，统计意义上大于30，代表的是统...

2016-05-26 08:24 回复了该问题

0

投票

我想问下，这个里面的库包怎么更新呢我用的是pycharm 谢谢

1.一种是直接使用pip更新。 2.另外一种就是你双击这一行，弹出一个Package的对话框，点击Install Package就可以了。

2016-05-26 07:49 回复了该问题

0

投票

请问下这种格式的日期怎么转化为yyyy-mm这种？

首先你要确定下你这个date列的类型是什么，是str还是datetime，然后把每一行的值转换一下赋值回去就可以了。参考下面的代码[code]timeStr ...

2016-05-26 07:47 回复了该问题

0

投票

请问django查询数据库后的queryset类型怎么转换为字典类型

queryset本身实际上就是一个list,其中的每一个item对应的就是你查询的record,而record本身就是一个字典类型的。没有必要再转换了啊。

2016-05-25 14:42 回复了该问题

0

投票

请教一下，开发python 用什么ide比较好

[url]https://ask.hellobi.com/question/19271[/url] 看下这个回复吧。

2016-05-23 10:04 回复了该问题

0

投票

kettle如何支持多人开发。

多人开发与Kettle无关。多人开发是团队管理和项目管理的问题，Kettle只是一个工具。把开发任务细分，每个人开发不同的ETL脚本就可以了。

2016-05-23 08:56 回复了该问题

牟瑞

他关注的

他的粉丝

他的回答
排序:
时间 投票