牟瑞

大数据 Hadoop 讲师 Hadoop入门课程地址:http://www.hellobi.com/course/39 有架构师,技术总监,CTO的职位请联系我!

始于: 2013-06-09

发私信

1967

总声望

308

次被推荐

16

粉丝

他的回答
排序:

0
投票

我做了一个电信套餐推荐模型,应该用什么指标或者什么检验方法来评估我的模型啊

不知道你是否有权限推广你这个模型,如果有权限,最简单的检验方式就是A/B Test,将目标用户分为两组,测试组合对照组,然后去评估你的模型。如果没有,那可能就采...

2016-04-06 17:59 回复了该问题
1
投票

请问kettle的MaxPermSize内存参数最大支持多少呢?有限制么 kettle是64位的么 java虚拟机的内存最大值是否有限制呢

这个取决于你的JDK的版本和操作系统,如果都是64位的,那内存是没有限制的。。服务器有多大的内容,默认都能吃下多大的内存,当然为了避免资源过度紧张,一般最大设置...

2016-04-06 17:48 回复了该问题
1
投票

kettle 操作mysql 数据库数据导入,怎样禁用外键

可以变通的方式实现! 在输出的时候输出到一个临时表中。然后调用SQL组件,然后执行 SET foreign_key_checks = 0 从临时表导入数据 SE...

2016-04-06 17:46 回复了该问题
0
投票

mysql大数据批量更新,字段concat追加字符串,越来越慢怎么解决?

可以把临时表变成固定的表A,每次直接Load数据到这个表A中,以后使用的过程中,直接主表与A表做关联查询,两边都是主键,查询也不慢。

2016-04-06 17:43 回复了该问题
0
投票

Python socket 编程同时使用了tkinter编写。连接失败的原因有那些?

看具体的报错信息啊。尤其是查看socket的端口是否相通,在客户端telnet或者nc一下

2016-04-06 17:38 回复了该问题
0
投票

打扰一下大家 rmarkdown 输出pdf 报错,, 大家有什么么解决办法没

转成其他文件格式,比如Html文件。然后再输出PDF文件。

2016-04-06 17:35 回复了该问题
1
投票

pv,uv数据存在hdfs上,但是平均数,中位数,标准差,这些数值目前我们是跑python脚本去跑计算这3个数,你们有什么好方法么?

看你的数据要求精度,如果要求的不是很高,这种方式也是可以的。 如果要求的很好,实时处理什么的,可以采用阶段累加的方式计算相应的指标。一般也都是需要写脚本就计算。...

2016-04-06 17:34 回复了该问题
0
投票

检验样本是否符合正态分布 蒙特卡洛方法大概是怎么一回事

蒙特卡洛方法没有怎么研究过。。但是检验样本是否符合正态分布的方式有很多种: Q-Q图,P-P图,峰态系数/偏态系数等等。为何一定要使用蒙特卡洛?

2016-04-06 17:22 回复了该问题
0
投票

在admin tools中同步应用程序角色,日志报以下错误

admin tools是什么东西啊。从日志上来看是没有权限的意思!看看是不是没有权限~

2016-04-06 17:16 回复了该问题
0
投票

求助各位大神, spss聚类分析里面可以放分类变量吗=_=

不太明白要干嘛。 分类变量如果是自变量的话,是可以转换成哑(数值)变量参与聚类分析的。 类似于:男,女-〉0,1,类似于这种的啊。

2016-04-06 17:14 回复了该问题
0
投票

抽取的时候有很多数据源,有很多编码规则,比如一种药品 在不同的医院有不同的编码,我们要把不同医院的编码转化为同一种标准编码。 有没有什么能快速转码的方法或者产品 求推荐

这个太具体的到业务了。可以自定义一套转码规范。比如,根据药品的名称,厂家,类型,批号等等,来定义一套标准编码规范。然后根据规范开发代码就行了。  

2016-02-16 10:50 回复了该问题
1
投票

kettle 如何双表同步更新 保存版本

用的什么数据库?跟Kettle没有多大关系。 如果是sqlserver,可以参考触发器或者CDC 如果是mysql可以考虑监听bin.log或者采用双主数据库写...

2016-02-16 10:47 回复了该问题
0
投票

【大数据架构师】学习路线及需要掌握那些语言和掌握的程度?

兴趣是最好的老师,如果你对网页设计感兴趣。为何要转去做大数据架构?而且还是0基础。 个人建议:遵循你的兴趣,继续深入学习网页设计,学点PHP,学点HTTP协议,...

2016-02-14 14:53 回复了该问题
0
投票

hadoop安装以后,jobtacker和tasktracker都没有运行

你用哪个命令启动的?是start-all.sh?还是start-dfs.sh?

2016-02-14 14:50 回复了该问题
1
投票

怎样做到从mysql 到 Hbase 或Hive的数据实时同步

mysql多大的数据量?没有搞个MySQL的集群? 真要实时性可以考虑监听mysql的bin LOG

2016-01-30 20:52 回复了该问题

改版

反馈