R语言,适合有统计学背景的小伙伴; Python,适合有计算机北京的小伙伴; 此外,还有浩彬老师推荐的SPSS Modeler,还有Weka等。 现在的数据...
2016-06-15 08:38 回复了该问题个人觉得像制造类偏传统行业的企业。 首先需要关注大数据,而是先开始养数据,规划公司的数据中心,数据一般会来自于企业的信息中心或信息化部门; 其二是可以考虑在...
2016-06-15 08:33 回复了该问题题主所所的表是指Hive的表吗?如果是Hive表: 首先,这个txt文件必须具有与Hive表一致的格式结构,例如,字段分隔符、字段值(如果字段值与表中对应字段的...
2016-06-14 19:57 回复了该问题集群节点由几个就部署几个,并且要是2n+1个节点。 这是因为Zookeeper的选举机制,投票选举结果需要过半数才可通过,如果是2n个节点,则无法过半。
2016-06-14 19:53 回复了该问题医疗大数据所使用的数据主要来自于电子病历,因此目前很多医院的信息化也会逐步往电子病历靠拢。 很多还没有采用电子病历系统的医院逐步的上这些系统。而大医院,例如包括...
2016-06-14 08:24 回复了该问题不知题主说的raw是不是HDFS中的原始数据,HDFS如果是文本的话,在HDFS查看到的就是文本,HBase存储机制为二进制,在HBase scan查询到的都是...
2016-06-13 10:56 回复了该问题有使用Ganglia+Nagios的组合,这俩都是做监控的,Ganglia对服务器性能做监控,Nagios可以加上对Hadoop、HBase等的具体服务进程(如...
2016-06-06 10:35 回复了该问题这样反转就行了:yourRdd.map(x => (x._2,x._1)) 如果后面需要在反转回去,也是一样的道理。
2016-06-06 10:30 回复了该问题可以不装Hadoop,但是必须要有Hadoop的相关包(例如执行hdfs dfs所用),否则如何使用hdfs dfs -ls等命令呢? 所以建议拷贝一份Hado...
2016-06-06 10:27 回复了该问题1,用大数据做网站日志分析(主要是流量); 2,订单分析; 3,客户分类(流失客户、潜在客户挖掘); 4,财务方面的费用分析 ……
2016-06-02 20:02 回复了该问题我一般是根据那个类型在Oracle中的含义或者大小来定的。 大多数情况下,有小数点的会按照number的精度映射成float或double,无小数点的情况下...
2016-06-02 09:39 回复了该问题确定该RunJar进程就是在往HBase里写数据的进程吗?MR作业号可以在配置的8088端口页面看到的。
2016-06-02 09:32 回复了该问题如果很少写,那就得写,找机会写。 例如,我的工作中如果以写Hive QL为主,那么我可以写MR来实现这些Hive QL的功能 就是这样去找机会练。。。
2016-06-02 09:30 回复了该问题我把你的问题理解成是能进行数据监控、并且以报表形式展现的工具。 你可以看一下[b]Ambari[/b],能对大数据平台的多个组件服务(注意,不是大数据平台的...
2016-06-02 09:28 回复了该问题用户层面的设定?代码中可以设定的吧 让不同的用户在代码里设定这些参数,但是不知道你是在Spark shell还是在Application中
2016-05-31 11:00 回复了该问题