副本存放策略都在org.apache.hadoop.hdfs.server.datanode.fsdataset包下。 如果不设置dfs.datanode....
2016-04-07 19:16 回复了该问题如果想创建分区的话,建议是先创建一个按年分区、创建好主键及索引的空表,然后将老表的数据导入到新表中,最后使用sp_rename交换下名称 分区不会影响cube ...
2016-04-07 18:48 回复了该问题可以重写一份inputformat的类 并且在job的参数设置方面强制指定map个数,应该是可行的
2016-03-29 21:56 回复了该问题这个是不提供技术支持的产品了
2016-03-29 21:54 回复了该问题用hadoop集成R来做效率一般,我这没有这样的使用 1.如果基于协同过滤的话,那么建议你使用Mahout。其中有LoglikelihoodSimilarity...
2016-03-29 21:52 回复了该问题1.明确要分析的数据结构 2.明确日志分析的目的 以上内容如果都能清晰,那么你可开始进入系统的规划阶段 1.选用竞品。市面上有很多的日志分析系统供你参考 2...
2016-03-29 15:00 回复了该问题1.实时抓取数据系统利用java或Python建立爬虫系统 现在很多的电商在价格等敏感数据方面都是用图片来保护。所以这个方面有点技术含量 2.针对抓取的数据做清...
2016-03-29 14:56 回复了该问题如果是查询类的,则完全可以用spark、impala、kylin等大数据技术。 你提到的多次关联、筛选等问题都是可以通过对原来的表进行改造,变为bigtable...
2016-03-29 13:32 回复了该问题50070是hadoop集群的http信息端口。 关闭此端口,不会影响你通过api调用hadoop做应用 里面最核心的端口是8020/50010等。如果这些端口...
2016-03-29 13:28 回复了该问题cdh版本的hadoop都是在Apache的hadoop开源基础上进行修改和补丁升级的。 这里的2.0.0是指在hadoop2.0基础上
2016-03-29 13:25 回复了该问题推荐你看下官方的 word count示例代码: [url]http://www.cloudera.com/documentation/other/tutori...
2016-03-18 13:17 回复了该问题数据文件上传到hdfs以后,都是直接存储在磁盘中。 namenode的元数据信息也是记录到磁盘中,在dfs.namenode.name.dir 中
2016-03-18 13:14 回复了该问题这应该是hue默认的SQLite数据库出现错误,你可以使用mysql postgresql等来替换。 参考:http://www.cloudera.com/...
2016-03-18 13:11 回复了该问题如果你只是使用hadoop,那么在hdfs上对不同的数据做目录,然后使用hive映射到对应的hdfs目录。 hive可支持你使用sql来完成对数据的统计和分...
2016-03-18 13:06 回复了该问题