如果安装的是CDH版本,那么可以直接删除hadoop安装文件目录,及配置的hdfs数据目录和日志文件目录 如果是hive,那要检查下你的hive元数据配置是...
2016-02-23 18:28 回复了该问题你是做数据可视化方面的? 分析软件前端最好要酷炫,使用D3,echarts等 前端软件框架可以是C#,也可以是java 数据访问中间件建议使用Java 底层数据...
2016-02-22 15:18 回复了该问题如果是部署hadoop,那推荐使用CDH版本。 其中的cloudera Manager是自动化管理,可自由部署hadoop节点。 openstack也是有操...
2016-02-22 11:39 回复了该问题推荐使用elasticsearch 或者是 solrcloud 集群来承担用户的实时查询工作。 elasticsearch是首选。 这些都是搜索技术,基于luc...
2016-02-19 09:41 回复了该问题hive表分区支持10000个是没有问题的,再多的话就要看集群性能配置了。 分区只是个目录映射 我们在实际使用时是按照年月日来划分表的分区数据。 分区内的数...
2016-02-19 09:36 回复了该问题当有文件删除或更新时,不是实时记录到fsimage 每个文件的操作运行时都会记录到edits中,成功后才会更新内存中的元数据信息。 fsimage是存储在硬盘的...
2016-02-18 13:39 回复了该问题云计算是一个蛮大的课题。 如果是涉及到私有云、公有云,那建议你学习下docker、openstack.现在docker的社区非常火 这其中都是一些虚拟化技术、通...
2016-02-17 13:46 回复了该问题如果是同一台机器,那硬件资源总体是有限的,IO也是有限的,这样做读写分离的效果不是特别好。 可以这样尝试下: 1.数据更新频率降低。例如可改为每5分钟更新一次数...
2016-02-15 11:04 回复了该问题采用常见的硬件就好了,例如 cpu核数为24左右 磁盘能挂载6个,每个是2T的 内存方面可以使用64或128G
2016-02-15 10:53 回复了该问题数据钻取是按照某个特定层次结构或条件进行数据细分呈现,让用户关注的数据范围从一个比较大的面,逐步下钻并聚焦到一个小的点上。 关联在通常意义上是指两个或以上表的数...
2016-01-29 10:42 回复了该问题是不是缺少hadoop-hdfs.jar这个文件?
2016-01-28 21:13 回复了该问题