Bob

同程旅游大数据+BI 架构师

始于: 2015-09-29

江苏省 苏州市

发私信

250

总声望

142

次被推荐

0

粉丝

他的回答
排序:

0
投票

hadoop怎么卸载集群?临时文件是哪些?我还装了hive,上面有元数据。。。这些能保留吗?

如果安装的是CDH版本,那么可以直接删除hadoop安装文件目录,及配置的hdfs数据目录和日志文件目录   如果是hive,那要检查下你的hive元数据配置是...

2016-02-23 18:28 回复了该问题
0
投票

目前主流的大数据分析软件的采用的是什么技术啊,应用部分使用的开发语言,底层数据部分采用的是非结构化什么类型的库,这些库之间的兼容性如何

你是做数据可视化方面的? 分析软件前端最好要酷炫,使用D3,echarts等 前端软件框架可以是C#,也可以是java 数据访问中间件建议使用Java 底层数据...

2016-02-22 15:18 回复了该问题
0
投票

在多台服务器上部署hadoop或者openstack,我只能一个一个节点来安装吗,有没有简单的方法?

如果是部署hadoop,那推荐使用CDH版本。 其中的cloudera Manager是自动化管理,可自由部署hadoop节点。   openstack也是有操...

2016-02-22 11:39 回复了该问题
0
投票

在做全文检索时,在数据量很大情况下❨每天8亿多❩,查询结果返回慢,有什么办法能尽实现数据推送效果?

推荐使用elasticsearch 或者是 solrcloud 集群来承担用户的实时查询工作。 elasticsearch是首选。 这些都是搜索技术,基于luc...

2016-02-19 09:41 回复了该问题
0
投票

Hive 外部表分区表,分区的数量有没有限制,分区内数据的数量级在什么范围才是合理的

hive表分区支持10000个是没有问题的,再多的话就要看集群性能配置了。 分区只是个目录映射   我们在实际使用时是按照年月日来划分表的分区数据。 分区内的数...

2016-02-19 09:36 回复了该问题
0
投票

hadoop 2.x中文件操作的些许疑问,有关 fsimage和edits?

当有文件删除或更新时,不是实时记录到fsimage 每个文件的操作运行时都会记录到edits中,成功后才会更新内存中的元数据信息。 fsimage是存储在硬盘的...

2016-02-18 13:39 回复了该问题
0
投票

零基础 想学习云计算应该从哪方面入手

云计算是一个蛮大的课题。 如果是涉及到私有云、公有云,那建议你学习下docker、openstack.现在docker的社区非常火 这其中都是一些虚拟化技术、通...

2016-02-17 13:46 回复了该问题
0
投票

调用spark1.3.0的word2vec算法,一直报错

-XX:MaxDirectMemorySize 加大,该参数默认是 64M

2016-02-15 11:07 回复了该问题
1
投票

请教个解决方案:一台服务器,怎么实现数据库的读写分离呢?

如果是同一台机器,那硬件资源总体是有限的,IO也是有限的,这样做读写分离的效果不是特别好。 可以这样尝试下: 1.数据更新频率降低。例如可改为每5分钟更新一次数...

2016-02-15 11:04 回复了该问题
1
投票

数据仓库中的排名数据怎样导入到关系表中

使用SQL编程来实现。 例如事先用rownumber()函数来完成维度的统计排名,再同步存放到关系表中

2016-02-15 10:56 回复了该问题
1
投票

问题求救:搭建Hadoop集群如何采购机器?感谢啦

采用常见的硬件就好了,例如 cpu核数为24左右 磁盘能挂载6个,每个是2T的 内存方面可以使用64或128G

2016-02-15 10:53 回复了该问题
0
投票

使用sqoop从sqlserver导出数据的时候无法替换其中的特殊字符

建议在sql中进行替换

2016-02-14 17:19 回复了该问题
0
投票

Yarn如何设置多任务并发执行

配置yarn的队列。

2016-02-14 17:18 回复了该问题
0
投票

数据钻取和关联的区别是什么?

数据钻取是按照某个特定层次结构或条件进行数据细分呈现,让用户关注的数据范围从一个比较大的面,逐步下钻并聚焦到一个小的点上。 关联在通常意义上是指两个或以上表的数...

2016-01-29 10:42 回复了该问题

改版

反馈