Bob

同程旅游大数据+BI 架构师

始于: 2015-09-29

江苏省 苏州市

发私信

250

总声望

142

次被推荐

0

粉丝

他的回答
排序:

0
投票

构建大数据分析平台一般需要哪些要素,对软硬件要求有哪些?

普通的Linux机器都是可以的,关键是磁盘空间要大,网卡最好是万兆  

2016-04-07 19:17 回复了该问题
0
投票

Hadoop2.6,如果hdfs-site.xml中不设置副本存放策略,那么默认的副本存放策略是什么?

副本存放策略都在org.apache.hadoop.hdfs.server.datanode.fsdataset包下。   如果不设置dfs.datanode....

2016-04-07 19:16 回复了该问题
0
投票

sqlserver2008R2上亿大表查询优化问题

如果想创建分区的话,建议是先创建一个按年分区、创建好主键及索引的空表,然后将老表的数据导入到新表中,最后使用sp_rename交换下名称 分区不会影响cube ...

2016-04-07 18:48 回复了该问题
0
投票

在hadoop的mapreduce里面,假设我只有一个输入文件,我能根据这个输入文件的行数来分配map的数目吗?

可以重写一份inputformat的类 并且在job的参数设置方面强制指定map个数,应该是可行的

2016-03-29 21:56 回复了该问题
1
投票

个性化推荐技术实施方案?求分享

用hadoop集成R来做效率一般,我这没有这样的使用 1.如果基于协同过滤的话,那么建议你使用Mahout。其中有LoglikelihoodSimilarity...

2016-03-29 21:52 回复了该问题
2
投票

我想做一个基于hadoop的日志分析系统,我该怎么学呢?有人告诉我先从逻辑分析开始

1.明确要分析的数据结构 2.明确日志分析的目的   以上内容如果都能清晰,那么你可开始进入系统的规划阶段 1.选用竞品。市面上有很多的日志分析系统供你参考 2...

2016-03-29 15:00 回复了该问题
1
投票

请教下 大家做竞争对手监控分析一般采用什么方法啊?

1.实时抓取数据系统利用java或Python建立爬虫系统 现在很多的电商在价格等敏感数据方面都是用图片来保护。所以这个方面有点技术含量 2.针对抓取的数据做清...

2016-03-29 14:56 回复了该问题
2
投票

大数据技术中的Hadoop和Spark计算是否适合实现OLTP系统的业务数据分析?

如果是查询类的,则完全可以用spark、impala、kylin等大数据技术。 你提到的多次关联、筛选等问题都是可以通过对原来的表进行改造,变为bigtable...

2016-03-29 13:32 回复了该问题
1
投票

请问大神,hadoop里面关掉50070端口,对hadoop运行和应用开发有什么影响吗?

50070是hadoop集群的http信息端口。 关闭此端口,不会影响你通过api调用hadoop做应用 里面最核心的端口是8020/50010等。如果这些端口...

2016-03-29 13:28 回复了该问题
1
投票

请问一下,这里的Dhadoop.version=2.0.0 代表的是什么

cdh版本的hadoop都是在Apache的hadoop开源基础上进行修改和补丁升级的。 这里的2.0.0是指在hadoop2.0基础上

2016-03-29 13:25 回复了该问题
1
投票

mapreduce的输入输出到底是什么样的。?

推荐你看下官方的 word count示例代码: [url]http://www.cloudera.com/documentation/other/tutori...

2016-03-18 13:17 回复了该问题
1
投票

如何查看一个文件在namenode节点中元数据所占的大小?

数据文件上传到hdfs以后,都是直接存储在磁盘中。 namenode的元数据信息也是记录到磁盘中,在dfs.namenode.name.dir 中

2016-03-18 13:14 回复了该问题
0
投票

hue 3.9 hive查询界面日志无法自动刷新,一直报database is locked?

这应该是hue默认的SQLite数据库出现错误,你可以使用mysql postgresql等来替换。   参考:http://www.cloudera.com/...

2016-03-18 13:11 回复了该问题
1
投票

想请教一下大神们,如果一个监管系统,客户的数据一部分来源于业务系统一部分来源于互联网,我要用hadoop,各部门数据怎么存储合适呢

如果你只是使用hadoop,那么在hdfs上对不同的数据做目录,然后使用hive映射到对应的hdfs目录。   hive可支持你使用sql来完成对数据的统计和分...

2016-03-18 13:06 回复了该问题

改版

反馈