天善智能-商业智能和大数据在线社区，用心创造价值

0

投票

构建大数据分析平台一般需要哪些要素，对软硬件要求有哪些？

普通的Linux机器都是可以的，关键是磁盘空间要大，网卡最好是万兆

2016-04-07 19:17 回复了该问题

0

投票

Hadoop2.6，如果hdfs-site.xml中不设置副本存放策略，那么默认的副本存放策略是什么？

副本存放策略都在org.apache.hadoop.hdfs.server.datanode.fsdataset包下。如果不设置dfs.datanode....

2016-04-07 19:16 回复了该问题

0

投票

sqlserver2008R2上亿大表查询优化问题

如果想创建分区的话，建议是先创建一个按年分区、创建好主键及索引的空表，然后将老表的数据导入到新表中，最后使用sp_rename交换下名称分区不会影响cube ...

2016-04-07 18:48 回复了该问题

0

投票

在hadoop的mapreduce里面，假设我只有一个输入文件，我能根据这个输入文件的行数来分配map的数目吗？

可以重写一份inputformat的类并且在job的参数设置方面强制指定map个数，应该是可行的

2016-03-29 21:56 回复了该问题

1

投票

请教一个问题：这是微软网站下载sql server2000的链接，http://download.microsoft.com/download/sqlsvr2000/trial/2000/nt45/cn/sqleval.exe 而且安装时不用输入注册码，为什么微软网站提供下载让大家直接使用？

这个是不提供技术支持的产品了

2016-03-29 21:54 回复了该问题

1

投票

个性化推荐技术实施方案？求分享

用hadoop集成R来做效率一般，我这没有这样的使用 1.如果基于协同过滤的话，那么建议你使用Mahout。其中有LoglikelihoodSimilarity...

2016-03-29 21:52 回复了该问题

2

投票

我想做一个基于hadoop的日志分析系统，我该怎么学呢？有人告诉我先从逻辑分析开始

1.明确要分析的数据结构 2.明确日志分析的目的以上内容如果都能清晰，那么你可开始进入系统的规划阶段 1.选用竞品。市面上有很多的日志分析系统供你参考 2...

2016-03-29 15:00 回复了该问题

1

投票

请教下大家做竞争对手监控分析一般采用什么方法啊？

1.实时抓取数据系统利用java或Python建立爬虫系统现在很多的电商在价格等敏感数据方面都是用图片来保护。所以这个方面有点技术含量 2.针对抓取的数据做清...

2016-03-29 14:56 回复了该问题

2

投票

大数据技术中的Hadoop和Spark计算是否适合实现OLTP系统的业务数据分析?

如果是查询类的，则完全可以用spark、impala、kylin等大数据技术。你提到的多次关联、筛选等问题都是可以通过对原来的表进行改造，变为bigtable...

2016-03-29 13:32 回复了该问题

1

投票

请问大神，hadoop里面关掉50070端口，对hadoop运行和应用开发有什么影响吗？

50070是hadoop集群的http信息端口。关闭此端口，不会影响你通过api调用hadoop做应用里面最核心的端口是8020/50010等。如果这些端口...

2016-03-29 13:28 回复了该问题

1

投票

请问一下，这里的Dhadoop.version=2.0.0 代表的是什么

cdh版本的hadoop都是在Apache的hadoop开源基础上进行修改和补丁升级的。这里的2.0.0是指在hadoop2.0基础上

2016-03-29 13:25 回复了该问题

1

投票

mapreduce的输入输出到底是什么样的。？

推荐你看下官方的 word count示例代码: [url]http://www.cloudera.com/documentation/other/tutori...

2016-03-18 13:17 回复了该问题

1

投票

如何查看一个文件在namenode节点中元数据所占的大小？

数据文件上传到hdfs以后，都是直接存储在磁盘中。 namenode的元数据信息也是记录到磁盘中，在dfs.namenode.name.dir 中

2016-03-18 13:14 回复了该问题

0

投票

hue 3.9 hive查询界面日志无法自动刷新，一直报database is locked？

这应该是hue默认的SQLite数据库出现错误，你可以使用mysql postgresql等来替换。参考：http://www.cloudera.com/...

2016-03-18 13:11 回复了该问题

1

投票

想请教一下大神们，如果一个监管系统，客户的数据一部分来源于业务系统一部分来源于互联网，我要用hadoop，各部门数据怎么存储合适呢

如果你只是使用hadoop，那么在hdfs上对不同的数据做目录，然后使用hive映射到对应的hdfs目录。 hive可支持你使用sql来完成对数据的统计和分...

2016-03-18 13:06 回复了该问题

Bob

他关注的

他的粉丝

他的回答
排序:
时间 投票