请关注下期(2015-12-04期)的Friday BI Fly,会有关于日志分析的微信直播日志的简单分析 1、注意那些被频繁访问的资源 2、注意那些你网站上不...
2015-11-25 08:48 回复了该问题kettle的参数定义:[url]http://www.flybi.net/blog/marey_marey111/2062[/url] 如果还不懂,给我留言
2015-11-23 18:52 回复了该问题上点日志,没有日志,啥问题都说明不了。
2015-11-23 10:27 回复了该问题实现功能为主,如果计算量比较大,可以在服务器压力比较小的时候计算。当然,最好是业务数据库与分析数据库分离,分析数据库跑分析。
2015-11-23 08:29 回复了该问题没有用过这么高级的技术。但是我想说,当前的网络环境不是制约hadoop数据传输的关键点,关键点还是在于磁盘I/O,现在的数据中心内网都是万兆网卡,对于传输一般的...
2015-11-23 08:17 回复了该问题个人不建议,原因如下: 1.hadoop最大的应用场景是分布式文件存储系统。 2.hadoop对大文件处理处理计算有优势。 3.报表系统讲究的实时,准实时性,页...
2015-11-23 08:13 回复了该问题如果你配置的是分布式,那它就是分布式。你可以通过dfsadmin -report的命令看看你的文件是不是保存成了多份
2015-11-23 08:02 回复了该问题个人建议,纯属参考,别喷我。 与数据行业有关的工作非常多,比如ETL,比如数据建模,数据分析,数据挖掘等等,现在的开发编程很多也与数据,算法有关系。所以,看你具...
2015-11-23 07:59 回复了该问题1.什么样的数据?日志文件?结构化的数据?还是非结构化的数据 2.采集的频率是多大?1个小时?还是实时? 3.在服务器上存储?如何存?存文件?还是结构化的数据库...
2015-11-20 16:05 回复了该问题可以通过hadoop的50070的web页面控制台上查看job的运行情况 [attach]9936[/attach] [attach]9937[/a...
2015-11-20 09:35 回复了该问题hive 0.11之前是不可以的,之后是可以的。 [code]insert overwrite local directory './test-04' row ...
2015-11-20 09:31 回复了该问题查看表结构信息 desc formatted table_name; desc table_name; 查看分区信息 show partitions...
2015-11-20 09:21 回复了该问题这个是wordcount的应用场景么。。我个人感觉,如果有很多xml,你可以解析到数据,然后通过数据库做count是不是效果更好,mssql和mongodb都可...
2015-11-20 09:19 回复了该问题