看一下官方文档:[url]https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration[/...
2015-11-30 15:56 回复了该问题一般程度上所说的大数据是TB/PB以上,但是你的这种应用场景,你的这种应用场景在传统的数据库或者数据存储上也是可以处理的,但是随时数据的不断收集、增长,需要关注...
2015-11-30 15:47 回复了该问题当然不行啊。图像识别一个很大的问题,是去噪!机器学习只是解决了概率的问题,样本的去噪效果不好,概率就很低的。所以,先对识别码进行各种去噪,然后才能机器学习。
2015-11-30 09:58 回复了该问题/project/log_analysis/pdi/pan.sh -file=/project/log_analysis/kettle_files/201506...
2015-11-27 13:34 回复了该问题如果一定要用kettle解决的话,写个shell,自动解析excel,然后创建目标表。或者重写kettle的控件。
2015-11-26 07:57 回复了该问题这是问定价原则?还是后台存储?如果是定价原则,那肯定是多方面的。 如果是后台存储,存储这类数据nosql的列示数据库可能效果会比较好。mongodb,hbase...
2015-11-26 07:54 回复了该问题可以采用增量备份的方式,每天或者每周备份一次。 数据量如果非常大,可以考虑应用Hadoop。将数据存储在HDFS上,使用Hive做数据仓库。 hadoop的优点...
2015-11-26 07:50 回复了该问题启动Hive远程服务接口: bin/hive --service hiveserver 然后通过B机器远程调用就可以了。在hive的lib下,有python的扩...
2015-11-26 07:44 回复了该问题用的是什么消息队列服务器?这个要看部署策略,并发读取也会有先后,一个spout拿到10个消息,另外一个spout拿另外10个消息。一般情况是拿到一个消息,扔到b...
2015-11-25 09:05 回复了该问题上传点日志什么的,不然没有办法定位问题
2015-11-25 08:58 回复了该问题一般涉及到的windows的没有必要采用分布式计算啊。核心计算软件为windows开发的也没有关系的,可以采用C/S的方式。 windows只有在Windows...
2015-11-25 08:56 回复了该问题