NoClassDefFoundError: kafka/serializer/StringDecoder的原因是缺少以下jar包: spark-streamin...
2017-04-26 13:34 回复了该问题你是做程序开发,还是想做算法模型? hadoop本身是可以用各种语言编写程序进行批处理运行,所以只需要编程基础,例如python java 如果是想用rha...
2017-04-07 15:40 回复了该问题一般建议使用cloudera公司的产品,目前是5.* 这些是企业版本,修复了很多bug,所以使用起来更加方便 下载地址:[url]http://archiv...
2017-03-30 14:00 回复了该问题1.能不能达到领导的目标和期望 2.从技术、人力等方面的投入产出是否符合现状 3.整套体系运行起来后的维护人力、时间方面是否是可承受范围 4.对现有的运营效率是...
2017-03-30 13:55 回复了该问题1.在数据源方面则尽量去实时收集。可以让他们主动向你的消息队列中写入数据,也可以部署flume去主动收集他们的日志数据。 2.数据进入到消息队列以后,用flum...
2017-03-28 15:53 回复了该问题hive -e 'SELECT * from test_table'
2017-03-14 13:32 回复了该问题增加wal的缓存大小 增大hbase-site.xml中写入的内存占比
2017-03-14 13:31 回复了该问题检查${HIVE_HOME}/conf/hive-site.xml中的以下四个属性对应的值: <name>javax.jdo.option.Conn...
2017-03-14 13:29 回复了该问题多学习,cloudera公司的官网上就有包含所有大数据技术的虚拟机,供学习使用。 多逛大数据的问答社区 主动参与到其他的项目,哪怕是打杂都是可以的。学习这些项目...
2017-03-14 13:24 回复了该问题数据仓库建议选择使用hive,用hql语句也能完成update delete的操作。 如果仓库是在hive上,那原来的ETL操作 都改为使用hql脚本吧。这个查...
2017-03-14 13:22 回复了该问题源代码安装方式是需要你主动编译项目,大部分都是maven 进行编译,在这个过程中需要下载很多相关的jar包,很耗费时间。而且在编译过程中还需要check本机的系...
2017-03-14 13:20 回复了该问题只是不是特别复杂的逻辑,那用视图和存储过程是基本一致的。如果复杂度高,那么用视图进行查询会稍微慢些 在你的这个场景中,建议你用视图来处理吧。
2017-03-14 13:15 回复了该问题