自己写一个类去继承 TextInputFormat,在 public RecordReader < LongWritable , Text > cr...
2017-02-07 19:32 回复了该问题1.使用sqoop进行定时的数据抽取工作,并存放到hive数据仓库中,使用hive的hql进行数据汇总。这个方案中可以使用hive on tez 或者hive ...
2016-12-29 16:47 回复了该问题本质上就一回事情。都是使用spark sql来访问hive的表和数据。 在访问过程中有两种形式: 1.你需要进行spark代码编程,来实现对hive的访问。 编...
2016-12-22 11:33 回复了该问题nohup hive -f a.sql & nohup hive -f b.sql & nohup hive -f c.sql
2016-12-21 12:53 回复了该问题1.对网页源代码进行抽样查看,确认作者,时间,评论内容,点击数对应的位置,并编写好对应的正则表达式 2.编写程序对hbase的数据进行遍历 这个过程可以使用sc...
2016-12-16 13:30 回复了该问题presto是可以行的一个工具 hive是可以提供jdbc的访问方式,目前的hue、impala都是支持面向hive写HQL的
2016-12-12 13:04 回复了该问题logstash更多地是面向运维日志方面的分析和查看。自身提高了收集和查询等功能 flume是面向日志分析方面的ETL工具,与kafka、storm结合可以...
2016-12-12 13:01 回复了该问题hive的数据本质上还是存储在HDFS中,HDFS的原则是一次写入,多次读取。 你想在生产环境中进行更新和删除操作,那相当于把hive当做数据库来中,一个场景非...
2016-11-17 13:30 回复了该问题