Bob

同程旅游大数据+BI 架构师

始于: 2015-09-29

江苏省 苏州市

发私信

250

总声望

142

次被推荐

0

粉丝

他的回答
排序:

0
投票

hive把Unix的urldecode解码出来用哪个函数?

这个函数在hive中没有自带的,你可以自己去写一个hive的 UDF函数

2016-09-20 08:37 回复了该问题
0
投票

请问一下kafka出现这个问题怎么解决啊,看了stackoverflow上面同样的问题,但是上面回答涉及到docker,我没有了解过。所以请问一下群里的大神这个改怎么解决

这个是kafka的消息发送出现超时错误,和docker没有关系。 你应该检查下 kafka是否能正确连接到zookeeper,并检查下zookeeper相应的端...

2016-09-20 08:36 回复了该问题
0
投票

oralce 资料 通过kettle 迁移到 impala中的问题

impala的数据类型可参看hive支持的数据类型: http://www.cloudera.com/content/www/zh-CN/documentati...

2016-09-20 08:33 回复了该问题
0
投票

对于.NET工程师是否转入BI

可以发挥自己的优势,在系统架构方面进行锻炼,尤其是后台系统框架,这是你的优势所在,要尽可能再提升开发效率,例如做到自动生成包含筛选条件、图表、数据明细表格的统计...

2016-09-20 08:30 回复了该问题
0
投票

求教下各位:现在通过impala关联hbase,发现select 字段 from 表 是可以的,但是求sum count等操作的 时候失败。为什么?

这个是由于impala查询hbase一般都是行scan导致,通常不建议进行sum、avg等impala常用的操作。 请参考官方文档说明: http://www....

2016-08-03 13:13 回复了该问题
0
投票

hive无法查询及删除这个表,请问有啥解决方法吗

你的这个表名称是hive的关键字,所以才会有此问题。   你可以试试 drop table `order`

2016-08-03 13:07 回复了该问题
1
投票

问一下大家,我要从MYSQL中实时同步数据到hadoop,可以用flume吗

可以使用flume读取mysql的binlog。 这个方面有很多的文档

2016-08-01 11:13 回复了该问题
1
投票

谁知道将spark计算结果存到mysql中的实现

示例代码:var sc= new SparkContext(); var sql = new org.apache.spark.sql.SQLContext(s...

2016-08-01 11:12 回复了该问题
0
投票

hive查询语句中包含汉字报错

这应该是你的数据编码问题导致的。你可以使用utf-8重新编码数据文件后再试试

2016-07-13 17:48 回复了该问题
0
投票

hadoop2.7.1版本 自行编译了eclipse插件 放到eclipse之后 报了下边这个错 各位大神帮看看

缺少jar包导致的。 hdfs.DFSConfigKeys 应该是hadoop-hdfs.jar里面的

2016-07-13 12:43 回复了该问题
0
投票

请教,Hadoop如何生成.lzo_deflate压缩格式的文件

TextOutputFormat.setOutputCompressorClass(job, LzoCodec.class);  

2016-07-08 12:44 回复了该问题
0
投票

java通过kettle的API调用transformation(转换)报错

你的那个错误缺少  guava jar 包。 guava是Google的类库,有很多重要的java类 给你一个下载链接: http://www.java2s.c...

2016-07-08 12:42 回复了该问题
0
投票

cubes 维度数据量过大,造成查询数据过慢,有什么方案解决吗?

遵循现有的多维cube,可做如下优化: 1.升级为固态磁盘 2.提升服务器内存 3.提升服务器网卡   如果以上内容还是无法解决,那么你只能选择更新你的架构了。...

2016-07-07 17:26 回复了该问题
1
投票

为什么hadoop的shuffle阶段需要对数据进行排序?

shuffle和sort是MapReduce的核心过程。 在执行并发读取操作后,一定要根据唯一的key进行排序,将结果传递给reduce。这个过程会有两次排序。...

2016-07-07 17:20 回复了该问题
0
投票

hdfs的一个文件一般存多大比较合适?目前block是128MB

为了提升mapreduce的计算性能,我们的hdfs文件大小在200 - 500m之间 当然,集群的网卡吞吐量也要提升上来,最好选择万兆

2016-07-07 17:17 回复了该问题

改版

反馈