天善智能-商业智能和大数据在线社区，用心创造价值

0

投票

hive把Unix的urldecode解码出来用哪个函数？

这个函数在hive中没有自带的，你可以自己去写一个hive的 UDF函数

2016-09-20 08:37 回复了该问题

0

投票

请问一下kafka出现这个问题怎么解决啊，看了stackoverflow上面同样的问题，但是上面回答涉及到docker，我没有了解过。所以请问一下群里的大神这个改怎么解决

这个是kafka的消息发送出现超时错误，和docker没有关系。你应该检查下 kafka是否能正确连接到zookeeper,并检查下zookeeper相应的端...

2016-09-20 08:36 回复了该问题

0

投票

oralce 资料通过kettle 迁移到 impala中的问题

impala的数据类型可参看hive支持的数据类型: http://www.cloudera.com/content/www/zh-CN/documentati...

2016-09-20 08:33 回复了该问题

0

投票

对于.NET工程师是否转入BI

可以发挥自己的优势，在系统架构方面进行锻炼，尤其是后台系统框架，这是你的优势所在，要尽可能再提升开发效率，例如做到自动生成包含筛选条件、图表、数据明细表格的统计...

2016-09-20 08:30 回复了该问题

0

投票

求教下各位：现在通过impala关联hbase，发现select 字段 from 表是可以的，但是求sum count等操作的时候失败。为什么？

这个是由于impala查询hbase一般都是行scan导致，通常不建议进行sum、avg等impala常用的操作。请参考官方文档说明： http://www....

2016-08-03 13:13 回复了该问题

0

投票

hive无法查询及删除这个表，请问有啥解决方法吗

你的这个表名称是hive的关键字，所以才会有此问题。你可以试试 drop table `order`

2016-08-03 13:07 回复了该问题

1

投票

问一下大家，我要从MYSQL中实时同步数据到hadoop，可以用flume吗

可以使用flume读取mysql的binlog。这个方面有很多的文档

2016-08-01 11:13 回复了该问题

1

投票

谁知道将spark计算结果存到mysql中的实现

示例代码:var sc= new SparkContext(); var sql = new org.apache.spark.sql.SQLContext(s...

2016-08-01 11:12 回复了该问题

0

投票

hive查询语句中包含汉字报错

这应该是你的数据编码问题导致的。你可以使用utf-8重新编码数据文件后再试试

2016-07-13 17:48 回复了该问题

0

投票

hadoop2.7.1版本自行编译了eclipse插件放到eclipse之后报了下边这个错各位大神帮看看

缺少jar包导致的。 hdfs.DFSConfigKeys 应该是hadoop-hdfs.jar里面的

2016-07-13 12:43 回复了该问题

0

投票

请教，Hadoop如何生成.lzo_deflate压缩格式的文件

TextOutputFormat.setOutputCompressorClass(job, LzoCodec.class);

2016-07-08 12:44 回复了该问题

0

投票

java通过kettle的API调用transformation（转换）报错

你的那个错误缺少 guava jar 包。 guava是Google的类库，有很多重要的java类给你一个下载链接： http://www.java2s.c...

2016-07-08 12:42 回复了该问题

0

投票

cubes 维度数据量过大，造成查询数据过慢，有什么方案解决吗？

遵循现有的多维cube，可做如下优化： 1.升级为固态磁盘 2.提升服务器内存 3.提升服务器网卡如果以上内容还是无法解决，那么你只能选择更新你的架构了。...

2016-07-07 17:26 回复了该问题

1

投票

为什么hadoop的shuffle阶段需要对数据进行排序？

shuffle和sort是MapReduce的核心过程。在执行并发读取操作后，一定要根据唯一的key进行排序，将结果传递给reduce。这个过程会有两次排序。...

2016-07-07 17:20 回复了该问题

0

投票

hdfs的一个文件一般存多大比较合适？目前block是128MB

为了提升mapreduce的计算性能，我们的hdfs文件大小在200 - 500m之间当然，集群的网卡吞吐量也要提升上来，最好选择万兆

2016-07-07 17:17 回复了该问题

Bob

他关注的

他的粉丝

他的回答
排序:
时间 投票