MarsJ

大数据玩家~DS

始于: 2015-10-13

广东省 广州市

发私信

1580

总声望

216

次被推荐

0

粉丝

他的回答
排序:

0
投票

各位大神请个问题,hive 里支持事务型的桶表增加字段,查询不了怎么处理,感谢

查询不了是什么原因?方便的话把日志贴出来。

2016-09-08 11:47 回复了该问题
0
投票

各位有没有hadoop分布式文档???、

本周发布了一个Hadoop集群搭建的文档,详细可以参考我的博客

2016-09-08 11:46 回复了该问题
0
投票

想问下给位大神 我用sqoop从hive中导入数据到mysql带有多个主键的表中速度如何优化呀

导出到MySQL是增量导入吧?把各个主键作为增量键试试

2016-09-08 11:44 回复了该问题
0
投票

hive 动态分区 建了2000多个,load数据到table时超级慢,有没有这方面经验。

合理分区啊。。每个分区都会被记录到HDFS的NAMESPACE,为了而不增加NameNode的压力,一定要合理使用Hive的分区。另外,分区后若有比较多的小文件...

2016-09-03 09:33 回复了该问题
0
投票

谁有Spark大数据分析实战的pdf版本?谢谢!

这本书在微信读书上有。有试读章节,看完试读的如果觉得OK可以买,或者有需要我可以在微信上送你。 内容还行,适合入门

2016-09-02 14:38 回复了该问题
0
投票

问大家一个问题,hive 配置远程链接hadoop集群,我在别的机器上连hive的时候是输入hive的ip地址和端口号,还是链接的hadoop集群的namenode IP和端口号?

如果你在别的机器上要使用Hive server等,当然是Hive安装在哪里,就写哪里的链接,IP或主机名都行

2016-08-31 18:30 回复了该问题
0
投票

如何向hadoop集群定时提交一个jar作业,哪位大神有shell脚本的模板吗

1、创建一个shell脚本文件test.sh,里面写上你要执行的jar作业执行命令:hadoop jar XXX.... 2、借助Linux的定时调度系统Cro...

2016-08-31 09:41 回复了该问题
1
投票

Hadoop 在写数据的时候,比如a文件学到A数据块,数据备份的时候会将数据复制到B,C块,如果这时候b文件写到A数据块,这个数据备份事怎么处理呢,继续往B,C写还是可以随机写到D,E块?

A文件写到A数据块、B文件写到A数据块,这种说法应该是不正确的。只能说一个文件会根据其大小被切分成几块,假设集群的块大小被设置成64M,若A文件的大小是120M...

2016-08-31 09:32 回复了该问题
0
投票

请教,在hive中生成的parquet文件 和 impala生成的parquet文件相比,大小不一样,有知道原因的吗

源数据、生成方式都一样吗?是在同一台机器上吗?一般情况下是一样的

2016-08-31 09:18 回复了该问题
0
投票

sqoop在导入数据到mysql时,如何让数据不重复导入?若存在数据问题,sqoop如何处理?

Sqoop从Hadoop或Hive或HBase将数据导出到MySQL,是导出,你可以查看一下Sqoop的增量导出。 如果Sqoop的导出你没有设置增量导出,则如...

2016-08-30 10:19 回复了该问题
0
投票

请教下,hbase 里面 表结构,column Family 和 column 是什么关系啊。列都是不固定的

Column Family(CF)是列族,Column是列。Column是属于某一个指定CF的,例如有一个列族叫基本信息BaseInfo,可以将姓名、性别、年龄...

2016-08-29 23:54 回复了该问题
0
投票

想从事分布式系统,计算,hadoop等方面,需要哪些基础,推荐哪些书籍?

要学习Hadoop,需要具备一些Linux基础,和Java基础。 推荐书籍:Hadoop权威指南,另外多关注Hadoop的官方手册。

2016-08-29 23:51 回复了该问题
0
投票

请问在kylin中这种查询为什么不支持select sum(price) from hotprice_copy1 where price > 100.0 and price <5000.0

类似Select sum()这种查询是支持的。查询对象是一个构建好的Cube,或者说数据模型。

2016-08-29 23:50 回复了该问题
1
投票

请教个问题,现在的 大数据的一些平台像Spark/hadoop 在企业BI是怎么共存,和相互补充的?

如果企业已经有传统的BI,可以将BI前期的ETL和数据处理分析等工作挪到Spark、Hadoop上,BI只需要通过某种方式使用Hadoop、Spark的结果输出...

2016-08-29 23:45 回复了该问题
0
投票

hive中没有类似oracle 的months_between这种函数啊?

有的,double months_between(date1, date2) 具体请参考Hive的官方手册:https://cwiki.apache.org/c...

2016-08-27 11:01 回复了该问题

改版

反馈