你理解错了这个截图的意思。 starting job = 这行表示提交到yarn的job已经生成了ID,到时你可以依据这个jobID来查询job的具体信息 ki...
2015-11-08 17:50 回复了该问题这个工作太细分了。 如果你想拓展下知识面,建议从几个地方: 1.水平方面。增加对数据仓库、ETL技术的熟悉。 常用的ETL工具,SSIS、kettle、ds等要...
2015-11-06 14:47 回复了该问题性能优势还是有的。 Hadoop、spark有高度容错设计,也有很多高效的组件,比老方法肯定是少了很多工作量。 维护量也会减少些。
2015-11-05 13:08 回复了该问题单纯从这条语句来讲,不太好优化。 面对字符串的模糊匹配,通常可以在数据进入hdfs之前就做掉。 例如可以用solr为关键词 建立一个索引 每次有一行记录需要找出...
2015-11-05 13:04 回复了该问题埋点一般是需要在app开发端组建一个专门负责的团队,来对接数据团队。每次发版本前都配合数据、QA一起检测下埋点是否都覆盖了。 市面上也有一些自动化的,比如阿里的...
2015-11-05 12:51 回复了该问题建议你使用 hadoop fs -ls 看看 /usr/local是不是一个目录。 但是从字面理解,/usr/loacal 好像是Linux的目录结构,并不是h...
2015-10-30 13:20 回复了该问题hbase的数据本质上是存储在Hadoop的 datanode中。 但不是普通的hdfs文件存储。 hbase有自己的存储,包括HMaster、HRegionS...
2015-10-30 09:42 回复了该问题1.可以在hdfs的目录上为每个Linux的用户授予不同的权限 2.如果想做到不同用户提交作业,则可以在yarn中配置调度队列 Hadoop生态中有一个 h...
2015-10-29 19:39 回复了该问题spark的任务调度方面可以选择配置yarn作为计算框架。 在任务依赖调度方面可以使用oozie来完成。最新版本的oozie工作流软件中有spark actio...
2015-10-29 19:35 回复了该问题每次重启hbase的时候可以不需要手动开启负载均衡。 hbase的负载均衡是以region为单位进行重新均衡。如果你没有设置hbase.balancer.m...
2015-10-29 16:59 回复了该问题楼上的几个问题确实需要你的解答。 单纯是想解决一个oracle查询慢而自建数据中心,这是不可取的。 你的病历数据多到oracle没法解决,公司的规模应该比较...
2015-10-28 18:12 回复了该问题建议你好好利用下R语言的帮助文档系统。 例如 help("kmeans")是查看kmeans函数的帮助,函数的帮助页面都会记录下返回值的信息...
2015-10-27 13:53 回复了该问题