开始时间: | 2016-07-23 09:00 星期六 |
---|---|
结束时间: | 2016-07-24 17:30 星期日 |
举办地点: | 上海市 浦东新区 上海市浦东新区峨山路91弄58号陆家嘴软件园伟泰大厦8楼 |
主办方: |
|
了解详细的课程安排,能让你更合理的安排好自己的学习计划
hadoop是一个能够让用户轻松架构和使用的分布式计算平台,用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。Hadoop是可靠的,它维护多个工作数据副本,确保能够针对失败的节点重新分布处 理;Hadoop是高效的,它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。本课程通过大量练习和案例对各个知识点技能进行详细讲解。
需要了解大数据,或者需要熟知大数据管理、维护、开发和数据分析的人,无需具备Hadoop基础和经验,只需要基本的数据库基础。
动手Clouders Manager的安装和部署
熟知CDH的安装配置和解决越到的问题
熟悉Hadoop分布式文件系统
懂得hdfs分布式文件系统的使用
了解MapReduce工作原理
熟知Hadoop集群硬件配置规划
懂得Hadoop集群配置及优化
学会如何维护和监测Hadoop集群
学会怎么使用Sqoop连接关系数据库进行数据导入导出
了解Hive数据仓库的开发和应用
Hue的web页面的数据库开发
精通Hbase列式数据库的开发
掌握大数据挖掘分析基础
了解数据挖掘常见的几种工具和对比
了解几种常用的挖掘算法原理
了解大公司对大数据的应用场景和未来方向
第一部分:CentOS系统和Cloudera Manager安装配置
1.VMware虚拟机安装和配置
2.CentOS6.5且64位系统安装
3.简单的配置和遇到的问题
4.动手和实操
5.Cloudera Manager的离线安装
第二部分:Cloudera CDH的安装和配置及环境的测试
1.Cloudera CDH的离线安装的环彩色文字境准备 和配置,注意事项
2.单机版、伪分布式、真分布式介绍和区别
3.详细介绍了CDH的部署配置,遇到的问题,怎么解决
4.HDFS分布式文件系统的安装配置和测试
5.hdfs的权限配置,目录创建,目录查看等命令的使用
第三部分:如何构建分布式数据仓库平台
1.怎么样才算是真正意义的大数据平台
2.开源Hadoop生态系统的介绍
3.数据采集过程与分布式存储
1)ETL原理 2)Sqoop 3)HDFS
4.数据仓库与数据分析介绍
1)MapReduce 2)Hive 3)Pig 4)HBase 5)Impala
5.集群监控与调度组件
1)Hadoop集群权限管理 2)Hbase列数据库监控 3)Hive集群监控 4)Oozie介绍
6.Hue介绍和例子讲解
7.日志收集工具
1)flume2)kafka
8.练习
9.案例讲解 1)运营商用户上网记录案例介绍 2)IBM网上舆情分析
第四部分:大数据平台部署及案例
1.我们应该选哪种Hadoop?1)选哪个版本?为什么? 2)优点和缺点
2.集群硬件应该如何选配?1)网络拓扑 2)内存 3)硬盘 4)CPU 5)价格
3.部署案例讲解1)英特尔Hadoop发行版详解2)某省级通信运营商清帐单查询系统介绍
第五部分:Hbase列数据库及应用案例
1.Hbase感性认识
1)Hbase简介 2)Hbase特点 3)HBase与RDBMS对比 4)HBase体系结构 5)Hbase常见概念
2.Hbase主要组成
1) HBase基本命令介绍 2) Zookeeper、Hmaster 3) HRegionServer、Region 4) HStore存储、Hfile 5) Hbase内部扫描RowKey的原理 6) Hbase内部读写原理 7) HBase设计原理、架构分析 8) Hadoop+HBase伸缩性(自动扩容、热部署) 9) HBase相关表结构设计(列族、列详细分析)10) HBase主HMaster与备用HMaster间的切换原理
3.Hbase性能测试1) 测试数据2) 测试过程3) 测试结论4) 和Oracle Rac等进行对比
4.Hbase设计原则和优化1) Hbase的RowKey设计原则2) 性能参数的设置3) 性能参数的调整4) 模型和性能优化
5.练习
6.项目案例:1) HBase在小米业务的应用
第六部分:大数据挖掘介绍
1.大数据挖掘几种方法
1)传统数据挖掘 2)SPSS_Modeler14.2 3)SAS简介 4)Mahout简介 5)R语言详解6)Rhadoop\Rhive
2.算法介绍和应用
1)关联分析 2)K-Means 3)决策树C5.0 4)Logistic回归 5)主成分/因子分析 6)Apriori算法 7)预测算法 8)神经网络 9)协同过滤挖掘算法
3.例子和练习
第七部分:大数据挖掘应用案例详解
1.项目案例详解
1) TF-IDF与余弦相似性的应用 2) 电力行业的大数据应用
2.大数据在电信行业应用
1)用户行为编好分析 2)电信客户流失预测分析
3.大数据在零售行业应用
1)销售产品关联分析 2)营销产品推荐系统 3)门店客流量预测案例
每人1台电脑(内存超过4G) 安装好VMware Workstation9.0.2中文版
一、 技术特长:特约杰出讲师,十年相关项目经历,长期从事大数据相关的工作。精通大数据技术,熟悉关系型数据库oracle10G\Mysq\DB2和GreenPlum等;精通hadoop、Hbase、HDFS、Hive、Pig、Hue、Spark等开源技术,对实时处理Storm、Spark Streaming有较深的认识,熟悉分布式计算MapReduce。精通数据挖掘算法和解决方案。对spss\R语言\SparkMLlib等挖掘工具,比如决策树、K-means、神经网络、Logistc线性回归、Apriori算法、协同过滤算法等。熟悉零售、电信、移动、电力、证券、网络、物流、无线等行业。
二、 工作经历:福建永辉股份有限公司高级经理IBM上海分公司BI+云计算+数据挖掘顶点软件股份有限公司数据挖掘+产品经理
三、 认证资质:CCNP OCP PMP 高级软件证书 Cloudera 管理员开发证书
四、部分培训单位:北京电力公司 福建电信公司 上海物流企业 苏宁电器 中国工商银行上海烟草 湖北电力公司 IBM企业 福建师范大学软件学院
五、 项目经历:
项目名称:零售线上大数据挖掘分析、空间大数据项目、IBM的大数据系统 、在线商城的个性化营销推荐系统 、证券客户特征流失挖掘分析系统 、电信数据仓库系统 、电信客户流失预警挖掘分析 、证券客户数据中心项目(ODS)