Hadoop大数据分析优质实践课程线下培训班上海站火热招生中_4天

开始时间: 2016-07-23 09:00 星期六
结束时间: 2016-07-24 17:30 星期日
举办地点: 上海市 浦东新区 上海市浦东新区峨山路91弄58号陆家嘴软件园伟泰大厦8楼
主办方:
活动已结束
分享扩散:

报名本课程须知 

了解详细的课程安排,能让你更合理的安排好自己的学习计划

1.png

本课程几乎涵盖了hadoop常用的功能。

hadoop是一个能够让用户轻松架构和使用的分布式计算平台,用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。Hadoop是可靠的,它维护多个工作数据副本,确保能够针对失败的节点重新分布处 理;Hadoop是高效的,它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。本课程通过大量练习和案例对各个知识点技能进行详细讲解。 

培训对象:

需要了解大数据,或者需要熟知大数据管理、维护、开发和数据分析的人,无需具备Hadoop基础和经验,只需要基本的数据库基础。

培训目标:  

动手Clouders Manager的安装和部署  

熟知CDH的安装配置和解决越到的问题  

熟悉Hadoop分布式文件系统  

懂得hdfs分布式文件系统的使用  

了解MapReduce工作原理  

熟知Hadoop集群硬件配置规划  

懂得Hadoop集群配置及优化  

学会如何维护和监测Hadoop集群  

学会怎么使用Sqoop连接关系数据库进行数据导入导出  

了解Hive数据仓库的开发和应用  

Hue的web页面的数据库开发  

精通Hbase列式数据库的开发  

掌握大数据挖掘分析基础  

了解数据挖掘常见的几种工具和对比  

了解几种常用的挖掘算法原理  

了解大公司对大数据的应用场景和未来方向  

课程大纲:

第一天: 

 第一部分:CentOS系统和Cloudera Manager安装配置 

 1.VMware虚拟机安装和配置 

 2.CentOS6.5且64位系统安装 

 3.简单的配置和遇到的问题 

 4.动手和实操 

 5.Cloudera Manager的离线安装 

 第二部分:Cloudera CDH的安装和配置及环境的测试 

 1.Cloudera CDH的离线安装的环彩色文字境准备 和配置,注意事项 

 2.单机版、伪分布式、真分布式介绍和区别 

 3.详细介绍了CDH的部署配置,遇到的问题,怎么解决 

 4.HDFS分布式文件系统的安装配置和测试 

 5.hdfs的权限配置,目录创建,目录查看等命令的使用  

 第二天: 

 第三部分:如何构建分布式数据仓库平台 

 1.怎么样才算是真正意义的大数据平台 

 2.开源Hadoop生态系统的介绍 

 3.数据采集过程与分布式存储 

 1)ETL原理  2)Sqoop  3)HDFS 

 4.数据仓库与数据分析介绍 

 1)MapReduce    2)Hive  3)Pig  4)HBase  5)Impala 

 5.集群监控与调度组件 

 1)Hadoop集群权限管理    2)Hbase列数据库监控  3)Hive集群监控    4)Oozie介绍 

 6.Hue介绍和例子讲解 

 7.日志收集工具 

 1)flume2)kafka 

 8.练习 

 9.案例讲解  1)运营商用户上网记录案例介绍  2)IBM网上舆情分析  

 第四部分:大数据平台部署及案例 

 1.我们应该选哪种Hadoop?1)选哪个版本?为什么?    2)优点和缺点 

 2.集群硬件应该如何选配?1)网络拓扑  2)内存    3)硬盘  4)CPU    5)价格 

 3.部署案例讲解1)英特尔Hadoop发行版详解2)某省级通信运营商清帐单查询系统介绍  

 第三天: 

 第五部分:Hbase列数据库及应用案例 

 1.Hbase感性认识 

 1)Hbase简介  2)Hbase特点  3)HBase与RDBMS对比  4)HBase体系结构  5)Hbase常见概念 

 2.Hbase主要组成

 1)   HBase基本命令介绍   2)   Zookeeper、Hmaster   3)   HRegionServer、Region     4)   HStore存储、Hfile    5)   Hbase内部扫描RowKey的原理    6)   Hbase内部读写原理  7)   HBase设计原理、架构分析    8)   Hadoop+HBase伸缩性(自动扩容、热部署)   9)   HBase相关表结构设计(列族、列详细分析)10) HBase主HMaster与备用HMaster间的切换原理 

 3.Hbase性能测试1)   测试数据2)   测试过程3)   测试结论4)   和Oracle Rac等进行对比 

 4.Hbase设计原则和优化1)   Hbase的RowKey设计原则2)   性能参数的设置3)   性能参数的调整4)   模型和性能优化 

 5.练习 

 6.项目案例:1)   HBase在小米业务的应用  

 第六部分:大数据挖掘介绍 

 1.大数据挖掘几种方法 

 1)传统数据挖掘  2)SPSS_Modeler14.2  3)SAS简介    4)Mahout简介  5)R语言详解6)Rhadoop\Rhive 

 2.算法介绍和应用 

 1)关联分析  2)K-Means  3)决策树C5.0  4)Logistic回归    5)主成分/因子分析  6)Apriori算法  7)预测算法  8)神经网络  9)协同过滤挖掘算法 

 3.例子和练习  

 第四天:  

 第七部分:大数据挖掘应用案例详解 

 1.项目案例详解 

 1) TF-IDF与余弦相似性的应用  2) 电力行业的大数据应用 

 2.大数据在电信行业应用 

 1)用户行为编好分析    2)电信客户流失预测分析 

 3.大数据在零售行业应用

1)销售产品关联分析   2)营销产品推荐系统   3)门店客流量预测案例 

提前准备:  

每人1台电脑(内存超过4G) 安装好VMware Workstation9.0.2中文版

讲师:陈建平

 一、 技术特长:特约杰出讲师,十年相关项目经历,长期从事大数据相关的工作。精通大数据技术,熟悉关系型数据库oracle10G\Mysq\DB2和GreenPlum等;精通hadoop、Hbase、HDFS、Hive、Pig、Hue、Spark等开源技术,对实时处理Storm、Spark Streaming有较深的认识,熟悉分布式计算MapReduce。精通数据挖掘算法和解决方案。对spss\R语言\SparkMLlib等挖掘工具,比如决策树、K-means、神经网络、Logistc线性回归、Apriori算法、协同过滤算法等。熟悉零售、电信、移动、电力、证券、网络、物流、无线等行业。 

二、 工作经历:福建永辉股份有限公司高级经理IBM上海分公司BI+云计算+数据挖掘顶点软件股份有限公司数据挖掘+产品经理 

三、 认证资质:CCNP OCP PMP 高级软件证书 Cloudera 管理员开发证书

四、部分培训单位:北京电力公司 福建电信公司 上海物流企业 苏宁电器 中国工商银行上海烟草 湖北电力公司 IBM企业 福建师范大学软件学院

五、 项目经历:

项目名称:零售线上大数据挖掘分析、空间大数据项目、IBM的大数据系统 、在线商城的个性化营销推荐系统 、证券客户特征流失挖掘分析系统 、电信数据仓库系统 、电信客户流失预警挖掘分析 、证券客户数据中心项目(ODS) 

2.png

5 人报名

改版

反馈