赵卫东网站_赵卫东博客

赵卫东
大数据及人工智能培训专家、副教授
http://www.jiangshi.org/1524681收藏讲师购买讲师服务

赵卫东:Hadoop关键技术与Spark内存计算框架

关键词:[hadoop关键技术] [spark] [通信技术] [编程] 浏览:2077 发布日期:2017-09-18 网页收藏

  • 课程对象

    研发技术人员
  • 课程目的

    介绍目前大数据的核心技术和应用实例,并以实践操作和项目式教学的方式着重讲解Hadoop和Spark的基本原理和应用。
  • 课程内容

    一、Hadoop关键技术

    学习如何安装运行各种大数据软件以及如何进行初级编程实践,包括Hadoop、HDFS、MapReduce等安装、操作和编程。其中会介绍一些Hadoop的应用案例,并通过一些实验初步了解Hadoop的操作。

    第1章 Hadoop概论

    1.1 缘于搜索的Hadoop

    1.1.1 Hadoop简介

    1.1.2 Hadoop发展

    1.2 大数据、Hadoop的关系

    1.3 Hadoop设计思想与架构

    1.3.1 数据存储与切分

    1.3.2 MapReduce模型

    1.3.3 MPI和MapReduce

    第2章 Hadoop存储系统

    2.1 基本概念

    2.1.1 NameNode

    2.1.2 DateNode

    2.1.3 客户端

    2.1.4 块

    2.2 HDFS的特性和目标

    2.2.1 HDFS的特性

    2.2.2 HDFS的目标

    2.3 HDFS架构

    2.3.1 Master/Slave架构

    2.3.2 NameNode和Secondary   NameNode通信模型

    2.3.3 文件存取机制

    2.4 HDFS核心设计

    2.5 HDFS权限管理

    第3章 HDFS的使用

    3.1    HDFS环境准备

    3.2 HDFS命令的使用

    3.3 HDFS Java API的使用方法

    第4章 MapReduce计算框架

    4.1 Hadoop MapReduce简介

    4.2 MapReduce模型

    4.2.1 MapReduce编程模型

    4.2.2 MapReduce实现原理

    第5章 Hadoop命令系统

    5.1 Hadoop命令系统的组成

    5.2 用户命令

    第6章 Hadoop作业调度系统

    6.1 作业调度概述

    6.1.1 相关概念

    6.1.2 作业调度流程

    6.1.3 集群资源组织与管理

    6.1.4 队列控制和权限管理

    6.1.5 插件式调度框架

    第7章 Hadoop集群搭建

    7.1 Hadoop版本的选择

    7.2 集群基础硬件需求

    7.3 安装Hadoop

    实验

    实验一:熟悉常用的 Linux 操作和 Hadoop 操作

    实验二:熟悉常用的 HDFS 操作

    实验三:熟悉常用的 HBase 操作

    实验四:NoSQL 和关系数据库的操作比较

    实验五:MapReduce 初级编程实践

    二、Spark内存计算框架

    介绍为什么会出现Spark?Spark是什么?Spark能做什么?还有Spark安装、使用以及编程基础,并初步了解Spark SQL等核心技术。其中穿插一些Spark的典型应用案例,并通过动手实验初步体验Spark的应用。

    第8章 Spark概述

    8.3.1 Spark的出现与发展

    8.3.2 Spark协议族

    8.3.3 Spark的应用及优势

    第9章 Spark原理

    9.1 Spark工作原理

    9.2 Spark架构及运行机制

    9.2.1 Spark系统架构与节点角色

    9.2.2 Spark作业执行过程

    9.2.3 应用初始化

    9.2.4 构建RDD有向无环图

    9.2.5RDD有向无环图拆分

    第10章 RDD算子

    10.1 创建算子

    10.1.1 基于集合类型数据创建RDD

    10.1.2 基于外部数据创建RDD

    10.2 transformation变换算子

    10.2.1对Value型RDD进行变换

    10.2.2对Key/Value型RDD进行变换

    10.3 action行动算子

    10.3.1 数据运算类行动算子

    10.3.2 存储型行动算子

    第11章 安装和使用Spark

    11.1 安装Spark

    11.2 编写和运行Spark程序

    实验:

    实验1:Linux系统基本命令和Hadoop使用方法

    实验2:RDD基本操作

    实验3:迭代式算法编程实践

    实验4:自定义分匙、排序、合并

    实验5:利用DataFrame实现数据库的读写

    实验 6:利用 Spark Streaming 实现流数据处理


上一篇:智能机器人

下一篇:无

企业会员在线交易流程