• 2022.07.24

    上课日期

  • 180

    服务期

  • 长期有效

    有效期

课程参数
有回放
直播结束后,会有回放视频提供
教学服务
答疑辅导
答疑解惑, 及时扫清学习过程中的障碍, 助你顺利完成学习。
直播串讲
循环+专项直播,带你梳理知识体系,让学习过程更顺畅。
就业服务
一对一职业规划,就业指导,为你高薪就业保驾护航。

《狂野大数据》是传智教育旗下博学谷品牌推出的,针对有IT行业经验人员的大数据技术体系在职提升课
课程包含完整的大数据体系中常用的组件和技术,内容丰富有深度。场景式教学、真·实战项目以及贴合企业实际需求的内容编排,确保教学质量和学员的吸收效果。同时固定周期直播+视频回看的授课方式,满足了学习时间的灵活性。指定城市月薪不达15K或18K全额退还学费的保障,让您的学习无后顾之忧。

学完收获 :
熟练使用DS、Oozie、AirFlow等任务调度工具,完成大数据任务调度
熟悉Linux基本操作,完成分布式虚拟机搭建任务
了解数据仓库开发从需求沟通、标签定义、编码开发、整个流程
能够利用Python语言完成Spark编程任务
能够利用Java完成MapReduce编程,Flink任务编程
熟练掌握Hadoop生态体系
掌握MapReduce原理及优化技巧
熟悉掌握Spark生态技术栈
能够利用SparkCore完成基础数据处理
能够使用SparkSQL完成大数据数据处理及统计分析
能够利用HiveSQL完成基础数据仓库构建
能够利用Spark On Hive完成企业级离线数据处理及统计工作
熟练Mysql数据库
能够完成Spark/Hadoop/HBase/Kafka/Flink等组件的搭建
能够基于Flink进行实时分析和离线分析
掌握Flink核心4大基石
能够基于FlinkSQL完成常见大数据统计分析任务
能够使用Hbase完成大数据异构数据存储
能够掌握Kafka消息队列基础使用
能够掌握Kafka和Flume对接完成实时数据采集工作
熟练使用FineBi等BI工具完成数据展示任务

阶段一 大数据的专属操作系统
|Linux操作系统
1. Linux虚拟化环境安装、2.快照、3.快速备份、4.虚拟环境还原、5.Linux终端远程连接、6.快速备份、7.Linux文件系统、8.Linux权限管理、9.Linux网络管理、10.文本处理指令。
|操作系统编程
1. shell解释器、2.shell脚本执行、3.shell数据类型、4.shell变量、5.shell字符串、6.shell算术运算符、7.shell流程控制、8. Shell函数、9. Shell数组、10.shell中select、11.shell文件加载。
|大数据集群基建
1.网络、2.域名映射、3.免密认证、4.时间服务器同步、5.基础应用平台。
|分布式协调服务
1. ZK集群部署、2. 存储模型、3. SHELL/Java客户端操作、4. 监听机制、5. 选举机制。

学完后具备如下能力: 1. 能够熟练使用Linux系统;2. 能够使用Linux命令来管理操作磁盘、权限、网络等;3. 能够通过基于SHELL脚本编写程序;4. 能够通过脚本控制程序自动化执行;5. 掌握分布式服务协调系统原理并应用;6. 掌握大数据常用操作系统管理、运维能力。

阶段二 殿堂级开源大数据框架
|环境搭建
1.大数据导论、2.配置网络、3.域名映射、4.免密认证、5.时间服务器同步、6.基础应用平台搭建、7.构建分布式环境、8.benchmark性能测试
|高吞吐下的分布式存储
1.客户端操作(Java、SHELL、RESTful)、2.文件存储权限管理、3.集群架构、4.机架感知、5.分区副本机制、6.分布式存储原理、7.大批量写、8.大批量读
|元数据管理
1. NameNode管理策略、2. SecondaryNameNode元数据管理策略、3. 元数据存储机制
|文件管理
1. archive、 2. trash、 3. snapshot
|分布式计算引擎先驱
1.分治编程思想、2.分布式计算编程模型、3.分区与并行度、4.排序与序列化、5.自定义分组、6.分布式计算运行原理、7.分布式计算编程实战、8.分布式计算性能调优
|分布式资源调度
1.集群架构、2.资源角度管理、3.分布式应用执行原理、4.资源调度策略、5.队列调度、6.容量调度、7.公平调度、8.参数调优、9.高可用HA

学完后具备如下能力: 1,掌握集群的环境准备、搭建能力;2,掌握HDFS的使用;3,掌握基于HDFS编程;4,理解MapReduce原理和应用场景;5,掌握Yarn的原理和组件。

阶段三 千亿级数仓技术
|数据仓库概论
1.数据仓库介绍、2.特性、3.对比关系型数据库
|架构与部署
1.Hive数仓架构、2. Hive底层原理、3.Hive数仓搭建
|HQL开发
1.DDL、2.DML、3.DQL、4.分区分桶、5.数据装载
|SHELL客户端
1.hive SHELL、2.beeline(meta store server、hive server2)
|HQL高级函数
1.HiveServer内置函数、2.自定义UDF和UDAF
|Hive调优
1.常见性能优化、2.explain执行计划详解

学完后具备如下能力: 1,掌握Hive的使用;2,掌握Hive的架构;3,掌握OLAP的设计特点;4,能够运用HQL开发ETL;5,能够使用各种策略进行Hive调优。

阶段四 企业级大数据数仓平台项目实战
|亿品新零售项目介绍
本阶段为大数据的核心项目实战课程,该阶段课程将之前所学习的所有阶段课程集成在一起,将技术真正地应用在实际的业务场景中。该项目课程为新零售行业的真实大数据项目转换而来,项目中大量使用到目前离线数仓的主流技术。例如:采用ClouderaManager快速搭建大数据平台,采用sqoop进行数据导入导出、采用Hive作为离线数仓引擎、采用Oozie作为离线作业调度、使用FineBI工具作为可视化BI工具等。项目经过精心设计,从项目的需求、技术架构、业务架构、部署平台、ETL设计、作业调度等整套完整pipeline。
|主讲知识点
1.基于CM自动部署和配置、2.数据仓库建模、3.离线数仓架构分层、4.使用Git版本控制和CodeReview、5.使用Oozie进行作业调度、6.Hive2的使用和调优、7.Sqoop进行Mysql和Hive的双向海量数据同步、8.使用拉链表完成增量数据的统计分析、9.使用FineBI完成数据可视化。

学完后具备如下能力: 1,掌握从需求、设计、研发、测试到落地上线的完整项目流程。2,掌握大数据量场景下优化配置。3,掌握拉链表的具体应用,新增、更新数据的抽取和分析。4,掌握hive函数的具体应用等。5,掌握基于CM的大数据环境部署和管理。6,掌握数据仓库的核心概念和应用。7,掌握最常用的离线大数据技术:oozie、Sqoop、hive等。8,掌握FineBI可视化。

阶段五 PB级内存计算框架
|Python编程语言
1.语言基础、2.开发环境、3.数据类型、4.集合、5.函数式编程、6.class、7.object
|Pandas数据处理
1.DataFrame、2.结构化数据处理
|Spark Core
1. Standalone Standalone HA、2. Spark on YARN、3. 创建RDD、4. RDD函数、5. Checkpoint、6.共享变量、7.内核调度、8.内存管理
|Spark SQL
1. Spark SQL、2.Spark Session、3. DataFrame、4.DataSet、5.UDF、6.UDAF、7.Spark SQL CLI、8.Thrift Server
|Structured Streaming
1. input source、2. streaming queries、4. Eventtime Window、5. Continuous Processing

学完后具备如下能力: 1,掌握Python语言基础数据结构; 2,掌握Python语言高阶语法特性; 3,掌握Spark的RDD、DAG、CheckPoint等设计思想; 4,掌握SparkSQL结构化数据处理,Spark On Hive整合; 5,掌握SparkStreaming偏移量管理及Checkpoint; 6,掌握Structured Streaming整合多数据源完成实时数据处理。

阶段六 Spark大数据项目实战
|富华保险项目介绍
课程涵盖真实保险行业相关业务和实时业务,从项目核心架构和业务流程、Hive数仓建模 、Sqoop数据同步开发 DolphinScheduler任务调度、使用lag,sum等窗口函数 、使用UDAF函数计算有效保单数字段、计算现金价值、计算和准备金、分区表的使用 、指标汇总计算 、Shuffle优化。以企业主流的Spark生态圈为核心技术(Spark、Spark SQL、Structured Streaming)、Spring Cloud数据微服务开发、存储和计算性能调优、还原企业搭建大数据平台的完整过程。
|主讲知识点
1. 基于Hive+Spark SQL搭建离线数据仓库、2. Sqoop数据同步开发、 3. DolphinScheduler任务调度、4. UDAF函数、5. 分区表的使用、6. Shuffle优化、7.Spring Cloud数据微服务开发

学完后具备如下能力: 1.掌握快速搭建保险行业大数据平台能力; 2.掌握SparkSQL轻松应对复杂的迭代计算; 3.掌握基于Spark分析12亿报单表和8千万客户等数据; 4.掌握保单汇总各类业务指标计算; 5.熟悉基于SpringCloud搭建Web平台。

阶段七 高性能NoSQL存储与秒处理百万级消息的顶级MQ
|高性能缓存服务Redis
1.Linux部署、2.数据类型、3.SHELL与Java客户端操作、4.持久化(RDB、AOF)、5. 事务、6. 过期策略、7. 内存淘汰策略、8. 架构(主从复制、哨兵、集群)、9.常见问题
|基于HDFS的低延迟高吞吐KV型NoSQL分布式数据库-HBase
1.集群搭建、2.数据模型SHELL操作、3.SHELL管理操作、4.Java客户端编程、5. HMaster高可用、6.架构、7.陌陌海量存储实战、8.原理、9.批量装载BulkLoad、10.coprocessor、11.跳表、12.二叉搜索树、13.平衡二叉树、14.红黑树、15.B树、16.B+树、17.LSM树、18.布隆过滤器、19.StoreFile结构、20.调优
|低延迟高吞吐分布式支持海量数据传输的消息队列-Kafka
1.消息队列导论、2.集群部署、3.数据操作、5.架构、6.原理、7.监控平台

学完后具备如下能力: 1,掌握Redis原理及架构; 2,掌握Hbase原理及架构; 3,掌握使用HBase存储清洗、转换后的海量数据; 4,掌握使用HBase结合Phoneix进行优化查询; 5,掌握Kafka原理及架构。

阶段八 性能之巅——亚秒级实时计算技术
|Flink基础
1.环境搭建部署与快速入门、导论(官方介绍/组件栈/四大基石/应用场景)、2.集群部署、3.API开发、4.打包部署、5.集群角色、6.执行流程、7.DataFlow、8.运行时组件、9.执行图
|Flink Stream
1. source、2. transformation、3. sink
|高级特性
1. window(滑动窗口、滚动窗口、会话窗口)、2. time与watermark、3.状态管理、4.容错机制、5.checkpoint、6.savepoint、7.状态恢复与重启、8.end-to-end Exactly-Once、9.异步IO、10.Streaming File Sink
|Table与SQL
1. Table API与SQL介绍、2.流处理案例、3.FlinkSQL常用算子

学完后具备如下能力: 1.掌握基于Flink进行海量数据集的实时和离线数据处理、分析; 2.掌握基于Flink的多流并行处理技术; 3.掌握Flink中的事件时间窗口计算。

阶段九 实时大数据项目实战
|星途车联网项目介绍
本阶段为大数据体系中实时数据处理方向的项目实战阶段。近些年来,众多企业开始进行数字化转型,越来越多的业务直接依赖于大数据技术的支撑。企业对大数据技术的时效性要求也越来越高,很多企业都开始启动实时大数据项目,以大量的高性能、低延迟、高容错的实时组件来完善实时大数据项目的架构。该项目中覆盖了大型实时项目的完整流程。从海量实时数据的采集、到实时数据的计算、到落地存储、到监控预警、到实时展示等。并且能够从项目中学习到大量的技术解决方案实现,帮助学生完成更高层级的就业。
|主讲知识点
1. Flink实现秒级计算、2. HBase应对PB级规模数据、3. QBOX车辆终端数据收集、4.QBOX车辆终端数据解析、5.HBase性能调优。

学完后具备如下能力: 1.掌握基于Flink全栈进行快速OLAP分析; 2.掌握实时高性能海量数据分析与存储; 3.掌握针对HBase调优实现HBase存储优化; 4.掌握数据报表分析; 5.掌握业务数据实时大屏场景实现; 6.项目上线部署、运维监控。

阶段十 大厂面试题
|面试技巧
1.提升学生在面试时的沟通技巧,能够将自己掌握的知识完整的表达出来。
|面试题
1.Hive常见面试题讲解、2.Spark常见面试题讲解、3. 2.Flink常见面试题讲解、4.HBase常见面试题讲解、5.Kafka常见面试题讲解、6.SQL常见面试题讲解。

学完后具备如下能力:

亿品新零售大数据平台

本阶段为大数据的核心项目实战课程,该阶段课程将之前所学习的所有阶段课程集成在一起,将技术真正地应用在实际的业务场景中。该项目课程为新零售行业的真实大数据项目转换而来,项目中大量使用到目前离线数仓的主流技术。例如:采用ClouderaManager快速搭建大数据平台,采用sqoop进行数据导入导出、采用Hive作为离线数仓引擎、采用Oozie作为离线作业调度、使用FineBI工具作为可视化BI工具等。项目经过精心设计,从项目的需求、技术架构、业务架构、部署平台、ETL设计、作业调度等整套完整pipeline。

技术亮点:

  • 基于CM自动部署和配置
  • 离线数据仓库建模
  • 离线数仓架构分层
  • 使用Git版本控制和CodeReview
  • 使用Oozie进行作业调度
  • Hive2的使用和调优
  • Sqoop进行Mysql和Hive的双向海量数据同步
  • 使用拉链表完成增量数据的统计分析
  • 使用FineBI完成数据可视化
  • 富华保险

    课程涵盖真实保险行业相关业务和实时业务,从项目核心架构和业务流程、Hive数仓建模 、Sqoop数据同步开发 DolphinScheduler任务调度、使用lag,sum等窗口函数 、使用UDAF函数计算有效保单数字段、计算现金价值、计算和准备金、分区表的使用 、指标汇总计算 、Shuffle优化。以企业主流的Spark生态圈为核心技术(Spark、Spark SQL、Structured Streaming)、Spring Cloud数据微服务开发、存储和计算性能调优、还原企业搭建大数据平台的完整过程。

    技术亮点:

  • 掌握快速搭建保险行业大数据平台能力
  • 掌握SparkSQL轻松应对复杂的迭代计算
  • 掌握基于Spark分析12亿报单表和8千万客户等数据
  • 掌握保单汇总各类业务指标计算
  • 熟悉基于SpringCloud搭建Web平台
  • 星途车联网

    近年来,国家大力推广新能源汽车产业,汽车附加产业。随着车辆设备终端技术的发展,收集车辆数据高度精确且极其高效。大型车企累计大量数据,在传统模式数据存储和计算方式下,无法满足原始车辆数据高效存储、快速计算、智能推荐等需求,此系统应运而生。车联网大数据系统通过TBOX车辆终端收集车辆上报原始数据,通过嵌入式代码解析为TSP数据、DCS数据、充电数据、HU数据,原始数据经过ETL转换存储到数仓中,存储到NoSQL数据库系统中与分布式文件系统上。在计算与服务层,提供实时计算服务与离线计算服务,最终通过API接口提供数据查看,以报表和大屏展示分析结果数据。

    技术亮点:

  • 海量数据处理,系统15分钟内收集的新能源车辆的数据超过千万条
  • 基于Hive、HBase、HDFS数据存储
  • 基于Kafka数据传输
  • 基于Flink全栈数据处理
  • 基于Nginx做反向代理、LSV和Keepalived负载均衡和高可用
  • 知行教育大数据平台

    还原大型在线教育的大数据平台,建立企业数据仓库,统一企业数据中心,把分散的业务数据集中存储和处理。项目从需求调研、设计、版本控制、研发、测试到落地上线,涵盖了项目的完整工序,项目中挖掘分析海量用户行为数据,定制多维数据集合,形成数据集市,供各个场景主题使用。

    技术亮点:

  • 基于CM平台进行 数据仓库建模、离线数仓架构分层
  • 使用ClouderaManager可视化自动部署和集群
  • 使用Git版本控制和CodeReview
  • 使用Oozie进行作业调度、Hive2的使用和调优、 Sqoop进行MySQL和Hive的双向海量数据同步
  • 使用拉链表完成增量数据的统计分析
  • 使用FineReport完成数据可视化
  • 今日证券指数

    本阶段为大数据体系中实时数据处理方向的项目实战阶段。近些年来,众多企业开始进行数字化转型,越来越多的业务直接依赖于大数据技术的支撑。企业对大数据技术的时效性要求也越来越高,很多企业都开始启动实时大数据项目,以大量的高性能、低延迟、高容错的实时组件来完善实时大数据项目的架构。该项目中覆盖了大型实时项目的完整流程。从海量实时数据的采集、到实时数据的计算、到落地存储、到监控预警、到实时展示等。并且能够从项目中学习到大量的技术解决方案实现,帮助学生完成更高层级的就业。

    技术亮点:

  • 掌握基于FTP、Flume + Kafka的实时数据采集开发
  • 掌握TB级海量规模下Flink实时处理开发,保证实时计算高容错
  • 掌握三种不同时间维指标的存储、计算方案(Druid、MySQL、HBase),例如:毫秒级秒级分时等时间维
  • 掌握基于Kylin的即席快速OLAP开发
  • 掌握基于Flink CEP的实时预警监控开发
  • 掌握基于Spring Boot的数据服务接口开发
  • 客快物流

    本项目是基于大型物流公司业务研发的智慧物流大数据平台,公司业务网点覆盖国内各地,大规模的客户群体,日订单达1000W,平台对千亿级数据进行整合、分析、处理,保障业务的顺利进行。

    技术亮点:

  • 基于Oracle物流系统
  • 基于MySQL客户系统
  • Oracle数据与MySQL整合
  • 基于Kafka+Structured Streaming实时处理
  • 基于Structured Streaming实现实时ETL
  • 基于高可维护性的Spark DSL实现复杂逻辑
  • 基于Spring Cloud实现数据微服务接口
  • 基于Docker高效部署方案
  • 基于Oracle Golden Gate实时数据采集
  • 基于Canal实时数据采集
  • 一站制造

    通过大数据技术架构,解决工业物联网石油制造行业的数据存储和分析、可视化、个性化推荐问题。一站制造项目主要基于hive数仓分层来存储各个业务指标数据,基于sparksql做数据分析。核心业务涉及运营商、呼叫中心、工单、油站、仓储物料。

    技术亮点:

  • 使用主流的Hive+Spark构建离线数仓
  • 基于完整的工业业务背景实现的离线和实时大数据业务丰富地地图展示可视化开发
  • 基于Airflow完成大数据调度任务
  • 学会使用Spark SQL处理复杂业务完整的离线采集 + 实时采集方案
  • 掌握如何使用调度平台调度T+1批处理任务Spark离线任务和实时任务整合,统一由YARN做资源管理
  • 智数电商

    智数电商主要是对来自全品类B2B2C电商系统的数据进行分析,数据仓库分为离线数仓和实时数仓,技术框架依托于大数据CDH发型版构建。智数电商在业务上贴近企业实际需求,指标计算完成后采用开源BI工具Apache superset对指标数据进行可视化展示。

    技术亮点:

  • 数据存储以HDFS、Hive、Hbase为基石,轻松应对千亿级规模数据
  • 离线计算以Spark为核心,以企业主流的Spark-SQL进行数据处理、分析
  • 使用实时计算引擎Flink实现秒级指标计算
  • 基于Kafka+Flink+ ApacheDruid三大性能框架搭建实时数仓
  • 还原大型互联网公司实时数仓分层(ods、dwd、dws、app)
  • 基于开源ELT平台Kettle实现离线采集
  • 基于阿里开源Canal实现采集业务数据库数据
  • 基于Apache Flume实时日志采集
  • 基于Google ProtoBuf实现消息序列化,保证Kafka高效存储
  • 基于Parquet+Snappy存储、压缩、保障HDFS高效存储
  • 围绕Apache Kylin实现毫秒级大规模数据分析Cube高阶调优技术,解决碎片、膨胀等常见企业开发问题。
  • 万网信号

    已经是人们生活中重要的通信、咨询、娱乐工具,本项目基于手机测速软件采集的数据,对用户的网速、上行下行流量、网络制式、信号强度等信息进行宏观分析,根据数据分析结果,计算出附近通讯厂商包括移动、联通、电信的信号强度。

    技术亮点:

  • 基于HDFS+Hive+SparkSQL离线计算
  • 基于Canal+Flume+Kafka+Spark Streaming实时计算
  • 基于HBase单日亿级海量数据存储
  • 基于HBase+Phoenix实时数据查询
  • 覆盖中国移动、中国联通、中国电信等信号检测
  • ECharts地图热力图展示,信号强弱一目了然
  • 信号多维度分析,包含信号强弱、网络质量、信号覆盖等
  • 千面电商

    以某知名电商用户画像系统为基础二次开发,形成本项目。包含了几乎所有的常见标签类型的计算思路,也具有数个机器学习类型的标签,标签种类充足。采用 Spark 进行数据开发,使用 Spring 系统作为业务系统开发,包含了从部署到标签计算的全流程。

    技术亮点:

  • 项目使用HBase存储海量用户标签数据
  • 基于HBase的协处理器整合Solr实现快速全文检索
  • 基于Spark MLLib建立数据挖掘模型
  • 基于大数据平台的机器学习库
  • 基于Ooize的作业调度工程
  • 每个模型对应一个JOB,每个JOB独立运行,保障容错性同时保障可维护性
  • 自动化模型管理、监控
  • 每个标签可视化集中管理,每个标签独立发布产品
  • 蜂鸟DMP广告系统

    DMP全称数据管理系统,为广告系统提供数据服务,其中涉及标签处理、用户识别、图计算等技术点,可以帮助学员强化大数据开发能力。

    技术亮点:

  • Apache Kude+Apache Impala、Apache Kudu + Spark兼顾AdHoc、OLAP
  • 基于Cloudera、小米主推的性能存储、计算方案
  • 以性能引擎驱动的用户画像标签技术
  • 收益广告投放汇报
  • 以Elastic Search构建快速存储以及标签查询
  • 精准营销兼顾线上、线下
  • 基于图计算搭建千万用户之间关系网
  • 基于Spark DataFrames构建图快速识别同一用户,精准数据结果
  • 天知票务反爬

    天知票务反爬系统,是一款大数据防爬工具,该项目采用Lua+Spark+Redis+Hadoop框架搭建,包含状态监控、反爬指标配置、运营指标监控展示等主要功能,能够限制爬虫访问,从而解决各大订票网站恶意占座、系统资源虚耗、系统波动等问题。

    技术亮点:

  • Nginx+OpenResty+Lua+Redis实现实时秒级爬虫封禁
  • 上万高并发实时拦截
  • 强化杀虫剂、出生即死亡,业务系统的忠实守卫
  • 以Apache Kafka消息队列实现各个模块耦合
  • 保障反爬系统高吞吐、高容错
  • 简单易用UI,可视化规则设计
  • 利用自定义规则持续改进反爬系统
  • 实时上传,实时生效,飞速反爬规则上线
  • 通过Spark Streaming实时监控访问状态、集群运行状态
  • 实时系统高容错保证,7*24小时不间断反爬