/ 实战 / Spark进阶 大数据离线与实时项目实战
收藏

Spark进阶 大数据离线与实时项目实战

整合大数据生态圈多个框架(Spark/Hbase/Redis/Hadoop) ,Spark大技术栈的企业级应用

Spark进阶 大数据离线与实时项目实战

难度 中级 时长 14小时30分钟 学习人数 160 好评度 100%

Spark进阶 大数据离线与实时项目实战

观看试看视频

Spark进阶 大数据离线与实时项目实战
本课程以Spark为项目主线,整合Redis和HBase打造以Spark技术栈为核心的离线处理项目以及实时处理项目,以功能实现为基础,并通过调优及重构功能实现,达到满足企业级生产的水平,带你在实战中进行Spark进阶。另外,课程最后讲解了Alluxio整合Hadoop和Spark的使用,以更好的拓展大家的视野
Michael_PK

资深大数据架构师

课程预览

检测到您还没有关注慕课网服务号,无法接收课程更新通知。请扫描二维码即可绑定
重新观看

Spark进阶干货:从使用到调优,整合多个大数据生态圈中的框架

企业应用中Spark不可能单兵作战,掌握Spark与多个框架的结合运用才能真正应对实际需求

  • Spark

  • HBase

  • Hadoop

  • Redis

  • Kafka

  • Alluxio

  • 资深Spark工程师亲授
    内容结合实际工作经验

  • 三分基础,七分实战
    带你在项目中学习

  • 实现功能并调优重构
    达到企业生产标准

  • 理解并掌握课程内容
    可达Spark中级工程师水平

实战Spark“离线”和“实时”两大应用场景

课程整体为一个大项目,以慕课网用户行为日志展现“离线场景”;以订单数据的统计分析展现“实时场景”

Spark整合HBase打造大数据离线项目实战

  • 项目概述:

    使用Spark对慕课网用户行为日志进行ETL处理,处理
    结果落地在HBase,并使用Spark对接HBase存储的日
    志数据进行统计分析

  • 实现功能:

    各地区访问量统计分析
    客户端访问分布情况统计分析

  • 解决的问题:

    离线通用处理架构
    快整合Github已有的资源到项目中
    Spark整合HBase数据使用DataFrame进行读写操作
    通过shell脚本动态传递参数进行Spark作业的提交
    Spark统计结果以正确的姿势写入到MySQL

  • 性能调优:

    Spark中Cache在项目中的使用
    禁用HBase的WAL机制
    使用Spark直接生成HFile文件高效的数据落地到HBase

Spark整合Kafka&Redis打造大数据实时项目实战

  • 项目概述:

    使用Spark Streaming和Redis的整合完成慕课网订单
    数据的实时统计分析

  • 实现功能:

    实时统计每天的总订单数(此处为模拟数据)
    实时统计每天的总订单金额(此处为模拟数据)

  • 解决的问题:

    实时通用处理架构
    Kafka整合Spark Streaming的使用
    根据不同的业务进行Redis数据类型的选择

  • 性能调优:

    项目参数统一配置管理
    如何将多个业务统计分析统计进行抽象提取处理、达到
    共享数据的目的,节省计算资源的开销
    offset管理的思路

实战项目架构:逻辑分层清晰,业务流程完整

若你基础薄弱,为你推荐:Spark亚博电竞提款8到进阶学习路径

讲师已在慕课出品了三门Spark课程,学习路径完整,你可根据自身水平选择

本课程

慕课网精品课程 为你提供超值服务

  • 技术版本维护

    讲师长期维护项目,不会让项目由于
    技术版本更新而无法运行。

  • Git代码仓库

    提供高性能远端Git仓库,方便开发
    者随时随地参与项目。

  • 课程源代码

    免费提供课程源码,课程源码保持长
    期更新维护。

  • 学习社群

    课程专属学习交流群,与优秀的人共
    同进步:互相帮助,共同分享。


  • 专题讨论

    定期组织技术话题讨论,疑难问题/
    热点技术/职业规划/高效学习等热点
    观点等你参与。

  • 问答社区

    遇到困难随时提问,讲师亲自
    答疑解惑。

  • 课后练习

    定制每章课后练习,技能知识
    牢牢掌握。

  • 教辅材料

    辅助视频内容,扩展知识面,让你更
    好,更深的理解知识。

适合人群

想转型或者从事大数据行业的小伙伴

技术储备要求

Spark进阶课程,不是从零基础开始讲解,需要有一定基础
熟悉Scala、Java SE基本语法
熟悉Hadoop基本使用、Linux基本命令
了解Spark SQL和Streaming的基本使用

环境参数

  • Hadoop生态 CDH(5.15.1)
  • Spark 2.4
  • Redis 5.0.5
  • Linux版本 CentOS(7)
  • 开发工具 IDEA

万事俱备 只等你来

  • 慕虎6395684

    好评

    PK大佬的课依旧那么燃爆,我喜欢这个进阶课程,作为提升自己,关键和我们公司的架构很像:Spark+HBase, 关键我想说,大佬的课就是那么通俗易懂,关键怼源代码 怼官网,这个我真的很喜欢! 期待进阶课程之后的,更加一层楼的大佬课程!我会一如既往的支持PK大佬。----来自码农圣地西二旗的菜鸟至上

  • 碧威009

    好评

    一路跟着PK哥的大数据课程学过来的,年初也正式转型成功做起了大数据,目前公司刚好也要用到类似的组件与架构,正好跟着pk哥学一把,真是来得太及时了,给力!

  • 慕仙9089341

    好评

    无意间发现本课程,和我现在的研发工作非常贴近,收获颇丰,借鉴了PK哥的思路,将课程中的优化点在生产上使用起来。特别是流式部分解决了生产上遇到的棘手问题,由于现在的处理没很好处理offset,根据PK哥讲解思路封装了offset的管理,结合限速和背压,生产上的业务跑起来丝滑的顺畅。只是我们在生产上遇到了一个问题:Streaming处理完并入库,但offset未提交作业就挂了,下次消费时这批offset数据还会重新读取处理并入库,导致入库数据的重复,希望PK哥指导下。PK哥讲解思路清晰、节奏紧凑,非常赞,意犹未尽。顺便问问PK哥啥时候讲结构化流,部门正调研这方面的技术,但遇到很多的坑,脑袋疼...

查看全部34条用户评价
提问
数据加载中...
意见反馈 邀请有奖 帮助中心 APP下载
官方微信