大数据技术

🎓 研究生📚 专业选修

大数据技术 处理海量、高速、多样数据的平台与工具。 核心素养

🧬 知识点关系网络

批处理
(Hadoop、Spark)
+流处理
(Flink、Kafka)
统一计算引擎数据洞察

⬆️ Lambda架构与Kappa架构,批流一体是趋势。

📖 学习建议(阶梯式路径)

  1. Hadoop生态 —— HDFS的NameNode与DataNode架构。MapReduce的Shuffle瓶颈。Hive将SQL转为MR作业。
    💡 在HDFS上放一个文本文件,用`hdfs dfs -cat`查看。
  2. Spark核心 —— RDD的转换与行动算子。DataFrame与Spark SQL的优化(Catalyst、Tungsten)。
    💡 用Spark处理日志,统计Top N URL。
  3. 流处理 —— Flink的状态与检查点。事件时间与水位线。Kafka Streams的轻量级流处理。
    💡 用Flink消费Kafka,实时计算PV/UV。
  4. 数据可视化 —— Tableau的拖拽式分析。Superset的开源BI。Apache ECharts在Web端绘制图表。
    💡 用Superset连接数据库,创建一个交互式仪表板。
💡 学习贴士: 多动手实践,参与开源项目或在线评测,将理论转化为肌肉记忆。

🧠 认知导航

前置依赖: 学习大数据技术前,建议具备编程基础与相应的数学知识。

后续延伸: 学完大数据技术后,推荐继续探索:数据结构 · 算法设计 · 操作系统 · 计算机网络

📚 核心知识点全景

🔵 已开放 · 可随时探索🟠 生长中 · 内容持续丰富🟣 探索级 · 深度拓展

🌱 为了包容与博爱的传递,为了知识平权,善智导航正在陆续深化每一个知识点页面。
下方所有知识点均已预留链接,可随时点击探索。

✨ 每个链接都是一扇门,推开即是新世界。

🏙️ 生活中的大数据技术

📊 实时大屏

双11交易大屏,Flink实时聚合,展示全国订单热力图。

🚕 网约车调度

实时处理司机与乘客位置,匹配订单。

📈 广告归因

Spark分析点击流,计算广告转化效果。

🔗 权威参考

🤖 AI陪练指令

我是一名正在学习大数据技术的学生,请用生动易懂的方式为我讲解其核心概念,并结合实际应用场景给出代码示例。

📁 更多计算机科学AI指令 →