数据仓库

🎓 研究生📚 专业选修

数据仓库 用于分析决策的主题化、集成化数据集合。 核心素养

🧬 知识点关系网络

数据源ETL/ELT数据仓库数据集市BI分析

⬆️ 从操作型系统到分析型系统,数据仓库是数据驱动决策的基础设施。

📖 学习建议(阶梯式路径)

  1. 架构与ETL —— 传统数仓(Teradata、Oracle)与云原生数仓(Snowflake、Redshift)。ETL与ELT的区别。
    💡 用dbt构建一个简单的ELT数据转换管道。
  2. 多维数据模型 —— 事实表与维度表。星型模式与雪花模式的取舍——冗余换性能。
    💡 为一个零售业务设计星型模式,包含销售事实与时间、商品、门店维度。
  3. OLAP操作 —— 上卷(维度聚合)、下钻(维度细化)、切片(固定维度值)、切块(固定多个维度)。
    💡 在Excel数据透视表中体验OLAP操作。
  4. 数据湖与湖仓一体 —— 数据湖(S3、HDFS)存储原始格式数据。湖仓一体(Delta Lake、Iceberg)在湖上增加ACID与Schema。
    💡 用Spark读写Parquet文件,理解列式存储的优势。
💡 学习贴士: 多动手实践,参与开源项目或在线评测,将理论转化为肌肉记忆。

🧠 认知导航

前置依赖: 学习数据仓库前,建议具备编程基础与相应的数学知识。

后续延伸: 学完数据仓库后,推荐继续探索:数据结构 · 算法设计 · 操作系统 · 计算机网络

📚 核心知识点全景

🔵 已开放 · 可随时探索🟠 生长中 · 内容持续丰富🟣 探索级 · 深度拓展

🌱 为了包容与博爱的传递,为了知识平权,善智导航正在陆续深化每一个知识点页面。
下方所有知识点均已预留链接,可随时点击探索。

✨ 每个链接都是一扇门,推开即是新世界。

🏙️ 生活中的数据仓库

📈 销售分析

按地区、时间、品类分析销售额与利润。

👥 用户画像

整合多源数据,构建用户标签宽表。

🤖 机器学习

数据仓库为模型训练提供清洗后的特征数据。

🔗 权威参考

🤖 AI陪练指令

我是一名正在学习数据仓库的学生,请用生动易懂的方式为我讲解其核心概念,并结合实际应用场景给出代码示例。

📁 更多计算机科学AI指令 →