计算机视觉

🧬 知识点关系网络

图像分类→目标检测→图像分割→图像生成→视频理解

⬆️ 从识别“是什么”到“在哪里”，再到“每个像素是什么”，视觉任务的粒度不断细化。

图像分类 —— AlexNet到ResNet——深度与残差。数据增强（翻转、裁剪、色彩抖动）提升泛化。
💡 用预训练ResNet在你的数据集上微调。
目标检测 —— 两阶段检测器（Faster R-CNN）——精度高。单阶段检测器（YOLO、SSD）——速度快。
💡 用YOLOv8训练一个自定义目标检测模型。
图像分割 —— 语义分割（FCN、U-Net）——像素级分类。实例分割（Mask R-CNN）——区分个体。
💡 用U-Net做医学图像分割，理解跳跃连接。
多模态与生成 —— CLIP——文本与图像的联合嵌入。扩散模型（Stable Diffusion）——从噪声中迭代生成图像。
💡 用CLIP进行零样本图像分类。

💡 学习贴士： 多动手实践，参与开源项目或在线评测，将理论转化为肌肉记忆。

前置依赖： 学习计算机视觉前，建议具备编程基础与相应的数学知识。

后续延伸： 学完计算机视觉后，推荐继续探索：数据结构 · 算法设计 · 操作系统 · 计算机网络

🔵 已开放 · 可随时探索🟠 生长中 · 内容持续丰富🟣 探索级 · 深度拓展

🌱 为了包容与博爱的传递，为了知识平权，善智导航正在陆续深化每一个知识点页面。
下方所有知识点均已预留链接，可随时点击探索。

✨ 每个链接都是一扇门，推开即是新世界。

目标检测识别车辆行人，语义分割理解道路区域。

AI辅助诊断肺结节、视网膜病变。

人像模式（语义分割）、夜景模式（多帧合成）。

我是一名正在学习计算机视觉的学生，请用生动易懂的方式为我讲解其核心概念，并结合实际应用场景给出代码示例。