强化学习

🧬 知识点关系网络

智能体⇄环境→状态/动作/奖励→策略优化

⬆️ 在试错中学习，最大化累计奖励。

MDP与值函数 —— 状态、动作、转移概率、奖励、折扣因子。值函数评估长期回报。
💡 用网格世界(GridWorld)手动计算状态价值。
Q-Learning与DQN —— Q-Learning用表格存储Q值，DQN用神经网络近似Q函数，解决维度灾难。
💡 用OpenAI Gym的CartPole训练一个DQN。
策略梯度 —— 直接参数化策略，输出动作概率分布。REINFORCE算法与PPO。
💡 用PPO训练LunarLander，观察奖励曲线。
Actor-Critic —— 结合值函数(Critic)与策略(Actor)，降低方差。A3C、SAC。
💡 理解Advantage函数的含义——比平均好多少？

💡 学习贴士： 理论与代码并重，动手实现经典模型，在GPU上验证想法。

前置依赖： 学习强化学习前，建议具备Python编程、线性代数、概率论基础。

后续延伸： 学完强化学习后，可继续深入AI的其他子领域或应用方向。

🔵 已开放 · 可随时探索🟠 生长中 · 内容持续丰富🟣 探索级 · 深度拓展

🌱 为了包容与博爱的传递，为了知识平权，善智导航正在陆续深化每一个知识点页面。
下方所有知识点均已预留链接，可随时点击探索。

✨ 每个链接都是一扇门，推开即是新世界。

AlphaGo、OpenAI Five，在复杂博弈中超越人类。

让机器人学会行走、抓取、飞行。

决策规划模块，在复杂交通场景中做出最优选择。

在金融市场中学习最优买卖策略。

我是一名正在学习强化学习的学生，请用生动易懂的方式为我讲解其核心概念，并结合AI领域的实际应用场景加以说明。