机器如何学习? (带编码)
在这个简短的单元中,学生将了解基于规则的编程和使用 Scratch 块编码的强化学习之间的区别。
年龄:
大约总时间:2-3 小时
概括
在这个动手编码单元中,学生探索机器如何通过反复试验进行学习——背后的核心理念强化学习(RL)。使用划痕,学生构建自己的横向卷轴游戏,创建对手,然后集成一个真正的强化学习代理,随着时间的推移学习玩游戏。
该单元帮助学生了解计算机如何做出决策、规则与学习系统有何不同,以及人工智能代理如何使用奖励来提高其表现。学生们还讨论强化学习的伦理影响,例如快速学习与缓慢学习何时有益,以及试错系统在现实情况下何时可能存在风险。
最后,学生们以街机风格展示他们的游戏,并比较不同的强化学习配置如何改变人工智能对手的学习方式。
课程流程
第 1 课 — 构建刮刮游戏并添加基于规则的对手
学生使用 Scratch 构建一个卷轴式游戏,然后编写一个简单的基于规则的对手。他们将人类设计的规则与计算机决策进行比较。
第 2 课 — 整合强化学习
学生激活内置的强化学习对手,测试不同的 Q 表,并观察智能体如何通过奖励进行学习。他们探讨了传感器和学习率如何影响性能,并讨论了快速学习与慢速学习的优点和风险。
第 3 课 — 分享、比较和反思
学生们在类似街机的环境中互相游玩彼此开发的游戏,评估哪些强化学习(RL)系统学习速度最快或效率最高。然后,他们探讨伦理问题:强化学习何时有用?何时不安全?在不同的现实场景中,失败的代价是什么?